ETL และ ELT สำหรับ Data Warehouse มีความสำคัญอย่างไร

การรวบรวมข้อมูลในปัจจุบันจะมี 2 รูปแบบ คือ Extract, Transform, Load (ETL) กับ Extract, Load, Transform (ELT) ซึ่งทั้งสองรูปแบบต่างถูกนำมาใช้ในการจัดการระบบเก็บข้อมูลอย่างงาน Business Intelligence และงาน Data Analysis

ขั้นตอนการทำงานของ ETL

ขั้นตอนของ ETL จะเป็นกระบวนการที่ใช้กันมาอย่างยาวนาน ซึ่งกระบวนการนี้จะดึงข้อมูลจากหลายแหล่งเข้าไปรวมไว้ในคลังข้อมูลขนาดใหญ่ โดยมีขั้นตอนดังนี้ 

  1. Extract – การดึงข้อมูล (Extract) จาก Data Source เช่น Database, File ต่างๆ, Spreadsheet 
  1. Transform – แปลงข้อมูล (Transform) ด้วยวิธีการต่างๆ เช่น การ Deduplicate ข้อมูลหรือลบข้อมูลที่ซ้ำกัน, การจัด Format ให้ตรงกันเช่น สกุลเงินให้เป็น “บาท” เหมือนกัน วันที่ให้เป็นรูปแบบเดียวกันเช่น 31/03/2023 (DD/MM/YYYY) 
  1. Load – โหลดข้อมูล (Load) เข้าไปในระบบที่เราใช้เก็บข้อมูลซึ่งที่นิยมใช้กันสำหรับการ ETL จะเป็น Data Warehouse โดยการ Transform และ Load จะเกิดขึ้นพร้อมๆกัน

ETL มีประโยชน์อย่างไรบ้าง 

  1. ข้อมูลรวมอยู่ในที่เดียว
    หากไม่มีการทำ ETL แหล่งข้อมูลก็จะกระจายอยู่หลายที่ก็ทำให้มองข้อมูลเชิงภาพรวมได้ยาก การวิเคราะห์ข้อมูลก็เป็นไปได้ยาก และทำให้การตัดสินใจทางธุรกิจช้าลง
  1. มีระบบจัดการแบบอัตโนมัติ
    เครื่องมือ ETL โดยทั่วไปสามารถสร้างระบบอัตโนมัติได้ เช่น ตั้งค่าการทำ ETL จากข้อมูลชุดหนึ่งในวันเวลาที่กำหนดไว้ 
  1. สร้างข้อมูลที่นำมาใช้ได้จริง
    การทำ ETL จะทำให้ข้อมูลที่ได้มามีคุณภาพ มีความถูกต้องและตรงตามความต้องการของธุรกิจ เช่น ไม่มีข้อมูลที่ซ้ำกัน  

ELT นั้นเป็นกระบวนการที่เกิดขึ้นมาใหม่และนิยมใช้กับระบบเก็บข้อมูล Data Lake ที่อยู่บน Cloud ในโดยวิธีนี้เราจะ Load ข้อมูลเข้าไปวางไว้ในระบบเก็บข้อมูลก่อน จากนั้นผู้ใช้ข้อมูลเช่น BI Analyst สามารถ แปลงข้อมูลจากระบบเก็บข้อมูลได้เมื่อต้องการ 

ความแตกต่างระหว่าง ETL กับ ELT  

 ETL ELT 
ระบบที่เหมาะกับการใช้งาน On-premise Cloud 
ความรวดเร็วของกระบวนการ ใช้เวลานานเพราะต้อง Transform และ Load ไปยังระบบเก็บข้อมูลปลายทางพร้อมๆ กัน ใช้เวลาน้อยกว่าเพราะข้อมูลถูก Load ไปในระบบเก็บข้อมูลปลายทางแล้ว ใช้เวลาในการ Transform อย่างเดียวเมื่อต้องการ 
ข้อมูลส่วนบุคคลหรือที่ควรเป็นความลับ ปลอดภัยมาก สามารถปกปิดข้อมูลที่เป็นความลับหรือส่วนบุคคลก่อน Load เข้าไปได้ ปลอดภัยน้อยกว่า ต้องจัดการกับข้อมูลประเภทนี้ก่อนทำ ELT 
พื้นที่เก็บข้อมูล น้อยกว่า เก็บข้อมูลที่ถูก Transform แล้วอย่างเดียว มากกว่า เก็บข้อมูลทั้งที่ถูก Load มาทั้งหมดและข้อมูลที่ถูก Transform ไว้แล้ว 
ความยืดหยุ่น น้อยกว่า ต้องอัปเดตการ Transform เมื่อข้อมูลที่ต้องการเปลี่ยนไป อาจทำให้เสียเวลาและค่าใช้จ่ายในการ Implement เพิ่มด้วย มากกว่าเพราะเป็นแบบ Self-service  BI Analyst สามารถเข้าถึงและ Transform ตามต้องการได้ทันที 
เครื่องมือ SSIS Azure Synapse Analytics  

จากตารางจะเห็นได้ว่าทั้ง 2 กระบวนการต่างก็มีข้อจำกัดที่แตกต่างกัน แต่ปัจจุบันหลายๆ บริษัทก็เริ่มหันมาใช้ ELT แทน ETL กันมากขึ้นเพราะมีข้อจำกัดที่น้อยกว่าในหลายๆ ด้าน ทั้งด้านราคา ความรวดเร็ว ความยืดหยุ่น ถ้าต้องการรู้จักเครื่องมือที่นิยมใช้ ELT บนระบบ Cloud อย่าง Azure Synapse Analytics อ่านต่อได้ที่ Azure Synapse Analytics

ทีม ZyGen มีเครื่องมือที่พร้อมรองรับทั้ง ETL และ ELT โดยผู้เชี่ยวชาญด้าน Data Warehouse หากท่านสนใจหรือต้องการสอบถามรายละเอียดเพิ่มเติมสามารถปรึกษาทีมงาน ZyGen ได้ทันที 

Source:
https://learn.microsoft.com/en-us/azure/architecture/data-guide/relational-data/etl

Author: Pornpat S. 

แชร์ :
Scroll to Top