คู่มือการตัดสินใจของ Microsoft Fabric: คัดลอกกิจกรรม กระแสข้อมูล หรือ Spark
ใช้คู่มืออ้างอิงนี้และสถานการณ์ตัวอย่างเพื่อช่วยให้คุณตัดสินใจว่าคุณต้องการกิจกรรมการคัดลอก กระแสข้อมูล หรือ Spark สําหรับปริมาณงาน Microsoft Fabric ของคุณหรือไม่
คัดลอกคุณสมบัติกิจกรรม กระแสข้อมูล และ Spark
กิจกรรมการคัดลอกไปป์ไลน์ | กระแสข้อมูลรุ่น 2 | ประกาย | |
---|---|---|---|
กรณีการใช้งาน | การโยกย้ายคลังข้อมูลและที่จัดเก็บข้อมูล การนําเข้าข้อมูล การแปลงข้อมูลด้วยน้ําหนักเบา |
การนําเข้าข้อมูล การแปลงข้อมูล การจัดเรียงข้อมูล การสร้างโพรไฟล์ข้อมูล |
การนําเข้าข้อมูล การแปลงข้อมูล การประมวลผลข้อมูล การสร้างโพรไฟล์ข้อมูล |
บุคลลสําหรับนักพัฒนาหลัก | วิศวกรข้อมูล data integrator (ผู้รวมข้อมูล) |
วิศวกรข้อมูล data integrator (ผู้รวมข้อมูล) นักวิเคราะห์ธุรกิจ |
วิศวกรข้อมูล นักวิทยาศาสตร์ข้อมูล นักพัฒนาข้อมูล |
ชุดทักษะนักพัฒนาหลัก | ETL Sql JSON |
ETL เมตร SQL |
Spark (Scala, Python, Spark SQL, R) |
เขียนรหัส | ไม่มีรหัส, รหัสต่ํา |
ไม่มีรหัส, รหัสต่ํา |
รหัส |
ปริมาณข้อมูล | ต่ําไปสูง | ต่ําไปสูง | ต่ําไปสูง |
อินเทอร์เฟซการพัฒนา | วิ ซาร์ ด ผืน ผ้า ใบ |
Power query | โน๊ต บุ๊ค ข้อกําหนดงาน Spark |
แหล่ง | ตัวเชื่อมต่อมากกว่า 30 ตัว | ตัวเชื่อมต่อมากกว่า 150 ตัว | ไลบรารี Spark หลายร้อยรายการ |
จุดหมาย ปลาย ทาง | ตัวเชื่อมต่อมากกว่า 18 ตัว | เลคเฮ้าส์ ฐานข้อมูล Azure SQL Azure Data explorer Azure Synapse analytics |
ไลบรารี Spark หลายร้อยรายการ |
ความซับซ้อนในการแปลง | ต่ำ: น้ําหนักเบา - การแปลงประเภท การแมปคอลัมน์ การผสาน/แยกไฟล์ ลําดับชั้นลดรูปแบบโครงสร้าง |
ต่ําไปสูง: ฟังก์ชันการแปลงมากกว่า 300+ |
ต่ําไปสูง: การสนับสนุนสําหรับ Spark แบบเนทีฟและไลบรารีโอเพนซอร์ส |
ตรวจทานสามสถานการณ์ต่อไปนี้สําหรับความช่วยเหลือเกี่ยวกับการเลือกวิธีการทํางานกับข้อมูลของคุณใน Fabric
สถานการณ์ที่ 1
Leo วิศวกรข้อมูลจําเป็นต้องนําเข้าข้อมูลจํานวนมากจากระบบภายนอก ทั้งภายในองค์กรและระบบคลาวด์ ระบบภายนอกเหล่านี้ประกอบด้วยฐานข้อมูล ระบบไฟล์ และ API Leo ไม่ต้องการเขียนและรักษาโค้ดสําหรับแต่ละตัวเชื่อมต่อหรือการดําเนินการย้ายข้อมูล เขาต้องการปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดสําหรับเลเยอร์เหรียญรางวัลด้วยทองแดงเงินและทอง Leo ไม่มีประสบการณ์ใด ๆ กับ Spark ดังนั้นเขาจึงชอบการลากและวาง UI มากที่สุดเท่าที่เป็นไปได้โดยใช้การเข้ารหัสที่น้อยที่สุด และเขายังต้องการประมวลผลข้อมูลตามกําหนดการด้วย
ขั้นตอนแรกคือการรับข้อมูลดิบลงในเลคเฮ้าส์ชั้นทองแดงจากแหล่งข้อมูล Azure และแหล่งข้อมูลของบุคคลที่สามต่าง ๆ (เช่น Snowflake Web, REST, AWS S3, GCS และอื่น ๆ) เขาต้องการเลคเฮ้าส์รวม เพื่อให้ข้อมูลทั้งหมดจาก LOB, ภายในองค์กร และแหล่งข้อมูลระบบคลาวด์ทั้งหมดอยู่ในที่เดียว Leo ตรวจทานตัวเลือกและเลือกกิจกรรมการ คัดลอก ไปป์ไลน์เป็นตัวเลือกที่เหมาะสมสําหรับสําเนาไบนารีดิบของเขา รูปแบบนี้ใช้กับการรีเฟรชข้อมูลทั้งในอดีตและแบบเพิ่มหน่วย ด้วยกิจกรรมการคัดลอก Leo สามารถโหลดข้อมูลทองคําไปยังคลังข้อมูลที่ไม่มีรหัสหากมีความจําเป็นและไปป์ไลน์ให้การนําเข้าข้อมูลในระดับสูงที่สามารถย้ายข้อมูลระดับเพตะไบต์ได้ กิจกรรมการคัดลอกเป็นตัวเลือกที่ดีที่สุดสําหรับโค้ดที่ต่ําและไม่มีรหัสในการย้ายข้อมูลเพตะไบต์ไปยังเลคเฮ้าส์และคลังสินค้าจากแหล่งที่มาที่หลากหลายไม่ว่าจะเป็นแบบเฉพาะกิจหรือผ่านตารางเวลา
สถานการณ์สมมติ 2
Mary เป็นวิศวกรข้อมูลที่มีความรู้ลึกเกี่ยวกับข้อกําหนดการรายงานการวิเคราะห์ LOB หลายรายการ ทีมอัพสตรีมได้ใช้โซลูชันในการโยกย้ายข้อมูลในอดีตและเพิ่มหน่วยของ LOB หลายรายการลงในเลคเฮ้าส์ทั่วไปเรียบร้อยแล้ว แมรี่ได้รับมอบหมายให้ทําความสะอาดข้อมูล ใช้ตรรกะทางธุรกิจ และโหลดลงในหลายปลายทาง (เช่น Azure SQL DB, ADX และเลคเฮ้าส์) ในการเตรียมการสําหรับทีมรายงานที่เกี่ยวข้อง
Mary คือผู้ใช้ Power Query ที่มีประสบการณ์ และปริมาณข้อมูลอยู่ในช่วงต่ําถึงปานกลางเพื่อให้ได้ประสิทธิภาพที่ต้องการ กระแสข้อมูลมีอินเทอร์เฟซที่ไม่มีรหัสหรือมีรหัสต่ําสําหรับการนําเข้าข้อมูลจากแหล่งข้อมูลหลายร้อยแหล่ง ด้วยกระแสข้อมูล คุณสามารถแปลงข้อมูลโดยใช้ตัวเลือกการแปลงข้อมูลมากกว่า 300 ตัวเลือก และเขียนผลลัพธ์ลงในหลายปลายทางด้วยส่วนติดต่อผู้ใช้ที่ใช้งานง่ายและมีการแสดงผลด้วยภาพสูง Mary ตรวจทานตัวเลือกและตัดสินใจว่าเหมาะสมที่จะใช้ Dataflow Gen 2 เป็นตัวเลือกการแปลงที่เธอต้องการ
สถานการณ์ที่ 3
Adam เป็นวิศวกรข้อมูลที่ทํางานให้กับบริษัทค้าปลีกรายใหญ่ที่ใช้เลคเฮ้าส์เพื่อจัดเก็บและวิเคราะห์ข้อมูลของลูกค้า Adam มีหน้าที่รับผิดชอบในการสร้างและบํารุงรักษาไปป์ไลน์ข้อมูลที่แยก แปลง และโหลดข้อมูลลงในเลคเฮ้าส์ หนึ่งในข้อกําหนดทางธุรกิจของบริษัทคือการทําการวิเคราะห์รีวิวของลูกค้าเพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับประสบการณ์ของลูกค้าและปรับปรุงบริการของพวกเขา
Adam ตัดสินใจว่าตัวเลือกที่ดีที่สุดคือใช้ Spark เพื่อสร้างตรรกะการแยกและการแปลง Spark มีแพลตฟอร์มการคํานวณแบบกระจายที่สามารถประมวลผลข้อมูลจํานวนมากพร้อมกันได้ เขาเขียนแอปพลิเคชัน Spark โดยใช้ Python หรือ Scala ซึ่งอ่านข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้างจาก OneLake สําหรับความคิดเห็นของลูกค้าและคําติชม แอปพลิเคชันจะทําความสะอาด แปลง และเขียนข้อมูลไปยังตาราง Delta ในเลคเฮ้าส์ จากนั้นข้อมูลจะพร้อมใช้สําหรับการวิเคราะห์ปลายทาง