แชร์ผ่าน


คู่มือการตัดสินใจของ Microsoft Fabric: คัดลอกกิจกรรม คัดลอกงาน กระแสข้อมูล Eventstream หรือ Spark

ใช้คู่มืออ้างอิงนี้และสถานการณ์ตัวอย่างเพื่อช่วยให้คุณตัดสินใจว่าคุณต้องการกิจกรรมการคัดลอก งานคัดลอก กระแสข้อมูล อีเวนท์สตรีม หรือ Spark สําหรับปริมาณงาน Microsoft Fabric ของคุณหรือไม่

คัดลอกกิจกรรม คัดลอกงาน กระแสข้อมูล เหตุการณ์และคุณสมบัติ Spark

กิจกรรมการคัดลอกไปป์ไลน์ คัดลอกงาน กระแสข้อมูล รุ่น 2 เหตุการณ์เหตุการณ์ของ Spark
ใช้กรณี การโยกย้ายคลังข้อมูลและที่จัดเก็บข้อมูล
การนําเข้าข้อมูล
การแปลงข้อมูลด้วยน้ําหนักเบา
การนําเข้าข้อมูล
สําเนาส่วนที่เพิ่ม
แบบ จำลอง
การย้าย Data Lake และคลังข้อมูล
การแปลงข้อมูลด้วยน้ําหนักเบา
การนําเข้าข้อมูล
การแปลงข้อมูล
การจัดเรียงข้อมูล
การสร้างโพรไฟล์ข้อมูล
การนําเข้าข้อมูลเหตุการณ์
การแปลงข้อมูลเหตุการณ์
การนําเข้าข้อมูล
การแปลงข้อมูล
การประมวลผลข้อมูล
การสร้างโพรไฟล์ข้อมูล
บุคลของนักพัฒนาหลัก วิศวกรข้อมูล
data integrator (ผู้รวมข้อมูล)
นักวิเคราะห์ธุรกิจ
Data Integrator
วิศวกรข้อมูล
วิศวกรข้อมูล
data integrator (ผู้รวมข้อมูล)
นักวิเคราะห์ธุรกิจ
วิศวกรข้อมูล
นักวิทยาศาสตร์ข้อมูล
นักพัฒนาข้อมูล
ตัวรวมข้อมูล
วิศวกรข้อมูล
ชุดทักษะสําหรับนักพัฒนาหลัก ETL
SQL,
JSON
ETL
SQL,
JSON
ETL
M,
SQL
SQL, JSON, การรับส่งข้อความ Spark (Scala, Python, Spark SQL, R)
ที่เขียนรหัส ไม่มีรหัส,
รหัสต่ํา
ไม่มีรหัส,
รหัสต่ํา
ไม่มีรหัส,
รหัสต่ํา
ไม่มีรหัส
รหัสต่ํา
รหัส
ปริมาณข้อมูลของ ต่ําไปสูง ต่ําไปสูง ต่ําไปสูง ปานกลางถึงสูง ต่ําไปสูง
อินเทอร์เฟซการพัฒนาของ พ่อมด
เต็นท์
พ่อมด
เต็นท์
Power คิวรี พื้นที่ทำงาน สมุด
ข้อกําหนดงาน Spark
แหล่งข้อมูล ตัวเชื่อมต่อมากกว่า 50 ตัว ตัวเชื่อมต่อมากกว่า 50 ตัว ตัวเชื่อมต่อมากกว่า 150 ตัว ฐานข้อมูลที่สนับสนุน CDC (Change Data Capture), Kafka, Messaging Systems ที่สนับสนุนการเผยแพร่และรูปแบบการสมัครใช้งาน กระแสข้อมูลเหตุการณ์ ไลบรารี Spark หลายร้อยรายการ
ปลายทางของ ตัวเชื่อมต่อมากกว่า 40 ตัว ตัวเชื่อมต่อมากกว่า 40 ตัว เลคเฮ้าส์
ฐานข้อมูล Azure SQL
Azure Data explorer
Azure Synapse analytics
เหตุการณ์, เลคเฮ้าส์, การแจ้งเตือนตัวกระตุ้น, Stream ที่ได้รับมา, จุดสิ้นสุดแบบกําหนดเอง ไลบรารี Spark หลายร้อยรายการ
ความซับซ้อนในการแปลง ต่ํา: สูง
น้ําหนักเบา - การแปลงประเภท การแมปคอลัมน์ การผสาน/แยกไฟล์ ลําดับชั้นลดรูปแบบโครงสร้าง
ต่ํา: สูง
น้ําหนักเบา - การแปลงประเภท การแมปคอลัมน์ การผสาน/แยกไฟล์ ลําดับชั้นลดรูปแบบโครงสร้าง
ต่ําไปสูง:
ฟังก์ชันการแปลงมากกว่า 300+
ต่ํา: สูง
น้ำหนัก เบา
ต่ําไปสูง:
การสนับสนุนสําหรับ Spark แบบเนทีฟและไลบรารีโอเพนซอร์ส

สถานการณ์สมมติ

ตรวจทานสถานการณ์ต่อไปนี้สําหรับความช่วยเหลือเกี่ยวกับการเลือกวิธีการทํางานกับข้อมูลของคุณใน Fabric

สถานการณ์จำลอง 1

Leo วิศวกรข้อมูลจําเป็นต้องนําเข้าข้อมูลจํานวนมากจากระบบภายนอก ทั้งภายในองค์กรและระบบคลาวด์ ระบบภายนอกเหล่านี้ประกอบด้วยฐานข้อมูล ระบบไฟล์ และ API Leo ไม่ต้องการเขียนและรักษาโค้ดสําหรับแต่ละตัวเชื่อมต่อหรือการดําเนินการย้ายข้อมูล เขาต้องการปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดสําหรับเลเยอร์เหรียญรางวัลด้วยทองแดงเงินและทอง Leo ไม่มีประสบการณ์ใด ๆ กับ Spark ดังนั้นเขาจึงชอบการลากและวาง UI มากที่สุดเท่าที่เป็นไปได้โดยใช้การเข้ารหัสที่น้อยที่สุด และเขายังต้องการประมวลผลข้อมูลตามกําหนดการด้วย

ขั้นตอนแรกคือการรับข้อมูลดิบลงในเลคเฮ้าส์ชั้นทองแดงจากแหล่งข้อมูล Azure และแหล่งข้อมูลของบุคคลที่สามต่าง ๆ (เช่น Snowflake Web, REST, AWS S3, GCS และอื่น ๆ) เขาต้องการเลคเฮ้าส์รวม เพื่อให้ข้อมูลทั้งหมดจาก LOB, ภายในองค์กร และแหล่งข้อมูลระบบคลาวด์ทั้งหมดอยู่ในที่เดียว Leo ตรวจทานตัวเลือกและเลือกกิจกรรมการคัดลอกไปป์ไลน์ เป็นตัวเลือกที่เหมาะสมสําหรับสําเนาไบนารีดิบของเขา รูปแบบนี้ใช้กับการรีเฟรชข้อมูลทั้งในอดีตและแบบเพิ่มหน่วย ด้วยกิจกรรมการคัดลอก Leo สามารถโหลดข้อมูลทองคําไปยังคลังข้อมูลที่ไม่มีรหัสหากมีความจําเป็นและไปป์ไลน์ให้การนําเข้าข้อมูลในระดับสูงที่สามารถย้ายข้อมูลระดับเพตะไบต์ได้ กิจกรรมการคัดลอกเป็นตัวเลือกที่ดีที่สุดสําหรับโค้ดที่ต่ําและไม่มีรหัสในการย้ายข้อมูลเพตะไบต์ไปยังเลคเฮ้าส์และคลังสินค้าจากแหล่งที่มาที่หลากหลายไม่ว่าจะเป็นแบบเฉพาะกิจหรือผ่านตารางเวลา

สถานการณ์จำลอง 2

Mary เป็นวิศวกรข้อมูลที่มีความรู้ลึกเกี่ยวกับข้อกําหนดการรายงานการวิเคราะห์ LOB หลายรายการ ทีมอัพสตรีมได้ใช้โซลูชันในการโยกย้ายข้อมูลในอดีตและเพิ่มหน่วยของ LOB หลายรายการลงในเลคเฮ้าส์ทั่วไปเรียบร้อยแล้ว แมรี่ได้รับมอบหมายให้ทําความสะอาดข้อมูล ใช้ตรรกะทางธุรกิจ และโหลดลงในหลายปลายทาง (เช่น Azure SQL DB, ADX และเลคเฮ้าส์) ในการเตรียมการสําหรับทีมรายงานที่เกี่ยวข้อง

Mary คือผู้ใช้ Power Query ที่มีประสบการณ์ และปริมาณข้อมูลอยู่ในช่วงต่ําถึงปานกลางเพื่อให้ได้ประสิทธิภาพที่ต้องการ กระแสข้อมูลมีอินเทอร์เฟซที่ไม่มีรหัสหรือมีรหัสต่ําสําหรับการนําเข้าข้อมูลจากแหล่งข้อมูลหลายร้อยแหล่ง ด้วยกระแสข้อมูล คุณสามารถแปลงข้อมูลโดยใช้ตัวเลือกการแปลงข้อมูลมากกว่า 300 ตัวเลือก และเขียนผลลัพธ์ลงในหลายปลายทางด้วยส่วนติดต่อผู้ใช้ที่ใช้งานง่ายและมีการแสดงผลด้วยภาพสูง Mary ตรวจทานตัวเลือกและตัดสินใจว่าเหมาะสมที่จะใช้ Dataflow Gen 2 เป็นตัวเลือกการแปลงที่เธอต้องการ

สถานการณ์จำลอง 3

Prashant ซึ่งเป็นตัวรวมข้อมูลที่มีความเชี่ยวชาญเชิงลึกในกระบวนการและระบบทางธุรกิจ ทีมอัพสตรีมได้เปิดเผยข้อมูลเหตุการณ์จากแอปพลิเคชันทางธุรกิจเป็นข้อความที่สามารถใช้ได้ผ่านระบบปลายทางเรียบร้อยแล้ว Prashant ได้รับมอบหมายให้รวมข้อมูลจากแอปพลิเคชันทางธุรกิจลงใน Microsoft Fabric เพื่อการสนับสนุนการตัดสินใจแบบเรียลไทม์

กําหนดให้มีปริมาณข้อมูลปานกลางถึงสูงและการกําหนดลักษณะขององค์กรสําหรับโซลูชันที่ไม่มีโค้ด Prashant จะค้นหาวิธีในการส่งต่อเหตุการณ์อย่างราบรื่นเมื่อเกิดขึ้นโดยไม่ต้องจัดการกําหนดการแยกข้อมูล เพื่อตอบสนองความต้องการนี้ เขาเลือก เหตุการณ์สตรีม ใน Microsoft Fabric เหตุการณ์ภายในประสบการณ์ Real-Time Intelligence ช่วยให้สามารถนําเข้า แปลง และกําหนดเส้นทางข้อมูลแบบเรียลไทม์ไปยังปลายทางต่าง ๆ ได้ โดยไม่ต้องเขียนโค้ดใด ๆ

สถานการณ์จำลอง 4

Adam เป็นวิศวกรข้อมูลที่ทํางานให้กับบริษัทค้าปลีกรายใหญ่ที่ใช้เลคเฮ้าส์เพื่อจัดเก็บและวิเคราะห์ข้อมูลของลูกค้า ในฐานะที่เป็นส่วนหนึ่งของงานของเขา อดัมมีหน้าที่รับผิดชอบในการสร้างและบํารุงรักษาท่อที่ดึง แปลง และโหลดข้อมูลลงในเลคเฮาส์ หนึ่งในข้อกําหนดทางธุรกิจของบริษัทคือการทําการวิเคราะห์รีวิวของลูกค้าเพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับประสบการณ์ของลูกค้าและปรับปรุงบริการของพวกเขา

Adam ตัดสินใจว่าตัวเลือกที่ดีที่สุดคือการใช้ Spark เพื่อสร้างตรรกะการแยกและการแปลง Spark มีแพลตฟอร์มการคํานวณแบบกระจายที่สามารถประมวลผลข้อมูลจํานวนมากพร้อมกันได้ เขาเขียนแอปพลิเคชัน Spark โดยใช้ Python หรือ Scala ซึ่งอ่านข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้างจาก OneLake สําหรับความคิดเห็นของลูกค้าและคําติชม แอปพลิเคชันจะทําความสะอาด แปลง และเขียนข้อมูลไปยังตาราง Delta ในเลคเฮ้าส์ จากนั้นข้อมูลจะพร้อมใช้สําหรับการวิเคราะห์ปลายทาง

สถานการณ์ที่ 5

Rajesh ซึ่งเป็นวิศวกรข้อมูลได้รับมอบหมายให้นําเข้าข้อมูลจาก SQL Server ภายในองค์กรลงในฐานข้อมูล Azure SQL อินสแตนซ์ SQL Server ภายในองค์กรของ Rajesh เปิดใช้งาน Data Capture (CDC) บนตารางคีย์แล้ว

Rajesh กําลังค้นหาโซลูชันที่ขับเคลื่อนด้วยตัวช่วยสร้างที่ใช้รหัสต่ํา และเรียบง่าย ซึ่งช่วยให้เขาสามารถ:

  • เลือกตารางแหล่งข้อมูลที่เปิดใช้งาน CDC แบบเนทีฟหลายรายการ
  • ดําเนินการโหลดแบบเต็มเริ่มต้น
  • สลับไปยังการโหลดข้อมูลแบบเพิ่มหน่วยตาม CDC โดยอัตโนมัติ
  • กําหนดตารางเวลาการรีเฟรชข้อมูลสําหรับการอัปเดตที่เป็นกิจวัตร

เขาต้องการหลีกเลี่ยงการเขียนโค้ดแบบกําหนดเองหรือจัดการการเรียงลําดับที่ซับซ้อน ตามอุดมคติแล้วเขาต้องการ "ตัวช่วยสร้าง 5x5" ซึ่งเขาสามารถทําการตั้งค่าได้โดยการคลิกเพียงไม่กี่ครั้ง

Rajesh เลือกคุณลักษณะคัดลอกงานใน Microsoft Fabric ด้วยการสนับสนุนเกตเวย์ภายในองค์กร เขาจึงเชื่อมต่อกับ SQL Server ของเขาได้อย่างปลอดภัย เลือกตารางที่ต้องการ และกําหนดค่าโฟลว์ที่จะเข้าสู่เป้าหมาย Azure SQL Database

งานคัดลอกให้ประสบการณ์การเคลื่อนไหวข้อมูลต่ําและปรับขนาดได้ตรงตามความต้องการของ Rajesh โดยไม่จําเป็นต้องรักษาไปป์ไลน์ที่ซับซ้อน