หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
ใช้คู่มืออ้างอิงนี้และสถานการณ์ตัวอย่างเพื่อช่วยให้คุณตัดสินใจว่าคุณต้องการกิจกรรมการคัดลอก งานคัดลอก กระแสข้อมูล อีเวนท์สตรีม หรือ Spark สําหรับปริมาณงาน Microsoft Fabric ของคุณหรือไม่
คัดลอกกิจกรรม คัดลอกงาน กระแสข้อมูล เหตุการณ์และคุณสมบัติ Spark
| กิจกรรมการคัดลอกไปป์ไลน์ | คัดลอกงาน | กระแสข้อมูล รุ่น 2 | เหตุการณ์เหตุการณ์ของ | Spark | |
|---|---|---|---|---|---|
| ใช้กรณี | การโยกย้ายคลังข้อมูลและที่จัดเก็บข้อมูล การนําเข้าข้อมูล การแปลงข้อมูลด้วยน้ําหนักเบา |
การนําเข้าข้อมูล สําเนาส่วนที่เพิ่ม แบบ จำลอง การย้าย Data Lake และคลังข้อมูล การแปลงข้อมูลด้วยน้ําหนักเบา |
การนําเข้าข้อมูล การแปลงข้อมูล การจัดเรียงข้อมูล การสร้างโพรไฟล์ข้อมูล |
การนําเข้าข้อมูลเหตุการณ์ การแปลงข้อมูลเหตุการณ์ |
การนําเข้าข้อมูล การแปลงข้อมูล การประมวลผลข้อมูล การสร้างโพรไฟล์ข้อมูล |
| บุคลของนักพัฒนาหลัก | วิศวกรข้อมูล data integrator (ผู้รวมข้อมูล) |
นักวิเคราะห์ธุรกิจ Data Integrator วิศวกรข้อมูล |
วิศวกรข้อมูล data integrator (ผู้รวมข้อมูล) นักวิเคราะห์ธุรกิจ |
วิศวกรข้อมูล นักวิทยาศาสตร์ข้อมูล นักพัฒนาข้อมูล |
ตัวรวมข้อมูล วิศวกรข้อมูล |
| ชุดทักษะสําหรับนักพัฒนาหลัก | ETL SQL, JSON |
ETL SQL, JSON |
ETL M, SQL |
SQL, JSON, การรับส่งข้อความ | Spark (Scala, Python, Spark SQL, R) |
| ที่เขียนรหัส | ไม่มีรหัส, รหัสต่ํา |
ไม่มีรหัส, รหัสต่ํา |
ไม่มีรหัส, รหัสต่ํา |
ไม่มีรหัส รหัสต่ํา |
รหัส |
| ปริมาณข้อมูลของ | ต่ําไปสูง | ต่ําไปสูง | ต่ําไปสูง | ปานกลางถึงสูง | ต่ําไปสูง |
| อินเทอร์เฟซการพัฒนาของ | พ่อมด เต็นท์ |
พ่อมด เต็นท์ |
Power คิวรี | พื้นที่ทำงาน | สมุด ข้อกําหนดงาน Spark |
| แหล่งข้อมูล | ตัวเชื่อมต่อมากกว่า 50 ตัว | ตัวเชื่อมต่อมากกว่า 50 ตัว | ตัวเชื่อมต่อมากกว่า 150 ตัว | ฐานข้อมูลที่สนับสนุน CDC (Change Data Capture), Kafka, Messaging Systems ที่สนับสนุนการเผยแพร่และรูปแบบการสมัครใช้งาน กระแสข้อมูลเหตุการณ์ | ไลบรารี Spark หลายร้อยรายการ |
| ปลายทางของ | ตัวเชื่อมต่อมากกว่า 40 ตัว | ตัวเชื่อมต่อมากกว่า 40 ตัว | เลคเฮ้าส์ ฐานข้อมูล Azure SQL Azure Data explorer Azure Synapse analytics |
เหตุการณ์, เลคเฮ้าส์, การแจ้งเตือนตัวกระตุ้น, Stream ที่ได้รับมา, จุดสิ้นสุดแบบกําหนดเอง | ไลบรารี Spark หลายร้อยรายการ |
| ความซับซ้อนในการแปลง | ต่ํา: สูง น้ําหนักเบา - การแปลงประเภท การแมปคอลัมน์ การผสาน/แยกไฟล์ ลําดับชั้นลดรูปแบบโครงสร้าง |
ต่ํา: สูง น้ําหนักเบา - การแปลงประเภท การแมปคอลัมน์ การผสาน/แยกไฟล์ ลําดับชั้นลดรูปแบบโครงสร้าง |
ต่ําไปสูง: ฟังก์ชันการแปลงมากกว่า 300+ |
ต่ํา: สูง น้ำหนัก เบา |
ต่ําไปสูง: การสนับสนุนสําหรับ Spark แบบเนทีฟและไลบรารีโอเพนซอร์ส |
สถานการณ์สมมติ
ตรวจทานสถานการณ์ต่อไปนี้สําหรับความช่วยเหลือเกี่ยวกับการเลือกวิธีการทํางานกับข้อมูลของคุณใน Fabric
สถานการณ์จำลอง 1
Leo วิศวกรข้อมูลจําเป็นต้องนําเข้าข้อมูลจํานวนมากจากระบบภายนอก ทั้งภายในองค์กรและระบบคลาวด์ ระบบภายนอกเหล่านี้ประกอบด้วยฐานข้อมูล ระบบไฟล์ และ API Leo ไม่ต้องการเขียนและรักษาโค้ดสําหรับแต่ละตัวเชื่อมต่อหรือการดําเนินการย้ายข้อมูล เขาต้องการปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดสําหรับเลเยอร์เหรียญรางวัลด้วยทองแดงเงินและทอง Leo ไม่มีประสบการณ์ใด ๆ กับ Spark ดังนั้นเขาจึงชอบการลากและวาง UI มากที่สุดเท่าที่เป็นไปได้โดยใช้การเข้ารหัสที่น้อยที่สุด และเขายังต้องการประมวลผลข้อมูลตามกําหนดการด้วย
ขั้นตอนแรกคือการรับข้อมูลดิบลงในเลคเฮ้าส์ชั้นทองแดงจากแหล่งข้อมูล Azure และแหล่งข้อมูลของบุคคลที่สามต่าง ๆ (เช่น Snowflake Web, REST, AWS S3, GCS และอื่น ๆ) เขาต้องการเลคเฮ้าส์รวม เพื่อให้ข้อมูลทั้งหมดจาก LOB, ภายในองค์กร และแหล่งข้อมูลระบบคลาวด์ทั้งหมดอยู่ในที่เดียว Leo ตรวจทานตัวเลือกและเลือกกิจกรรมการคัดลอกไปป์ไลน์ เป็นตัวเลือกที่เหมาะสมสําหรับสําเนาไบนารีดิบของเขา รูปแบบนี้ใช้กับการรีเฟรชข้อมูลทั้งในอดีตและแบบเพิ่มหน่วย ด้วยกิจกรรมการคัดลอก Leo สามารถโหลดข้อมูลทองคําไปยังคลังข้อมูลที่ไม่มีรหัสหากมีความจําเป็นและไปป์ไลน์ให้การนําเข้าข้อมูลในระดับสูงที่สามารถย้ายข้อมูลระดับเพตะไบต์ได้ กิจกรรมการคัดลอกเป็นตัวเลือกที่ดีที่สุดสําหรับโค้ดที่ต่ําและไม่มีรหัสในการย้ายข้อมูลเพตะไบต์ไปยังเลคเฮ้าส์และคลังสินค้าจากแหล่งที่มาที่หลากหลายไม่ว่าจะเป็นแบบเฉพาะกิจหรือผ่านตารางเวลา
สถานการณ์จำลอง 2
Mary เป็นวิศวกรข้อมูลที่มีความรู้ลึกเกี่ยวกับข้อกําหนดการรายงานการวิเคราะห์ LOB หลายรายการ ทีมอัพสตรีมได้ใช้โซลูชันในการโยกย้ายข้อมูลในอดีตและเพิ่มหน่วยของ LOB หลายรายการลงในเลคเฮ้าส์ทั่วไปเรียบร้อยแล้ว แมรี่ได้รับมอบหมายให้ทําความสะอาดข้อมูล ใช้ตรรกะทางธุรกิจ และโหลดลงในหลายปลายทาง (เช่น Azure SQL DB, ADX และเลคเฮ้าส์) ในการเตรียมการสําหรับทีมรายงานที่เกี่ยวข้อง
Mary คือผู้ใช้ Power Query ที่มีประสบการณ์ และปริมาณข้อมูลอยู่ในช่วงต่ําถึงปานกลางเพื่อให้ได้ประสิทธิภาพที่ต้องการ กระแสข้อมูลมีอินเทอร์เฟซที่ไม่มีรหัสหรือมีรหัสต่ําสําหรับการนําเข้าข้อมูลจากแหล่งข้อมูลหลายร้อยแหล่ง ด้วยกระแสข้อมูล คุณสามารถแปลงข้อมูลโดยใช้ตัวเลือกการแปลงข้อมูลมากกว่า 300 ตัวเลือก และเขียนผลลัพธ์ลงในหลายปลายทางด้วยส่วนติดต่อผู้ใช้ที่ใช้งานง่ายและมีการแสดงผลด้วยภาพสูง Mary ตรวจทานตัวเลือกและตัดสินใจว่าเหมาะสมที่จะใช้ Dataflow Gen 2 เป็นตัวเลือกการแปลงที่เธอต้องการ
สถานการณ์จำลอง 3
Prashant ซึ่งเป็นตัวรวมข้อมูลที่มีความเชี่ยวชาญเชิงลึกในกระบวนการและระบบทางธุรกิจ ทีมอัพสตรีมได้เปิดเผยข้อมูลเหตุการณ์จากแอปพลิเคชันทางธุรกิจเป็นข้อความที่สามารถใช้ได้ผ่านระบบปลายทางเรียบร้อยแล้ว Prashant ได้รับมอบหมายให้รวมข้อมูลจากแอปพลิเคชันทางธุรกิจลงใน Microsoft Fabric เพื่อการสนับสนุนการตัดสินใจแบบเรียลไทม์
กําหนดให้มีปริมาณข้อมูลปานกลางถึงสูงและการกําหนดลักษณะขององค์กรสําหรับโซลูชันที่ไม่มีโค้ด Prashant จะค้นหาวิธีในการส่งต่อเหตุการณ์อย่างราบรื่นเมื่อเกิดขึ้นโดยไม่ต้องจัดการกําหนดการแยกข้อมูล เพื่อตอบสนองความต้องการนี้ เขาเลือก เหตุการณ์สตรีม ใน Microsoft Fabric เหตุการณ์ภายในประสบการณ์ Real-Time Intelligence ช่วยให้สามารถนําเข้า แปลง และกําหนดเส้นทางข้อมูลแบบเรียลไทม์ไปยังปลายทางต่าง ๆ ได้ โดยไม่ต้องเขียนโค้ดใด ๆ
สถานการณ์จำลอง 4
Adam เป็นวิศวกรข้อมูลที่ทํางานให้กับบริษัทค้าปลีกรายใหญ่ที่ใช้เลคเฮ้าส์เพื่อจัดเก็บและวิเคราะห์ข้อมูลของลูกค้า ในฐานะที่เป็นส่วนหนึ่งของงานของเขา อดัมมีหน้าที่รับผิดชอบในการสร้างและบํารุงรักษาท่อที่ดึง แปลง และโหลดข้อมูลลงในเลคเฮาส์ หนึ่งในข้อกําหนดทางธุรกิจของบริษัทคือการทําการวิเคราะห์รีวิวของลูกค้าเพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับประสบการณ์ของลูกค้าและปรับปรุงบริการของพวกเขา
Adam ตัดสินใจว่าตัวเลือกที่ดีที่สุดคือการใช้ Spark เพื่อสร้างตรรกะการแยกและการแปลง Spark มีแพลตฟอร์มการคํานวณแบบกระจายที่สามารถประมวลผลข้อมูลจํานวนมากพร้อมกันได้ เขาเขียนแอปพลิเคชัน Spark โดยใช้ Python หรือ Scala ซึ่งอ่านข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้างจาก OneLake สําหรับความคิดเห็นของลูกค้าและคําติชม แอปพลิเคชันจะทําความสะอาด แปลง และเขียนข้อมูลไปยังตาราง Delta ในเลคเฮ้าส์ จากนั้นข้อมูลจะพร้อมใช้สําหรับการวิเคราะห์ปลายทาง
สถานการณ์ที่ 5
Rajesh ซึ่งเป็นวิศวกรข้อมูลได้รับมอบหมายให้นําเข้าข้อมูลจาก SQL Server ภายในองค์กรลงในฐานข้อมูล Azure SQL อินสแตนซ์ SQL Server ภายในองค์กรของ Rajesh เปิดใช้งาน Data Capture (CDC) บนตารางคีย์แล้ว
Rajesh กําลังค้นหาโซลูชันที่ขับเคลื่อนด้วยตัวช่วยสร้างที่ใช้รหัสต่ํา และเรียบง่าย ซึ่งช่วยให้เขาสามารถ:
- เลือกตารางแหล่งข้อมูลที่เปิดใช้งาน CDC แบบเนทีฟหลายรายการ
- ดําเนินการโหลดแบบเต็มเริ่มต้น
- สลับไปยังการโหลดข้อมูลแบบเพิ่มหน่วยตาม CDC โดยอัตโนมัติ
- กําหนดตารางเวลาการรีเฟรชข้อมูลสําหรับการอัปเดตที่เป็นกิจวัตร
เขาต้องการหลีกเลี่ยงการเขียนโค้ดแบบกําหนดเองหรือจัดการการเรียงลําดับที่ซับซ้อน ตามอุดมคติแล้วเขาต้องการ "ตัวช่วยสร้าง 5x5" ซึ่งเขาสามารถทําการตั้งค่าได้โดยการคลิกเพียงไม่กี่ครั้ง
Rajesh เลือกคุณลักษณะคัดลอกงานใน Microsoft Fabric ด้วยการสนับสนุนเกตเวย์ภายในองค์กร เขาจึงเชื่อมต่อกับ SQL Server ของเขาได้อย่างปลอดภัย เลือกตารางที่ต้องการ และกําหนดค่าโฟลว์ที่จะเข้าสู่เป้าหมาย Azure SQL Database
งานคัดลอกให้ประสบการณ์การเคลื่อนไหวข้อมูลต่ําและปรับขนาดได้ตรงตามความต้องการของ Rajesh โดยไม่จําเป็นต้องรักษาไปป์ไลน์ที่ซับซ้อน