ข้อมูลในรายการการจัดเตรียมกระแสข้อมูล Gen2

เพื่อปรับปรุงประสิทธิภาพและความน่าเชื่อถือ Dataflow Gen2 ใช้หน่วยข้อมูลการจัดเตรียมเพื่อจัดเก็บข้อมูลขั้นกลางในระหว่างการแปลงข้อมูล บทความนี้อธิบายว่ารายการจัดเตรียมคืออะไร รูปแบบ ELT ที่พวกเขาปลดล็อกผ่าน ขั้นตอนเพียงครั้งเดียว อ้างอิงโมเดลจํานวนมาก และวิธีจัดการข้อมูลที่พวกเขาเก็บไว้

รายการจัดเตรียมคืออะไร

รายการการแสดงละครเป็นตําแหน่งที่เก็บข้อมูลระดับกลางที่ใช้โดย Dataflow Gen2 เพื่อจัดเก็บข้อมูลระหว่างการแปลงข้อมูล รายการเหล่านี้ใช้ชื่อ "DataflowsStagingLakehouse" และ "DataflowsStagingWarehouse" รายการการแสดงละครใช้เพื่อจัดเก็บข้อมูลระดับกลางระหว่างการแปลงข้อมูลเพื่อปรับปรุงประสิทธิภาพ รายการเหล่านี้จะถูกสร้างขึ้นโดยอัตโนมัติเมื่อคุณสร้างกระแสข้อมูลแรก และได้รับการจัดการโดย Dataflow Gen2 รายการเหล่านี้ถูกซ่อนจากผู้ใช้ในพื้นที่ทํางาน แต่อาจมองเห็นได้ในประสบการณ์ใช้งานอื่นๆ เช่น รับข้อมูล หรือตัวสํารวจ Lakehouse เราขอแนะนําอย่างยิ่งว่าอย่าเข้าถึงหรือแก้ไขข้อมูลในรายการจัดเตรียมโดยตรง เนื่องจากอาจนําไปสู่พฤติกรรมที่ไม่คาดคิด นอกจากนี้ การจัดเก็บข้อมูลด้วยตัวคุณเองในรายการจัดเตรียมยังไม่ได้รับการสนับสนุน และอาจส่งผลให้ข้อมูลสูญหาย

รูปแบบ ELT: สเตจครั้งเดียว อ้างอิงหลาย

นอกเหนือจากการให้พื้นที่จัดเก็บข้อมูลระดับกลางแล้ว การแสดงละครยังปลดล็อกชุดรูปแบบ ELT ที่สร้างขึ้นบนรากฐานเดียว: เวทีครั้งเดียว คิวรีต้นทางถูกทําเครื่องหมายว่าเป็นแบบจัดเตรียม ดังนั้นผลลัพธ์จะถูกทําให้เป็นรูปธรรมไปยังที่เก็บข้อมูลการจัดเตรียมภายใน คิวรีดาวน์สตรีมจะอ้างอิงคิวรีที่จัดลําดับขั้นนั้นแทนการอ่านแหล่งข้อมูลอีกครั้ง การคัดลอกด่วนเป็นตัวเร่งความเร็วเสริมที่ทําให้คิวรีแบบเป็นระยะเติมข้อมูลได้เร็วขึ้น แต่ไม่ใช่สิ่งที่กําหนดรูปแบบ

รูปแบบมีความสําคัญเนื่องจากเมื่อมีการจัดเตรียมข้อมูลแล้ว คิวรีดาวน์สตรีมสามารถ:

  • เรียกใช้กับสําเนาที่จัดทําดัชนีและสืบค้นได้โดยไม่ต้องกดแหล่งที่มาอีกครั้ง
  • พับตัวกรอง การรวม และการรวมกลับไปยังจุดสิ้นสุด SQL การจัดเตรียมแทนการดําเนินการในกลไกจัดการ Mashup
  • แยกออกเป็นการแปลงหรือปลายทางแบบขนานหลายรายการจากผลลัพธ์ที่เป็นรูปธรรมเดียว

กรณีการใช้งานทั่วไป

โดยทั่วไปรูปแบบต่อไปนี้จะซ้อนทับบนคิวรีต้นทางที่จัดลําดับขั้น

กรณีการใช้งาน คำอธิบาย
จัดรูปร่างข้อมูลที่เป็นระยะเป็นแบบจําลองการวิเคราะห์ คิวรีที่อ้างอิงจะจัดรูปร่างข้อมูลที่จัดลําดับเป็นตารางข้อเท็จจริงและมิติ สรุป ค่าสะสม หรือ KPI ผ่านการขจัดข้อมูลซ้ําซ้อน การจัดกลุ่มตาม และการสร้างคีย์
การกดลงการประมวลผลแบบพับลง คิวรีที่อ้างอิงที่เขียนกับข้อมูลที่จัดลําดับขั้นจะพับการรวม ตัวกรอง และการดําเนินการจัดกลุ่มตามไปยังจุดสิ้นสุด SQL การจัดเตรียม โดยผลักดันการประมวลผลไปยังกลไกจัดการคลังสินค้าแทนกลไกจัดการ Mashup นี่มักจะเป็นการแสดงที่ยิ่งใหญ่ที่สุดเพียงครั้งเดียวที่ช่วยให้สามารถชนะได้
สาขาคุณภาพข้อมูลและการตรวจสอบ คิวรีที่อ้างอิงจะตรวจสอบหรือตรวจสอบข้อมูลที่จัดลําดับขั้น (การตรวจสอบ Null การตรวจสอบข้อจํากัด การนับแถว) โดยไม่ต้องอ่านแหล่งข้อมูลอีกครั้ง
กระจายไปยังหลายปลายทาง คิวรีที่อ้างอิงหลายรายการแต่ละรายการจะโหลดปลายทางที่แตกต่างกันจากแหล่งที่มาที่จัดลําดับขั้นเดียวกัน (ตัวอย่างเช่น เลคเฮาส์หนึ่งแห่งและคลังสินค้าหนึ่งรายการ)
ขั้นตอนแล้วผสาน แต่ละแหล่งข้อมูลจะถูกจัดเตรียมในคิวรีของตัวเอง จากนั้นคิวรีที่อ้างอิงดาวน์สตรีมจะผสานหรือรวมผลลัพธ์ที่จัดระดับ โดยพับการรวมกลับไปยังจุดสิ้นสุด SQL ที่จัดเตรียม

เมื่อการแสดงละครไม่เหมาะสม

การจัดเตรียมจะเพิ่มต้นทุนพื้นที่จัดเก็บและการเขียนเพิ่มเติมก่อนที่การสืบค้นดาวน์สตรีมจะทํางาน ลองข้ามเมื่อ:

  • การแปลงของคุณจะพับแบบ end-to-end ไปยังระบบต้นทางแล้ว โดยไม่มีการประมวลผลในกลไกจัดการ Mashup
  • กระแสข้อมูลมีเอาต์พุตเดียวและไม่มีการแตกแขนงดาวน์สตรีม การตรวจสอบความถูกต้อง หรือการกระจายออก
  • เวลาแฝงของแหล่งที่มาเป็นคอขวดและแหล่งที่มาไม่สามารถขนานกันผ่านการจัดเตรียมได้

สําหรับคําแนะนําเพิ่มเติมเกี่ยวกับเวลาที่ควรเปิดหรือปิดใช้งานการจัดเตรียม โปรดดู แนวทางปฏิบัติที่ดีที่สุดเพื่อให้ได้ประสิทธิภาพที่ดีที่สุดด้วย Dataflow Gen2

ข้อมูลในรายการจัดเตรียม

รายการการจัดเตรียมไม่ได้ออกแบบมาสําหรับผู้ใช้เข้าถึงโดยตรง กระแสข้อมูล Gen2 จัดการข้อมูลในรายการจัดเตรียมและทําให้แน่ใจว่าข้อมูลอยู่ในสถานะที่สอดคล้องกัน ไม่รองรับการเข้าถึงข้อมูลในรายการจัดเตรียมโดยตรง เนื่องจากไม่สามารถรับประกันได้ว่าข้อมูลจะอยู่ในสถานะที่สอดคล้องกัน ถ้าคุณต้องการเข้าถึงข้อมูลในรายการการจัดเตรียม คุณสามารถใช้ตัวเชื่อมต่อกระแสข้อมูลใน Power BI, Excel หรือกระแสข้อมูลอื่นๆ ได้

สำคัญ

API ภายในที่ให้บริการข้อมูลที่เป็นระยะแก่ผู้บริโภคดาวน์สตรีม (เช่น แบบจําลองความหมายหรือกระแสข้อมูลอื่นๆ โดยใช้ตัวเชื่อมต่อกระแสข้อมูล) อาจพบการหมดเวลาเป็นระยะ การหมดเวลาเหล่านี้อาจทําให้เกิดความล้มเหลวในการรีเฟรชในการบริโภครายการ ซึ่งมักจะปรากฏเป็นข้อผิดพลาด "คีย์ไม่ตรงกับแถวใดๆ ในตาราง" ข้อผิดพลาดนี้ไม่ได้บ่งชี้ถึงปัญหาข้อมูล หมายความว่าแบ็กเอนด์ไม่สามารถดึงผลลัพธ์ที่จัดเตรียมได้ทันเวลา

วิธีแก้ปัญหาที่แนะนํา: กําหนดค่าปลายทางข้อมูล (Lakehouse หรือ Warehouse) สําหรับกระแสข้อมูลของคุณ และอัปเดตรายการดาวน์สตรีมเพื่ออ่านจากปลายทางนั้นโดยตรงโดยใช้ตัวเชื่อมต่อ Lakehouse หรือ Warehouse การดําเนินการนี้จะข้าม API การจัดเตรียมภายในและปรับปรุงความน่าเชื่อถือในการรีเฟรช

สําหรับข้อมูลเพิ่มเติม โปรดดู ข้อจํากัดของ Data Factory

การลบข้อมูลออกจากรายการจัดเตรียมสามารถบังคับได้โดยการดําเนินการอย่างใดอย่างหนึ่งต่อไปนี้:

  • ปิดใช้งานการจัดเตรียมในกระแสข้อมูลและการรีเฟรช (หลังจาก 30 วันเราถังขยะจะเก็บรวบรวมข้อมูล)
  • ลบกระแสข้อมูล (ลบข้อมูลโดยตรง)
  • ลบพื้นที่ทํางาน (ลบ StagingLakehouse และ StagingWarehouse โดยตรง)

ผลกระทบด้านต้นทุนของการจัดเตรียม

การจัดเตรียม Lakehouse และ Staging Warehouse จัดเก็บข้อมูลระดับกลางซึ่งเป็นส่วนหนึ่งของการประมวลผลกระแสข้อมูลของคุณ ที่เก็บข้อมูลที่ใช้โดยรายการการแสดงละครเหล่านี้จะถูกเรียกเก็บเงินเป็นส่วนหนึ่งของที่เก็บข้อมูล OneLake ของคุณ ซึ่งหมายความว่าข้อมูลที่จัดเก็บไว้ในรายการจัดเตรียมจะนับรวมในการใช้ที่เก็บข้อมูล OneLake โดยรวมและค่าใช้จ่ายที่เกี่ยวข้อง

เพื่อจัดการต้นทุนการจัดเก็บอย่างมีประสิทธิภาพ:

  • ตรวจสอบการใช้ที่เก็บข้อมูลการจัดเตรียม: โปรดทราบว่าข้อมูลการจัดเตรียมจะสะสมด้วยการรีเฟรชกระแสข้อมูลแต่ละครั้งจนกว่าจะถูกรวบรวมหรือลบออกอย่างชัดเจน
  • ปิดใช้งานการจัดเตรียมเมื่อไม่จําเป็น: หากการแปลงของคุณพับไปยังระบบต้นทาง คุณอาจไม่จําเป็นต้องเปิดใช้งานการจัดเตรียม การปิดใช้งานการแสดงละครจะช่วยลดการใช้พื้นที่เก็บข้อมูล
  • ล้างกระแสข้อมูลที่ไม่ได้ใช้: การลบกระแสข้อมูลที่ไม่ต้องการอีกต่อไปจะลบข้อมูลการจัดเตรียมที่เกี่ยวข้องออกทันที
  • พิจารณาความถี่ในการรีเฟรช: การรีเฟรชบ่อยครั้งโดยเปิดใช้งานการจัดเตรียมอาจนําไปสู่การใช้พื้นที่เก็บข้อมูลที่สูงขึ้น สร้างสมดุลระหว่างประโยชน์ด้านประสิทธิภาพกับต้นทุนการจัดเก็บ

สําหรับข้อมูลเพิ่มเติมเกี่ยวกับราคาที่เก็บข้อมูล OneLake โปรดดู ราคา Microsoft Fabric