หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
เพื่อปรับปรุงประสิทธิภาพและความน่าเชื่อถือ Dataflow Gen2 ใช้หน่วยข้อมูลการจัดเตรียมเพื่อจัดเก็บข้อมูลขั้นกลางในระหว่างการแปลงข้อมูล บทความนี้อธิบายว่ารายการจัดเตรียมคืออะไร รูปแบบ ELT ที่พวกเขาปลดล็อกผ่าน ขั้นตอนเพียงครั้งเดียว อ้างอิงโมเดลจํานวนมาก และวิธีจัดการข้อมูลที่พวกเขาเก็บไว้
รายการจัดเตรียมคืออะไร
รายการการแสดงละครเป็นตําแหน่งที่เก็บข้อมูลระดับกลางที่ใช้โดย Dataflow Gen2 เพื่อจัดเก็บข้อมูลระหว่างการแปลงข้อมูล รายการเหล่านี้ใช้ชื่อ "DataflowsStagingLakehouse" และ "DataflowsStagingWarehouse" รายการการแสดงละครใช้เพื่อจัดเก็บข้อมูลระดับกลางระหว่างการแปลงข้อมูลเพื่อปรับปรุงประสิทธิภาพ รายการเหล่านี้จะถูกสร้างขึ้นโดยอัตโนมัติเมื่อคุณสร้างกระแสข้อมูลแรก และได้รับการจัดการโดย Dataflow Gen2 รายการเหล่านี้ถูกซ่อนจากผู้ใช้ในพื้นที่ทํางาน แต่อาจมองเห็นได้ในประสบการณ์ใช้งานอื่นๆ เช่น รับข้อมูล หรือตัวสํารวจ Lakehouse เราขอแนะนําอย่างยิ่งว่าอย่าเข้าถึงหรือแก้ไขข้อมูลในรายการจัดเตรียมโดยตรง เนื่องจากอาจนําไปสู่พฤติกรรมที่ไม่คาดคิด นอกจากนี้ การจัดเก็บข้อมูลด้วยตัวคุณเองในรายการจัดเตรียมยังไม่ได้รับการสนับสนุน และอาจส่งผลให้ข้อมูลสูญหาย
รูปแบบ ELT: สเตจครั้งเดียว อ้างอิงหลาย
นอกเหนือจากการให้พื้นที่จัดเก็บข้อมูลระดับกลางแล้ว การแสดงละครยังปลดล็อกชุดรูปแบบ ELT ที่สร้างขึ้นบนรากฐานเดียว: เวทีครั้งเดียว คิวรีต้นทางถูกทําเครื่องหมายว่าเป็นแบบจัดเตรียม ดังนั้นผลลัพธ์จะถูกทําให้เป็นรูปธรรมไปยังที่เก็บข้อมูลการจัดเตรียมภายใน คิวรีดาวน์สตรีมจะอ้างอิงคิวรีที่จัดลําดับขั้นนั้นแทนการอ่านแหล่งข้อมูลอีกครั้ง การคัดลอกด่วนเป็นตัวเร่งความเร็วเสริมที่ทําให้คิวรีแบบเป็นระยะเติมข้อมูลได้เร็วขึ้น แต่ไม่ใช่สิ่งที่กําหนดรูปแบบ
รูปแบบมีความสําคัญเนื่องจากเมื่อมีการจัดเตรียมข้อมูลแล้ว คิวรีดาวน์สตรีมสามารถ:
- เรียกใช้กับสําเนาที่จัดทําดัชนีและสืบค้นได้โดยไม่ต้องกดแหล่งที่มาอีกครั้ง
- พับตัวกรอง การรวม และการรวมกลับไปยังจุดสิ้นสุด SQL การจัดเตรียมแทนการดําเนินการในกลไกจัดการ Mashup
- แยกออกเป็นการแปลงหรือปลายทางแบบขนานหลายรายการจากผลลัพธ์ที่เป็นรูปธรรมเดียว
กรณีการใช้งานทั่วไป
โดยทั่วไปรูปแบบต่อไปนี้จะซ้อนทับบนคิวรีต้นทางที่จัดลําดับขั้น
| กรณีการใช้งาน | คำอธิบาย |
|---|---|
| จัดรูปร่างข้อมูลที่เป็นระยะเป็นแบบจําลองการวิเคราะห์ | คิวรีที่อ้างอิงจะจัดรูปร่างข้อมูลที่จัดลําดับเป็นตารางข้อเท็จจริงและมิติ สรุป ค่าสะสม หรือ KPI ผ่านการขจัดข้อมูลซ้ําซ้อน การจัดกลุ่มตาม และการสร้างคีย์ |
| การกดลงการประมวลผลแบบพับลง | คิวรีที่อ้างอิงที่เขียนกับข้อมูลที่จัดลําดับขั้นจะพับการรวม ตัวกรอง และการดําเนินการจัดกลุ่มตามไปยังจุดสิ้นสุด SQL การจัดเตรียม โดยผลักดันการประมวลผลไปยังกลไกจัดการคลังสินค้าแทนกลไกจัดการ Mashup นี่มักจะเป็นการแสดงที่ยิ่งใหญ่ที่สุดเพียงครั้งเดียวที่ช่วยให้สามารถชนะได้ |
| สาขาคุณภาพข้อมูลและการตรวจสอบ | คิวรีที่อ้างอิงจะตรวจสอบหรือตรวจสอบข้อมูลที่จัดลําดับขั้น (การตรวจสอบ Null การตรวจสอบข้อจํากัด การนับแถว) โดยไม่ต้องอ่านแหล่งข้อมูลอีกครั้ง |
| กระจายไปยังหลายปลายทาง | คิวรีที่อ้างอิงหลายรายการแต่ละรายการจะโหลดปลายทางที่แตกต่างกันจากแหล่งที่มาที่จัดลําดับขั้นเดียวกัน (ตัวอย่างเช่น เลคเฮาส์หนึ่งแห่งและคลังสินค้าหนึ่งรายการ) |
| ขั้นตอนแล้วผสาน | แต่ละแหล่งข้อมูลจะถูกจัดเตรียมในคิวรีของตัวเอง จากนั้นคิวรีที่อ้างอิงดาวน์สตรีมจะผสานหรือรวมผลลัพธ์ที่จัดระดับ โดยพับการรวมกลับไปยังจุดสิ้นสุด SQL ที่จัดเตรียม |
เมื่อการแสดงละครไม่เหมาะสม
การจัดเตรียมจะเพิ่มต้นทุนพื้นที่จัดเก็บและการเขียนเพิ่มเติมก่อนที่การสืบค้นดาวน์สตรีมจะทํางาน ลองข้ามเมื่อ:
- การแปลงของคุณจะพับแบบ end-to-end ไปยังระบบต้นทางแล้ว โดยไม่มีการประมวลผลในกลไกจัดการ Mashup
- กระแสข้อมูลมีเอาต์พุตเดียวและไม่มีการแตกแขนงดาวน์สตรีม การตรวจสอบความถูกต้อง หรือการกระจายออก
- เวลาแฝงของแหล่งที่มาเป็นคอขวดและแหล่งที่มาไม่สามารถขนานกันผ่านการจัดเตรียมได้
สําหรับคําแนะนําเพิ่มเติมเกี่ยวกับเวลาที่ควรเปิดหรือปิดใช้งานการจัดเตรียม โปรดดู แนวทางปฏิบัติที่ดีที่สุดเพื่อให้ได้ประสิทธิภาพที่ดีที่สุดด้วย Dataflow Gen2
ข้อมูลในรายการจัดเตรียม
รายการการจัดเตรียมไม่ได้ออกแบบมาสําหรับผู้ใช้เข้าถึงโดยตรง กระแสข้อมูล Gen2 จัดการข้อมูลในรายการจัดเตรียมและทําให้แน่ใจว่าข้อมูลอยู่ในสถานะที่สอดคล้องกัน ไม่รองรับการเข้าถึงข้อมูลในรายการจัดเตรียมโดยตรง เนื่องจากไม่สามารถรับประกันได้ว่าข้อมูลจะอยู่ในสถานะที่สอดคล้องกัน ถ้าคุณต้องการเข้าถึงข้อมูลในรายการการจัดเตรียม คุณสามารถใช้ตัวเชื่อมต่อกระแสข้อมูลใน Power BI, Excel หรือกระแสข้อมูลอื่นๆ ได้
สำคัญ
API ภายในที่ให้บริการข้อมูลที่เป็นระยะแก่ผู้บริโภคดาวน์สตรีม (เช่น แบบจําลองความหมายหรือกระแสข้อมูลอื่นๆ โดยใช้ตัวเชื่อมต่อกระแสข้อมูล) อาจพบการหมดเวลาเป็นระยะ การหมดเวลาเหล่านี้อาจทําให้เกิดความล้มเหลวในการรีเฟรชในการบริโภครายการ ซึ่งมักจะปรากฏเป็นข้อผิดพลาด "คีย์ไม่ตรงกับแถวใดๆ ในตาราง" ข้อผิดพลาดนี้ไม่ได้บ่งชี้ถึงปัญหาข้อมูล หมายความว่าแบ็กเอนด์ไม่สามารถดึงผลลัพธ์ที่จัดเตรียมได้ทันเวลา
วิธีแก้ปัญหาที่แนะนํา: กําหนดค่าปลายทางข้อมูล (Lakehouse หรือ Warehouse) สําหรับกระแสข้อมูลของคุณ และอัปเดตรายการดาวน์สตรีมเพื่ออ่านจากปลายทางนั้นโดยตรงโดยใช้ตัวเชื่อมต่อ Lakehouse หรือ Warehouse การดําเนินการนี้จะข้าม API การจัดเตรียมภายในและปรับปรุงความน่าเชื่อถือในการรีเฟรช
สําหรับข้อมูลเพิ่มเติม โปรดดู ข้อจํากัดของ Data Factory
การลบข้อมูลออกจากรายการจัดเตรียมสามารถบังคับได้โดยการดําเนินการอย่างใดอย่างหนึ่งต่อไปนี้:
- ปิดใช้งานการจัดเตรียมในกระแสข้อมูลและการรีเฟรช (หลังจาก 30 วันเราถังขยะจะเก็บรวบรวมข้อมูล)
- ลบกระแสข้อมูล (ลบข้อมูลโดยตรง)
- ลบพื้นที่ทํางาน (ลบ StagingLakehouse และ StagingWarehouse โดยตรง)
ผลกระทบด้านต้นทุนของการจัดเตรียม
การจัดเตรียม Lakehouse และ Staging Warehouse จัดเก็บข้อมูลระดับกลางซึ่งเป็นส่วนหนึ่งของการประมวลผลกระแสข้อมูลของคุณ ที่เก็บข้อมูลที่ใช้โดยรายการการแสดงละครเหล่านี้จะถูกเรียกเก็บเงินเป็นส่วนหนึ่งของที่เก็บข้อมูล OneLake ของคุณ ซึ่งหมายความว่าข้อมูลที่จัดเก็บไว้ในรายการจัดเตรียมจะนับรวมในการใช้ที่เก็บข้อมูล OneLake โดยรวมและค่าใช้จ่ายที่เกี่ยวข้อง
เพื่อจัดการต้นทุนการจัดเก็บอย่างมีประสิทธิภาพ:
- ตรวจสอบการใช้ที่เก็บข้อมูลการจัดเตรียม: โปรดทราบว่าข้อมูลการจัดเตรียมจะสะสมด้วยการรีเฟรชกระแสข้อมูลแต่ละครั้งจนกว่าจะถูกรวบรวมหรือลบออกอย่างชัดเจน
- ปิดใช้งานการจัดเตรียมเมื่อไม่จําเป็น: หากการแปลงของคุณพับไปยังระบบต้นทาง คุณอาจไม่จําเป็นต้องเปิดใช้งานการจัดเตรียม การปิดใช้งานการแสดงละครจะช่วยลดการใช้พื้นที่เก็บข้อมูล
- ล้างกระแสข้อมูลที่ไม่ได้ใช้: การลบกระแสข้อมูลที่ไม่ต้องการอีกต่อไปจะลบข้อมูลการจัดเตรียมที่เกี่ยวข้องออกทันที
- พิจารณาความถี่ในการรีเฟรช: การรีเฟรชบ่อยครั้งโดยเปิดใช้งานการจัดเตรียมอาจนําไปสู่การใช้พื้นที่เก็บข้อมูลที่สูงขึ้น สร้างสมดุลระหว่างประโยชน์ด้านประสิทธิภาพกับต้นทุนการจัดเก็บ
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับราคาที่เก็บข้อมูล OneLake โปรดดู ราคา Microsoft Fabric