นําสถาปัตยกรรมของเลคเฮ้าส์มาใช้ใน Microsoft Fabric
บทความนี้แนะนําสถาปัตยกรรมของทะเลสาบ medallion และอธิบายวิธีที่คุณสามารถใช้เลคเฮ้าส์ใน Microsoft Fabric ซึ่งมีการกําหนดเป้าหมายไปยังผู้ชมหลายราย:
- วิศวกรข้อมูล: พนักงานด้านเทคนิคที่ออกแบบ สร้าง และรักษาโครงสร้างพื้นฐานและระบบที่ช่วยให้องค์กรสามารถรวบรวม จัดเก็บ ประมวลผล และวิเคราะห์ข้อมูลจํานวนมากได้
- ศูนย์แห่งความเป็นเลิศ ทีมไอที และ BI: ทีมที่มีหน้าที่ดูแลการวิเคราะห์ทั่วทั้งองค์กร
- ผู้ดูแลระบบผ้า: ผู้ดูแลระบบที่รับผิดชอบในการตรวจสอบ Fabric ในองค์กร
สถาปัตยกรรมของเลคเฮาส์ Medallion หรือที่รู้จักกันโดยทั่วไปว่า สถาปัตยกรรมเหรียญรางวัล เป็นรูปแบบการออกแบบที่องค์กรใช้เพื่อจัดระเบียบข้อมูลในเลคเฮ้าส์อย่างมีตรรกะ ซึ่งเป็นวิธีการออกแบบที่แนะนําสําหรับ Fabric
สถาปัตยกรรม Medallion ประกอบด้วยชั้นหรือโซนที่แตกต่างกันสามชั้น แต่ละเลเยอร์ระบุคุณภาพของข้อมูลที่จัดเก็บไว้ในเลคเฮ้าส์ ซึ่งมีระดับที่สูงกว่าที่แสดงถึงคุณภาพที่สูงกว่า วิธีการแบบหลายชั้นนี้ช่วยให้คุณสามารถสร้างแหล่งเก็บข้อมูลจริงเพียงหนึ่งเดียวสําหรับผลิตภัณฑ์ข้อมูลองค์กร
ที่สําคัญคือสถาปัตยกรรมเหรียญรับประกันความไม่สม่ําเสมอความสม่ําเสมอการแยกและความทนทาน (ACID) ของคุณสมบัติเมื่อข้อมูลดําเนินการผ่านเลเยอร์ การเริ่มต้นด้วยข้อมูลดิบ ชุดการตรวจสอบความถูกต้องและการแปลงข้อมูลจะจัดเตรียมข้อมูลที่ปรับให้เหมาะสมสําหรับการวิเคราะห์ที่มีประสิทธิภาพ มีขั้นตอนเหรียญสามขั้น: ทองแดง (ดิบ), เงิน (ตรวจสอบแล้ว) และสีทอง (เพิ่มสี)
สามารถดูข้อมูลเพิ่มเติมได้ที่ สถาปัตยกรรมของเลคเฮาส์ medallion คืออะไร?
OneLake และ lakehouse ใน Fabric
พื้นฐานของคลังข้อมูลที่ทันสมัยคือที่จัดเก็บข้อมูลดิบ Microsoft OneLake ซึ่งเป็นที่จัดเก็บข้อมูลทะเลสาบเชิงตรรกะแบบครบวงจรแห่งเดียวสําหรับทั้งองค์กรของคุณ ซึ่งมาพร้อมกับการเตรียมใช้งานโดยอัตโนมัติกับผู้เช่า Fabric ทุกราย และได้รับการออกแบบมาเพื่อเป็นตําแหน่งที่ตั้งเดียวสําหรับข้อมูลการวิเคราะห์ทั้งหมดของคุณ
คุณสามารถใช้ OneLake เพื่อ:
- ขจัดไซโลออกและลดความพยายามในการจัดการ ข้อมูลขององค์กรทั้งหมดถูกจัดเก็บ จัดการ และ รักษาความปลอดภัย ภายในแหล่งข้อมูล data lake เดียว เนื่องจาก OneLake ถูกเตรียมใช้งานกับผู้เช่า Fabric ของคุณ จึงไม่มีทรัพยากรในการเตรียมใช้งานหรือการจัดการอีกต่อไป
- ลดการเคลื่อนไหวของข้อมูลและการทําซ้ํา วัตถุประสงค์ของ OneLake คือเพื่อจัดเก็บสําเนาข้อมูลเดียวเท่านั้น สําเนาของข้อมูลน้อยลงส่งผลให้กระบวนการย้ายข้อมูลน้อยลง และนําไปสู่ประสิทธิภาพและลดความซับซ้อน ถ้าจําเป็น คุณสามารถสร้าง ทางลัด เพื่ออ้างอิงข้อมูลที่จัดเก็บไว้ในตําแหน่งที่ตั้งอื่นแทนที่จะคัดลอกไปยัง OneLake ได้
- ใช้กับเครื่องมือวิเคราะห์หลายตัว ข้อมูลใน OneLake จะถูกจัดเก็บในรูปแบบเปิด ด้วยวิธีนี้ ข้อมูลสามารถคิวรีโดยกลไกการวิเคราะห์ต่าง ๆ รวมถึง Analysis Services (ใช้โดย Power BI), T-SQL และ Apache Spark แอปพลิเคชันอื่น ๆ ที่ไม่ใช่ Fabric สามารถใช้ API และ SDK เพื่อ เข้าถึง OneLake ได้เช่นกัน
สําหรับข้อมูลเพิ่มเติม ดู OneLake ซึ่งเป็น OneDrive สําหรับข้อมูล
เพื่อจัดเก็บข้อมูลใน OneLake คุณต้องสร้าง เลคเฮ้าส์ ใน Fabric เลคเฮ้าส์เป็นแพลตฟอร์มสถาปัตยกรรมข้อมูลสําหรับจัดเก็บ จัดการ และวิเคราะห์ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างในตําแหน่งที่ตั้งเดียว ซึ่งสามารถปรับมาตราส่วนเป็นปริมาณข้อมูลขนาดใหญ่ของไฟล์ทุกประเภทและขนาดได้อย่างง่ายดาย และเนื่องจากจัดเก็บไว้ในตําแหน่งเดียว จึงแชร์และนํากลับมาใช้ใหม่ทั่วทั้งองค์กรได้อย่างง่ายดาย
เลคเฮ้าส์แต่ละแห่งมีจุดสิ้นสุดการวิเคราะห์ SQL ในตัวที่ปลดล็อกความสามารถของคลังข้อมูลโดยไม่จําเป็นต้องย้ายข้อมูล ซึ่งหมายความว่าคุณสามารถคิวรีข้อมูลของคุณใน lakehouse ได้โดยใช้คิวรี SQL และไม่มีการตั้งค่าพิเศษใด ๆ
สําหรับข้อมูลเพิ่มเติม ดู lakehouse ใน Microsoft Fabric คืออะไร
ตารางและไฟล์
เมื่อคุณสร้าง lakehouse ใน Fabric ตําแหน่งที่เก็บข้อมูลจริงสองแห่งจะถูกเตรียมใช้งานโดยอัตโนมัติสําหรับตารางและไฟล์
- ตาราง เป็นพื้นที่ที่มีการจัดการสําหรับการโฮสต์ตารางรูปแบบทั้งหมดใน Apache Spark (CSV, Parquet หรือ Delta) ตารางทั้งหมดไม่ว่าจะสร้างขึ้นโดยอัตโนมัติหรืออย่างชัดเจนจะถูกรับรู้ว่าเป็นตารางในเลคเฮ้าส์ นอกจากนี้ ตาราง Delta ใด ๆ ซึ่งเป็นไฟล์ข้อมูล Parquet ที่มีบันทึกธุรกรรมตามไฟล์จะได้รับการรับรู้ว่าเป็นตารางเช่นกัน
- ไฟล์ เป็นพื้นที่ที่ไม่มีการจัดการสําหรับการจัดเก็บข้อมูลในรูปแบบไฟล์ใด ๆ ไฟล์ Delta ใดๆ ที่จัดเก็บในพื้นที่นี้จะไม่ถูกระบุเป็นตารางโดยอัตโนมัติ ถ้าคุณต้องการสร้างตารางเหนือโฟลเดอร์ Delta Lake ในพื้นที่ที่ไม่มีการจัดการ คุณจะต้องสร้าง ทางลัด หรือตารางภายนอกที่มีตําแหน่งที่ตั้งที่ชี้ไปยังโฟลเดอร์ที่ไม่มีการจัดการที่มีไฟล์ Delta Lake ใน Apache Spark อย่างชัดเจน
ความแตกต่างหลักระหว่างพื้นที่ที่มีการจัดการ (ตาราง) และพื้นที่ที่ไม่มีการจัดการ (ไฟล์) คือการค้นหาตารางอัตโนมัติและกระบวนการลงทะเบียน กระบวนการนี้จะทํางานบนโฟลเดอร์ใด ๆ ที่สร้างขึ้นในพื้นที่ที่มีการจัดการเท่านั้น แต่จะไม่อยู่ในพื้นที่ที่ไม่มีการจัดการ
ใน Microsoft Fabric, Lakehouse explorer ให้การแสดงกราฟิกแบบครบวงจรของทั้งเลคเฮ้าส์สําหรับผู้ใช้เพื่อนําทาง เข้าถึง และอัปเดตข้อมูลของพวกเขา
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการค้นหาตารางอัตโนมัติ ดูการค้นพบตารางอัตโนมัติและการลงทะเบียน
พื้นที่เก็บข้อมูล Delta Lake
Delta Lake คือเลเยอร์ที่เก็บข้อมูลที่ปรับให้เหมาะสมที่สุดซึ่งเป็นรากฐานสําหรับการจัดเก็บข้อมูลและตาราง รองรับธุรกรรม ACID สําหรับปริมาณงานข้อมูลขนาดใหญ่และด้วยเหตุนี้จึงเป็นรูปแบบพื้นที่จัดเก็บเริ่มต้นใน Fabric lakehouse
ที่สําคัญคือ Delta Lake มอบความน่าเชื่อถือ ความปลอดภัย และประสิทธิภาพในเลคเฮ้าส์สําหรับการทํางานแบบสตรีมมิ่งและแบบกลุ่ม ภายในจะจัดเก็บข้อมูลในรูปแบบไฟล์ Parquet อย่างไรก็ตามจะยังคงรักษาบันทึกธุรกรรมและสถิติที่มีคุณลักษณะและการปรับปรุงประสิทธิภาพเหนือรูปแบบ Parquet มาตรฐาน
รูปแบบเดลต้าเลคเหนือรูปแบบไฟล์ทั่วไปให้ประโยชน์หลักดังต่อไปนี้
- รองรับคุณสมบัติ ACID และความทนทานโดยเฉพาะอย่างยิ่งเพื่อป้องกันข้อมูลเสียหาย
- อ่านคิวรีได้เร็วขึ้น
- เพิ่มความใหม่ของข้อมูล
- การสนับสนุนสําหรับปริมาณงานทั้งแบบชุดงานและการสตรีม
- การสนับสนุนสําหรับการย้อนกลับข้อมูลโดยใช้ Delta Lake time travel
- ปรับปรุงการปฏิบัติตามกฎระเบียบและการตรวจสอบโดยใช้ ประวัติตาราง Delta Lake
Fabric สร้างมาตรฐานรูปแบบไฟล์ที่เก็บข้อมูลด้วย Delta Lake และโดยค่าเริ่มต้นกลไกจัดการปริมาณงานทั้งหมดใน Fabric จะสร้างตาราง Delta เมื่อคุณเขียนข้อมูลไปยังตารางใหม่ สําหรับข้อมูลเพิ่มเติม ดู ตารางเลคเฮาส์และเดลต้าเลค
สถาปัตยกรรม Medallion ใน Fabric
เป้าหมายของสถาปัตยกรรมเหรียญคือเพื่อปรับปรุงโครงสร้างและคุณภาพของข้อมูลอย่างต่อเนื่องในขณะที่ดําเนินการผ่านแต่ละขั้นตอน
สถาปัตยกรรม Medallion ประกอบด้วยชั้นที่แตกต่างกันสามชั้น (หรือโซน)
- ทองแดง: หรือที่เรียกว่า โซนดิบ ชั้นแรกนี้จัดเก็บข้อมูลต้นทางในรูปแบบเดิม โดยทั่วไปข้อมูลในเลเยอร์นี้จะผนวกเฉพาะและไม่สามารถเปลี่ยนแปลงได้
- เงิน: หรือที่เรียกว่า โซนที่อุดมไปด้วยชั้นนี้จัดเก็บข้อมูลที่มาจากชั้นทองแดง ข้อมูลดิบได้รับการทําความสะอาดและกําหนดมาตรฐานแล้ว และตอนนี้มีการจัดโครงสร้างเป็นตาราง (แถวและคอลัมน์) นอกจากนี้ยังอาจรวมกับข้อมูลอื่น ๆ เพื่อให้มุมมององค์กรของเอนทิตีธุรกิจทั้งหมด เช่น ลูกค้า ผลิตภัณฑ์ และอื่น ๆ
- ทอง: หรือที่เรียกว่าโซนที่รวบรวมไว้ ชั้นสุดท้ายนี้จัดเก็บข้อมูลที่มาจากเลเยอร์เงิน ข้อมูลได้รับการปรับแต่งเพื่อให้ตรงตามข้อกําหนดเฉพาะสําหรับธุรกิจและการวิเคราะห์ โดยทั่วไปตารางจะ สอดคล้องกับการออกแบบ Schema รูปดาว ซึ่งสนับสนุนการพัฒนาแบบจําลองข้อมูลที่ปรับให้เหมาะสมเพื่อประสิทธิภาพการทํางานและความสามารถในการใช้งาน
สำคัญ
เนื่องจาก Fabric lakehouse เป็นโซนเดียว คุณจึงสร้างเลคเฮ้าส์หนึ่งแห่งสําหรับแต่ละโซนทั้งสาม
ในการใช้งานสถาปัตยกรรมเหรียญทั่วไปใน Fabric โซนทองแดงจัดเก็บข้อมูลในรูปแบบเดียวกับแหล่งข้อมูล เมื่อแหล่งข้อมูลเป็นฐานข้อมูลเชิงสัมพันธ์ ตาราง Delta เป็นตัวเลือกที่ดี โซนสีเงินและสีทองประกอบด้วยตาราง Delta
เคล็ดลับ
หากต้องการเรียนรู้วิธีการสร้างเลคเฮ้าส์ ให้ทํางานผ่านบทช่วยสอนสถานการณ์แบบ end-to-end ของ Lakehouse
คําแนะนําของเลคเฮ้าส์สําหรับผ้า
ส่วนนี้จะให้คําแนะนําที่เกี่ยวข้องกับการนํา Fabric lakehouse ไปใช้โดยใช้สถาปัตยกรรม medallion
แบบจําลองการปรับใช้
หากต้องการใช้สถาปัตยกรรมเหรียญใน Fabric คุณสามารถใช้เลคเฮ้าส์ (หนึ่งชุดสําหรับแต่ละโซน) คลังข้อมูล หรือทั้งสองอย่างรวมกันได้ การตัดสินใจของคุณควรขึ้นอยู่กับความชอบและความเชี่ยวชาญของทีมของคุณ โปรดทราบว่า Fabric ให้ความยืดหยุ่น: คุณสามารถใช้เครื่องมือวิเคราะห์ที่แตกต่างกันที่ทํางานบนสําเนาข้อมูลเดียวของคุณใน OneLake ได้
นี่คือสองรูปแบบที่ควรพิจารณา
- แบบที่ 1: สร้างแต่ละโซนเป็นเลคเฮ้าส์ ในกรณีนี้ ผู้ใช้ทางธุรกิจเข้าถึงข้อมูลโดยใช้จุดสิ้นสุดการวิเคราะห์ SQL
- แบบแผน 2: สร้างโซนทองแดงและสีเงินเป็นเลคเฮ้าส์และโซนทองเป็นคลังข้อมูล ในกรณีนี้ ผู้ใช้ทางธุรกิจ เข้าถึงข้อมูลโดยใช้จุดสิ้นสุดของคลังข้อมูล
ในขณะที่คุณสามารถสร้างเลคเฮ้าส์ทั้งหมดในพื้นที่ทํางาน Fabric เดียวเราขอแนะนําให้คุณสร้างเลคเฮ้าส์แต่ละแห่งแยกกัน เป็นพื้นที่ทํางาน Fabric วิธีนี้ช่วยให้คุณสามารถควบคุมได้มากขึ้นและการกํากับดูแลที่ดีขึ้นในระดับโซน
สําหรับโซนทองแดง เราขอแนะนําให้คุณจัดเก็บข้อมูลในรูปแบบดั้งเดิมหรือใช้ Parquet หรือ Delta Lake เมื่อใดก็ตามที่เป็นไปได้ ให้เก็บข้อมูลในรูปแบบเดิม หากข้อมูลต้นฉบับมาจาก OneLake, Azure Data Lake Store Gen2 (ADLS Gen2), Amazon S3 หรือ Google ให้สร้าง ทางลัด ในโซนทองแดงแทนที่จะคัดลอกข้อมูลไปทั่ว
สําหรับโซนสีเงินและสีทอง เราขอแนะนําให้คุณใช้ตาราง Delta เนื่องจากความสามารถพิเศษและการปรับปรุงประสิทธิภาพการทํางานที่มีให้ Fabric สร้างมาตรฐานในรูปแบบ Delta Lake และตามค่าเริ่มต้นทุกกลไกจัดการใน Fabric เขียนข้อมูลในรูปแบบนี้ นอกจากนี้ กลไกเหล่านี้ใช้การปรับให้เหมาะสมกับเวลาเขียนของ V-Order เป็นรูปแบบไฟล์ Parquet การปรับให้เหมาะสมช่วยให้สามารถอ่านได้อย่างรวดเร็วโดยกลไกการคํานวณของ Fabric เช่น Power BI, SQL, Apache Spark และอื่น ๆ สําหรับข้อมูลเพิ่มเติม ดูการปรับตาราง Delta Lake ให้เหมาะสมและ V-Order
สุดท้ายนี้ วันนี้องค์กรจํานวนมากเผชิญกับการเติบโตของปริมาณข้อมูลจํานวนมาก พร้อมกับความจําเป็นในการจัดการและจัดการข้อมูลนั้นด้วยวิธีเชิงตรรกะ ในขณะที่อํานวยความสะดวกในการใช้งานและการกํากับดูแลที่กําหนดเป้าหมายและมีประสิทธิภาพมากขึ้น ซึ่งอาจนําคุณในการสร้างและจัดการองค์กรข้อมูลแบบกระจายอํานาจหรือร่วมกับการกํากับดูแล
เพื่อให้เป็นไปตามวัตถุประสงค์นี้ให้พิจารณาใช้สถาปัตยกรรม data mesh ตาข่าย ข้อมูลเป็นรูปแบบสถาปัตยกรรมที่มุ่งเน้นการสร้างโดเมนข้อมูลที่มีข้อมูลเป็นผลิตภัณฑ์
คุณสามารถสร้างสถาปัตยกรรม Data Mesh สําหรับอสังหาริมทรัพย์ของคุณใน Fabric ได้โดยการสร้างโดเมนข้อมูล คุณอาจสร้างโดเมนที่แมปกับโดเมนธุรกิจของคุณ เช่น การตลาด การขาย สินค้าคงคลัง ทรัพยากรบุคคล และอื่น ๆ จากนั้นคุณสามารถใช้สถาปัตยกรรมเหรียญได้โดยการตั้งค่าโซนข้อมูลภายในแต่ละโดเมนของคุณ
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับโดเมน ดูโดเมน
ทําความเข้าใจที่เก็บข้อมูลตาราง Delta
ในส่วนนี้จะอธิบายหัวข้อคําแนะนําอื่น ๆ ที่เกี่ยวข้องกับการนําสถาปัตยกรรมของบ้านในทะเลสาบเหรียญไปใช้ใน Fabric
ขนาดไฟล์
โดยทั่วไปแล้วแพลตฟอร์มข้อมูลขนาดใหญ่จะทํางานได้ดียิ่งขึ้นเมื่อมีไฟล์ขนาดใหญ่ขนาดเล็กแทนที่จะเป็นไฟล์ขนาดเล็กจํานวนมาก นั่นเป็นเพราะว่าประสิทธิภาพการทํางานลดลงเมื่อกลไกการคํานวณต้องจัดการเมตาดาต้าและการดําเนินการของไฟล์จํานวนมาก เพื่อประสิทธิภาพการทํางานของคิวรีที่ดีขึ้น เราขอแนะนําให้คุณตั้งเป้าที่ไฟล์ข้อมูลที่มีขนาดประมาณ 1 GB
Delta Lake มีคุณลักษณะที่เรียกว่า การเพิ่มประสิทธิภาพการคาดการณ์ การปรับให้เหมาะสมแบบคาดการณ์ไม่จําเป็นต้องจัดการการดําเนินการบํารุงรักษาสําหรับตาราง Delta ด้วยตนเอง เมื่อเปิดใช้งานคุณลักษณะนี้ Delta Lake จะระบุตารางที่จะได้รับประโยชน์จากการดําเนินการบํารุงรักษาโดยอัตโนมัติจากนั้นจะปรับการจัดเก็บข้อมูลให้เหมาะสม ซึ่งสามารถรวมไฟล์ขนาดเล็กจํานวนมากให้เป็นไฟล์ขนาดใหญ่ได้อย่างโปร่งใสและไม่มีผลกระทบใด ๆ กับผู้อ่านและผู้เขียนข้อมูลอื่น ๆ ในขณะที่คุณลักษณะนี้ควรเป็นส่วนหนึ่งของความเป็นเลิศในการดําเนินงานของคุณและงานการเตรียมข้อมูลของคุณ Fabric มีความสามารถในการปรับไฟล์ข้อมูลเหล่านี้ให้เหมาะสมในระหว่างการเขียนข้อมูลด้วย สําหรับข้อมูลเพิ่มเติม ดูการปรับให้เหมาะสมสําหรับ Delta Lake
การเก็บข้อมูลในอดีต
ตามค่าเริ่มต้น Delta Lake จะเก็บประวัติของการเปลี่ยนแปลงทั้งหมดที่ทําซึ่งหมายความว่าขนาดของเมตาดาต้าในอดีตจะเพิ่มขึ้นเมื่อเวลาผ่านไป จากข้อกําหนดทางธุรกิจของคุณ คุณควรมีจุดมุ่งหมายเพื่อเก็บข้อมูลในอดีตไว้เป็นระยะเวลาหนึ่งเพื่อลดค่าใช้จ่ายในการจัดเก็บของคุณเท่านั้น พิจารณาการเก็บรักษาข้อมูลในอดีตสําหรับเดือนที่แล้วหรือระยะเวลาที่เหมาะสมอื่นๆ เท่านั้น
คุณสามารถลบข้อมูลในอดีตที่เก่ากว่าออกจากตาราง Delta ได้โดยใช้ คําสั่ง VACUUM อย่างไรก็ตาม โปรดทราบว่าตามค่าเริ่มต้นคุณไม่สามารถลบข้อมูลในอดีตภายในเจ็ดวันที่ผ่านมาได้ ซึ่งก็คือการรักษาความสอดคล้องในข้อมูล จํานวนวันเริ่มต้นจะถูกควบคุมโดยคุณสมบัติ delta.deletedFileRetentionDuration = "interval <interval>"
ตาราง ซึ่งจะกําหนดระยะเวลาที่ต้องลบไฟล์ก่อนที่จะสามารถพิจารณาผู้สมัครสําหรับการดําเนินการสุญญากาศ
พาร์ติชันตาราง
เมื่อคุณจัดเก็บข้อมูลในแต่ละโซน เราขอแนะนําให้คุณใช้โครงสร้างโฟลเดอร์ที่มีการแบ่งพาร์ติชันทุกที่ที่เกี่ยวข้อง เทคนิคนี้จะช่วยปรับปรุงความสามารถในการจัดการข้อมูลและประสิทธิภาพของคิวรี โดยทั่วไปแล้ว ข้อมูลที่แบ่งพาร์ติชันในโครงสร้างโฟลเดอร์ส่งผลให้สามารถค้นหารายการข้อมูลที่เฉพาะเจาะจงได้เร็วขึ้นด้วยการตัดแต่งพาร์ติชัน/การกําจัด
โดยทั่วไปแล้ว คุณผนวกข้อมูลไปยังตารางเป้าหมายของคุณเมื่อข้อมูลใหม่มาถึง อย่างไรก็ตาม ในบางกรณีคุณอาจผสานข้อมูลเนื่องจากคุณจําเป็นต้องอัปเดตข้อมูลที่มีอยู่ในเวลาเดียวกัน ในกรณีดังกล่าว คุณสามารถดําเนินการ upsert โดยใช้ คําสั่ง MERGE เมื่อตารางเป้าหมายของคุณถูกแบ่งพาร์ติชัน ให้แน่ใจว่าได้ใช้ตัวกรองพาร์ติชันเพื่อเพิ่มความเร็วการดําเนินการ ด้วยวิธีกลไกจัดการสามารถกําจัดพาร์ติชันที่ไม่จําเป็นต้องอัปเดตได้
การเข้าถึงข้อมูล
สุดท้าย คุณควรวางแผนและควบคุมว่าใครต้องการเข้าถึงข้อมูลที่เฉพาะเจาะจงในเลคเฮ้าส์ คุณควรเข้าใจรูปแบบธุรกรรมต่างๆ ที่พวกเขาจะใช้ขณะเข้าถึงข้อมูลนี้ จากนั้นคุณสามารถกําหนดแบบแผนการแบ่งพาร์ติชันตารางที่ถูกต้อง และคอลัมน์ข้อมูลด้วยดัชนีลําดับ Delta Lake Z
เนื้อหาที่เกี่ยวข้อง
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้งาน Fabric lakehouse โปรดดูทรัพยากรต่อไปนี้
- บทช่วยสอน: สถานการณ์สมมติแบบ end-to-end ของ Lakehouse
- เลคเฮาส์และตารางทะเลสาบเดลต้า
- คู่มือการตัดสินใจของ Microsoft Fabric: เลือกที่เก็บข้อมูล
- การปรับตาราง Delta Lake ให้เหมาะสมและ V-Order
- ความจําเป็นสําหรับการปรับการเขียนให้เหมาะสมบน Apache Spark
- คำถาม ลองถาม ชุมชน Fabric
- คำ แนะ นำ สนับสนุนแนวคิดในการปรับปรุง Fabric