แชร์ผ่าน


เลคเฮาส์และตารางทะเลสาบเดลต้า

Microsoft Fabric Lakehouse เป็นแพลตฟอร์มสถาปัตยกรรมข้อมูลสําหรับจัดเก็บ จัดการ และวิเคราะห์ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างในตําแหน่งที่ตั้งเดียว เพื่อให้สามารถเข้าถึงข้อมูลที่ราบรื่นทั่วทั้งกลไกการคํานวณทั้งหมดใน Microsoft Fabric Delta Lake ถูกเลือกเป็นรูปแบบตารางแบบรวม

การบันทึกข้อมูลในเลคเฮ้าส์โดยใช้ความสามารถ เช่น โหลดไปยังตาราง หรือวิธีการที่อธิบายไว้ใน ตัวเลือกเพื่อรับข้อมูลลงใน Fabric Lakehouse ข้อมูลทั้งหมดจะถูกบันทึกในรูปแบบ Delta

สําหรับคําแนะนําที่ครอบคลุมมากขึ้นเกี่ยวกับรูปแบบตาราง Delta Lake ให้ทําตามลิงก์ในส่วนขั้นตอนถัดไป

ข้อมูลขนาดใหญ่ Apache Spark และรูปแบบตารางแบบดั้งเดิม

Microsoft Fabric Runtime สําหรับ Apache Spark ใช้พื้นฐานเดียวกับ Azure Synapse Analytics Runtime สําหรับ Apache Spark แต่มีความแตกต่างที่สําคัญเพื่อให้ลักษณะการทํางานมีประสิทธิภาพมากขึ้นในทุกกลไกจัดการในบริการ Microsoft Fabric ใน Microsoft Fabric คุณลักษณะด้านประสิทธิภาพหลักจะเปิดใช้งานตามค่าเริ่มต้น ผู้ใช้ Apache Spark ขั้นสูงอาจแปลงกลับการกําหนดค่าเป็นค่าก่อนหน้าเพื่อให้สอดคล้องกับสถานการณ์ที่เฉพาะเจาะจงได้ดียิ่งขึ้น

Microsoft Fabric Lakehouse และกลไก Apache Spark รองรับตารางทุกประเภททั้งแบบมีการจัดการและไม่มีการจัดการ ซึ่งรวมถึงมุมมองและรูปแบบตาราง Hive ที่ไม่ใช่ Delta แบบปกติ ตารางที่กําหนดไว้โดยใช้ PARQUET, CSV, AVRO, JSON และรูปแบบไฟล์ที่เข้ากันได้กับ Apache Hive ทํางานได้ตามที่คาดไว้

ประสบการณ์การใช้งานอินเทอร์เฟสผู้ใช้ของ Lakehouse Explorer จะแตกต่างกันไปตามชนิดของตาราง ในขณะนี้ Lakehouse explorer แสดงเฉพาะวัตถุของตารางเท่านั้น

ความแตกต่างในการกําหนดค่าด้วย Azure Synapse Analytics

ตารางต่อไปนี้ประกอบด้วยความแตกต่างในการกําหนดค่าระหว่าง Azure Synapse Analytics และ Microsoft Fabric Runtime สําหรับ Apache Spark

การกําหนดค่า Apache Spark ค่า Microsoft Fabric ค่า Azure Synapse Analytics บันทึกย่อ
spark.sql.sources.default เดลตา parquet รูปแบบตารางเริ่มต้น
spark.sql.parquet.vorder.enabled จริง ไม่ระบุ ตัวเขียน V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2 กิกะไบต์ ไม่ระบุ ขีดจํากัดขนาดหน้าพจนานุกรมสําหรับ V-Order
spark.microsoft.delta.optimizeWrite.enabled จริง unset (เท็จ) ปรับการเขียนให้เหมาะสม

การค้นหาตารางโดยอัตโนมัติ

Lakehouse explorer มีมุมมองเหมือนต้นไม้ของวัตถุในรายการ Microsoft Fabric Lakehouse ซึ่งมีความสามารถหลักในการค้นหาและแสดงตารางที่อธิบายไว้ในที่เก็บเมตาดาต้าและในพื้นที่เก็บข้อมูล OneLake การอ้างอิงตารางจะแสดงภายใต้ส่วน ของ Tables ส่วนติดต่อผู้ใช้ของ Lakehouse explorer การค้นพบอัตโนมัติยังนําไปใช้กับตารางที่กําหนดไว้บนทางลัด OneLake

ตารางเหนือทางลัด

Microsoft Fabric Lakehouse รองรับตารางที่กําหนดไว้บนทางลัด OneLake เพื่อให้สามารถทํางานร่วมกันได้สูงสุดและไม่มีการเคลื่อนย้ายข้อมูล ตารางต่อไปนี้ประกอบด้วยสถานการณ์แนวทางปฏิบัติที่ดีที่สุดสําหรับรายการแต่ละชนิดเมื่อใช้เหนือทางลัด

ปลายทางของทางลัด ตําแหน่งที่จะสร้างทางลัด แนวทางปฏิบัติที่ดีที่สุด
ตารางทะเลสาบเดลต้า Tables ตอน หากมีตารางหลายตารางอยู่ในปลายทาง ให้สร้างทางลัดหนึ่งรายการต่อตาราง
โฟลเดอร์ที่มีไฟล์ Files ตอน ใช้ Apache Spark เพื่อใช้ปลายทางโดยตรงโดยใช้เส้นทางสัมพัทธ์ โหลดข้อมูลลงในตาราง Delta ดั้งเดิมของ Lakehouse เพื่อประสิทธิภาพการทํางานสูงสุด
ตาราง Hive Apache แบบดั้งเดิม Files ตอน ใช้ Apache Spark เพื่อใช้ปลายทางโดยตรงโดยใช้เส้นทางสัมพัทธ์ หรือสร้างการอ้างอิงแค็ตตาล็อกเมตาดาต้าโดยใช้ CREATE EXTERNAL TABLE ไวยากรณ์ โหลดข้อมูลลงในตาราง Delta ดั้งเดิมของ Lakehouse เพื่อประสิทธิภาพการทํางานสูงสุด

โหลดไปยังตาราง

Microsoft Fabric Lakehouse ให้ส่วนติดต่อผู้ใช้ที่สะดวกและประสิทธิผลเพื่อปรับปรุงการโหลดข้อมูลลงในตาราง Delta คุณลักษณะการโหลดไปยังตารางช่วยให้ประสบการณ์การใช้งานวิชวลสามารถโหลดรูปแบบไฟล์ทั่วไปไปยัง Delta เพื่อเพิ่มประสิทธิภาพการวิเคราะห์ให้กับบุคคลทั้งหมด หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคุณลักษณะ โหลดไปยังตาราง ในรายละเอียด โปรดอ่าน เอกสารอ้างอิงการโหลด Lakehouse ไปยังตาราง

การปรับตาราง Delta Lake ให้เหมาะสม

การทําให้ตารางอยู่ในรูปร่างสําหรับขอบเขตกว้าง ๆ ของสถานการณ์การวิเคราะห์ไม่ใช่ความสําเร็จเล็กน้อย Microsoft Fabric Lakehouse pro-actively ช่วยให้พารามิเตอร์ที่สําคัญเพื่อลดปัญหาทั่วไปที่เกี่ยวข้องกับตารางข้อมูลขนาดใหญ่ เช่น การกระชับและขนาดไฟล์ขนาดเล็ก และเพิ่มประสิทธิภาพคิวรี่สูงสุด ยังมีหลายสถานการณ์ที่พารามิเตอร์เหล่านั้นจําเป็นต้องมีการเปลี่ยนแปลง บทความ การปรับตาราง Delta Lake ให้เหมาะสมและ V-Order ครอบคลุมสถานการณ์สําคัญบางสถานการณ์ และให้คําแนะนําเชิงลึกเกี่ยวกับวิธีการรักษาตาราง Delta อย่างมีประสิทธิภาพเพื่อให้ได้ประสิทธิภาพสูงสุด