เลคเฮาส์และตารางทะเลสาบเดลต้า
Microsoft Fabric Lakehouse เป็นแพลตฟอร์มสถาปัตยกรรมข้อมูลสําหรับจัดเก็บ จัดการ และวิเคราะห์ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างในตําแหน่งที่ตั้งเดียว เพื่อให้สามารถเข้าถึงข้อมูลที่ราบรื่นทั่วทั้งกลไกการคํานวณทั้งหมดใน Microsoft Fabric Delta Lake ถูกเลือกเป็นรูปแบบตารางแบบรวม
การบันทึกข้อมูลในเลคเฮ้าส์โดยใช้ความสามารถ เช่น โหลดไปยังตาราง หรือวิธีการที่อธิบายไว้ใน ตัวเลือกเพื่อรับข้อมูลลงใน Fabric Lakehouse ข้อมูลทั้งหมดจะถูกบันทึกในรูปแบบ Delta
สําหรับคําแนะนําที่ครอบคลุมมากขึ้นเกี่ยวกับรูปแบบตาราง Delta Lake ให้ทําตามลิงก์ในส่วนขั้นตอนถัดไป
ข้อมูลขนาดใหญ่ Apache Spark และรูปแบบตารางแบบดั้งเดิม
Microsoft Fabric Runtime สําหรับ Apache Spark ใช้พื้นฐานเดียวกับ Azure Synapse Analytics Runtime สําหรับ Apache Spark แต่มีความแตกต่างที่สําคัญเพื่อให้ลักษณะการทํางานมีประสิทธิภาพมากขึ้นในทุกกลไกจัดการในบริการ Microsoft Fabric ใน Microsoft Fabric คุณลักษณะด้านประสิทธิภาพหลักจะเปิดใช้งานตามค่าเริ่มต้น ผู้ใช้ Apache Spark ขั้นสูงอาจแปลงกลับการกําหนดค่าเป็นค่าก่อนหน้าเพื่อให้สอดคล้องกับสถานการณ์ที่เฉพาะเจาะจงได้ดียิ่งขึ้น
Microsoft Fabric Lakehouse และกลไก Apache Spark รองรับตารางทุกประเภททั้งแบบมีการจัดการและไม่มีการจัดการ ซึ่งรวมถึงมุมมองและรูปแบบตาราง Hive ที่ไม่ใช่ Delta แบบปกติ ตารางที่กําหนดไว้โดยใช้ PARQUET, CSV, AVRO, JSON และรูปแบบไฟล์ที่เข้ากันได้กับ Apache Hive ทํางานได้ตามที่คาดไว้
ประสบการณ์การใช้งานอินเทอร์เฟสผู้ใช้ของ Lakehouse Explorer จะแตกต่างกันไปตามชนิดของตาราง ในขณะนี้ Lakehouse explorer แสดงเฉพาะวัตถุของตารางเท่านั้น
ความแตกต่างในการกําหนดค่าด้วย Azure Synapse Analytics
ตารางต่อไปนี้ประกอบด้วยความแตกต่างในการกําหนดค่าระหว่าง Azure Synapse Analytics และ Microsoft Fabric Runtime สําหรับ Apache Spark
การกําหนดค่า Apache Spark | ค่า Microsoft Fabric | ค่า Azure Synapse Analytics | บันทึกย่อ |
---|---|---|---|
spark.sql.sources.default | เดลตา | parquet | รูปแบบตารางเริ่มต้น |
spark.sql.parquet.vorder.enabled | จริง | ไม่ระบุ | ตัวเขียน V-Order |
spark.sql.parquet.vorder.dictionaryPageSize | 2 กิกะไบต์ | ไม่ระบุ | ขีดจํากัดขนาดหน้าพจนานุกรมสําหรับ V-Order |
spark.microsoft.delta.optimizeWrite.enabled | จริง | unset (เท็จ) | ปรับการเขียนให้เหมาะสม |
การค้นหาตารางโดยอัตโนมัติ
Lakehouse explorer มีมุมมองเหมือนต้นไม้ของวัตถุในรายการ Microsoft Fabric Lakehouse ซึ่งมีความสามารถหลักในการค้นหาและแสดงตารางที่อธิบายไว้ในที่เก็บเมตาดาต้าและในพื้นที่เก็บข้อมูล OneLake การอ้างอิงตารางจะแสดงภายใต้ส่วน ของ Tables
ส่วนติดต่อผู้ใช้ของ Lakehouse explorer การค้นพบอัตโนมัติยังนําไปใช้กับตารางที่กําหนดไว้บนทางลัด OneLake
ตารางเหนือทางลัด
Microsoft Fabric Lakehouse รองรับตารางที่กําหนดไว้บนทางลัด OneLake เพื่อให้สามารถทํางานร่วมกันได้สูงสุดและไม่มีการเคลื่อนย้ายข้อมูล ตารางต่อไปนี้ประกอบด้วยสถานการณ์แนวทางปฏิบัติที่ดีที่สุดสําหรับรายการแต่ละชนิดเมื่อใช้เหนือทางลัด
ปลายทางของทางลัด | ตําแหน่งที่จะสร้างทางลัด | แนวทางปฏิบัติที่ดีที่สุด |
---|---|---|
ตารางทะเลสาบเดลต้า | Tables ตอน |
หากมีตารางหลายตารางอยู่ในปลายทาง ให้สร้างทางลัดหนึ่งรายการต่อตาราง |
โฟลเดอร์ที่มีไฟล์ | Files ตอน |
ใช้ Apache Spark เพื่อใช้ปลายทางโดยตรงโดยใช้เส้นทางสัมพัทธ์ โหลดข้อมูลลงในตาราง Delta ดั้งเดิมของ Lakehouse เพื่อประสิทธิภาพการทํางานสูงสุด |
ตาราง Hive Apache แบบดั้งเดิม | Files ตอน |
ใช้ Apache Spark เพื่อใช้ปลายทางโดยตรงโดยใช้เส้นทางสัมพัทธ์ หรือสร้างการอ้างอิงแค็ตตาล็อกเมตาดาต้าโดยใช้ CREATE EXTERNAL TABLE ไวยากรณ์ โหลดข้อมูลลงในตาราง Delta ดั้งเดิมของ Lakehouse เพื่อประสิทธิภาพการทํางานสูงสุด |
โหลดไปยังตาราง
Microsoft Fabric Lakehouse ให้ส่วนติดต่อผู้ใช้ที่สะดวกและประสิทธิผลเพื่อปรับปรุงการโหลดข้อมูลลงในตาราง Delta คุณลักษณะการโหลดไปยังตารางช่วยให้ประสบการณ์การใช้งานวิชวลสามารถโหลดรูปแบบไฟล์ทั่วไปไปยัง Delta เพื่อเพิ่มประสิทธิภาพการวิเคราะห์ให้กับบุคคลทั้งหมด หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคุณลักษณะ โหลดไปยังตาราง ในรายละเอียด โปรดอ่าน เอกสารอ้างอิงการโหลด Lakehouse ไปยังตาราง
การปรับตาราง Delta Lake ให้เหมาะสม
การทําให้ตารางอยู่ในรูปร่างสําหรับขอบเขตกว้าง ๆ ของสถานการณ์การวิเคราะห์ไม่ใช่ความสําเร็จเล็กน้อย Microsoft Fabric Lakehouse pro-actively ช่วยให้พารามิเตอร์ที่สําคัญเพื่อลดปัญหาทั่วไปที่เกี่ยวข้องกับตารางข้อมูลขนาดใหญ่ เช่น การกระชับและขนาดไฟล์ขนาดเล็ก และเพิ่มประสิทธิภาพคิวรี่สูงสุด ยังมีหลายสถานการณ์ที่พารามิเตอร์เหล่านั้นจําเป็นต้องมีการเปลี่ยนแปลง บทความ การปรับตาราง Delta Lake ให้เหมาะสมและ V-Order ครอบคลุมสถานการณ์สําคัญบางสถานการณ์ และให้คําแนะนําเชิงลึกเกี่ยวกับวิธีการรักษาตาราง Delta อย่างมีประสิทธิภาพเพื่อให้ได้ประสิทธิภาพสูงสุด