จัดเก็บข้อมูลใน Microsoft Fabric

Microsoft Fabric มีตัวเลือกที่เก็บข้อมูลหลายตัวที่ออกแบบมาเพื่อรองรับการวิเคราะห์ การประมวลผลแบบเรียลไทม์ และการรายงานการดําเนินงานภายในแพลตฟอร์มแบบครบวงจร การเลือกประสบการณ์การจัดเก็บข้อมูลที่เหมาะสมจะช่วยให้คุณเพิ่มประสิทธิภาพ จัดการต้นทุน และปรับสถาปัตยกรรมข้อมูลของคุณให้สอดคล้องกับข้อกําหนดของปริมาณงาน โดยไม่คํานึงถึงแหล่งที่มาหรือวิธีการเตรียมการข้อมูลทั้งหมดจะอยู่ในรากฐานการจัดเก็บแบบรวมที่เรียกว่า OneLake

บทความนี้อธิบายวิธีการจัดเก็บข้อมูลใน Fabric และอธิบายประสบการณ์การจัดเก็บข้อมูลหลักที่พร้อมใช้งาน ส่วนต่อไปนี้ครอบคลุม:

  • OneLake – ที่จัดเก็บข้อมูลดิบเชิงตรรกะแบบครบวงจรที่สนับสนุนปริมาณงาน Fabric ทั้งหมด
  • เลคเฮาส์ – จัดเก็บและวิเคราะห์ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างโดยใช้ตารางเดลต้า
  • คลังสินค้า – จัดเก็บข้อมูลเชิงสัมพันธ์ที่ปรับให้เหมาะสมสําหรับการวิเคราะห์ SQL ที่มีประสิทธิภาพสูง
  • Eventhouse – จัดเก็บและสืบค้นข้อมูลเหตุการณ์แบบเรียลไทม์ที่มีปริมาณมาก
  • ฐานข้อมูลและประสบการณ์การจัดเก็บข้อมูลอื่นๆ – ทําความเข้าใจความสามารถในการจัดเก็บเพิ่มเติมที่มีอยู่ภายใน Fabric

ใช้ภาพรวมนี้เพื่อทําความเข้าใจว่าตัวเลือกการจัดเก็บแต่ละตัวเลือกทํางานอย่างไร และเลือกตัวเลือกที่เหมาะสมที่สุดสําหรับสถานการณ์การวิเคราะห์และการดําเนินงานของคุณ

เลคเฮาส์สําหรับการจัดเก็บข้อมูลที่ยืดหยุ่น

Lakehouse เป็นรายการที่เก็บข้อมูลหลักใน Fabric ที่ใช้ OneLake เพื่อจัดเก็บข้อมูลทั้งในรูปแบบไฟล์และตาราง Lakehouse แสดงถึงโครงสร้างโฟลเดอร์ที่ดูแลจัดการใน OneLake และรวมถึงอินเทอร์เฟซ SQL Lakehouse จัดเก็บข้อมูลเป็นไฟล์ Delta Parquet คุณสามารถจัดระเบียบไฟล์ดิบ เช่น ไฟล์ CSV หรือรูปภาพในโฟลเดอร์ และสร้างตารางเดลต้าที่มีการจัดการสําหรับข้อมูลที่มีโครงสร้างได้ โมเดลนี้รองรับทั้งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างในสภาพแวดล้อมเดียวกัน

Fabric จะจัดเตรียม ตําแหน่งข้อมูลการวิเคราะห์ SQL สําหรับ Lakehouse แต่ละรายการโดยอัตโนมัติ คุณและเครื่องมือต่างๆ เช่น Power BI สามารถคิวรีตารางเดลต้าโดยใช้ Transact-SQL ราวกับว่าคิวรีฐานข้อมูลเชิงสัมพันธ์ Lakehouse รวมความสามารถในการปรับขนาดและความยืดหยุ่นของ Data Lake เข้ากับความสามารถของคลังสินค้าหลัก รวมถึงการสืบค้นตารางโดยตรงและการจัดการ Schema

คลังสินค้าสําหรับการวิเคราะห์ที่มีโครงสร้าง

คลังสินค้าใน Fabric มอบประสบการณ์คลังข้อมูล SQL แบบดั้งเดิม (พร้อมตาราง มุมมอง SQL กระบวนงานที่เก็บไว้ และอื่นๆ) บนที่เก็บข้อมูลแบบรวมของ Fabric เมื่อคุณสร้างคลังสินค้า คลังสินค้าจะจัดเก็บข้อมูลใน OneLake ในรูปแบบเดลต้าเป็นชุดของตารางเดลต้าที่มีการจัดระเบียบโดยมีอินเทอร์เฟซ ANSI SQL อยู่ด้านบน คลังสินค้าให้การประมวลผลเฉพาะและประสิทธิภาพที่ปรับแต่งอย่างละเอียดสําหรับการสืบค้น SQL ที่ซับซ้อนและปริมาณงานสไตล์ BI รองรับคุณสมบัติต่างๆ เช่น การจัดทําดัชนี กระบวนงานที่เก็บไว้ และธุรกรรม ACID ที่มีประสิทธิภาพบนตาราง

คลังสินค้าและเลคเฮาส์ใช้ที่เก็บข้อมูล OneLake เดียวกัน คุณสามารถรวมเข้าด้วยกันได้โดยใช้ทางลัดหรือคุณลักษณะการทํางานร่วมกันอื่นๆ เมื่อจําเป็น อย่างไรก็ตาม คุณมักจะแยกจากกันสําหรับกรณีการใช้งานที่แตกต่างกัน คลังสินค้าเหมาะอย่างยิ่งสําหรับข้อมูลสคีมาดาวเชิงสัมพันธ์ที่มีโครงสร้างซึ่งคุณต้องแบ่งส่วนและหั่นลูกเต๋าด้วย SQL คุณสามารถใช้ไปป์ไลน์ Fabric เพื่อโหลดข้อมูลลงในคลังสินค้า Power BI สามารถเชื่อมต่อโดยใช้ Direct Lake หรือ DirectQuery เพื่อดึงข้อมูลโดยไม่ต้องนําเข้า

คู่มือการตัดสินใจ: เลคเฮาส์กับคลังสินค้า

คลังสินค้าและเลคเฮาส์มีบทบาทที่แตกต่างกันแต่เสริมกัน

  • คลังสินค้าได้รับการปรับให้เหมาะสมสําหรับคลังข้อมูลระดับองค์กรที่มีโครงสร้างพร้อมรองรับ T-SQL เต็มรูปแบบ ธุรกรรม ACID และการบังคับใช้ Schema ที่แข็งแกร่ง ซึ่งเหมาะสําหรับ BI และการรายงาน เลือกคลังสินค้าสําหรับปริมาณงาน SQL ที่มีประสิทธิภาพสูงและมีการควบคุม และ Lakehouse สําหรับการประมวลผลข้อมูลขนาดใหญ่ การวิเคราะห์เชิงสํารวจ และสถานการณ์ที่เกี่ยวข้องกับรูปแบบข้อมูลที่หลากหลายหรือการรวม Lake ภายนอก

  • เลคเฮาส์นําเสนอพื้นที่จัดเก็บข้อมูลที่ยืดหยุ่นและปรับขนาดได้สําหรับทั้งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง ซึ่งรองรับวิศวกรรมข้อมูลที่ใช้ Spark และการวิเคราะห์ SQL แบบอ่านอย่างเดียวผ่านปลายทางอัตโนมัติ

หลายองค์กรได้รับประโยชน์จากการใช้ทั้งสองอย่างร่วมกัน: เลคเฮาส์สําหรับการนําเข้าและการแปลง และคลังสินค้าสําหรับการวิเคราะห์และการรายงานที่ละเอียด หากต้องการเรียนรู้เพิ่มเติม โปรดดูคู่มือการตัดสินใจ

ฐานข้อมูลมิเรอร์สําหรับการจําลองแบบเกือบเรียลไทม์

ฐานข้อมูลมิเรอร์ใน Fabric คือสําเนาที่จําลองแบบอย่างต่อเนื่องของฐานข้อมูลการดําเนินงานภายนอก เช่น Azure SQL Database, SQL Server, Azure Cosmos DB หรือ Snowflake Fabric จัดเก็บข้อมูลมิเรอร์ใน OneLake ในรูปแบบ Delta Lake

การมิเรอร์จะซิงโครไนซ์การเปลี่ยนแปลงแหล่งที่มาลงใน Fabric แบบเกือบเรียลไทม์โดยไม่ต้องแยก แปลง โหลดไปป์ไลน์แบบเดิม หลังจากการจําลองแบบ ข้อมูลจะ สามารถคิวรีได้ทันที ผ่านจุดสิ้นสุด SQL และพร้อมใช้งานในปริมาณงาน Fabric รวมถึง Power BI, สมุดบันทึก Spark และไปป์ไลน์

สถาปัตยกรรมนี้รองรับสถานการณ์การประมวลผลธุรกรรมและการวิเคราะห์แบบไฮบริด (HTAP) ซึ่งคุณวิเคราะห์ข้อมูลการดําเนินงานในขณะที่ยังคงรักษาความสมบูรณ์ของระบบต้นทาง หากข้อมูลต้นฉบับถูกจัดเก็บไว้ในตําแหน่งที่เข้าถึงได้ผ่านทางลัด OneLake (เช่น Azure Data Lake Storage หรือพื้นที่ทํางาน Fabric อื่น) ให้พิจารณาใช้ทางลัดสําหรับการเข้าถึงแบบไม่มีสําเนาแทนการมิเรอร์ การมิเรอร์เหมาะที่สุดสําหรับฐานข้อมูลการดําเนินงานที่ต้องการการบันทึกข้อมูลการเปลี่ยนแปลงอย่างต่อเนื่อง ในขณะที่ทางลัดเหมาะอย่างยิ่งเมื่อคุณต้องการการเข้าถึงแบบอ่านอย่างเดียวแบบสดโดยไม่ต้องจําลองแบบ

ทางลัด OneLake สําหรับการเข้าถึงข้อมูลแบบไม่ต้องคัดลอก

ทางลัด OneLake เป็นลิงก์เชิงตรรกะที่อ้างอิงข้อมูลในระบบจัดเก็บข้อมูลภายนอกหรือในพื้นที่ทํางาน Fabric อื่นๆ โดยไม่ต้องคัดลอก ทางลัดทําให้ข้อมูลที่อ้างอิงปรากฏเป็นส่วนหนึ่งของเนมสเปซ OneLake ภายในเครื่อง ดังนั้นกลไกการคํานวณ Fabric ทั้งหมด (Spark, SQL, Power BI) สามารถคิวรีเป้าหมายทางลัดควบคู่ไปกับข้อมูลดั้งเดิมได้ วิธีการนี้รักษาความจริงเวอร์ชันเดียวและหลีกเลี่ยงการทําซ้ําของที่เก็บข้อมูล

คุณยังสามารถใช้การแชร์ข้อมูล OneLake เพื่อขยายการเข้าถึงทางลัดข้ามขอบเขตของผู้เช่า Microsoft Entra ได้อีกด้วย เจ้าของข้อมูลให้สิทธิ์ OneLake กับข้อมูลประจําตัวภายนอก และผู้รับสร้างทางลัดไปยังข้อมูลที่แชร์ในพื้นที่ทํางานของตนเอง นโยบายการกํากับดูแลยังคงบังคับใช้ที่ต้นทาง สําหรับข้อมูลเพิ่มเติม โปรดดู ทางลัด OneLake และการแชร์ข้อมูลภายนอก

Eventhouse สําหรับการวิเคราะห์เหตุการณ์แบบเรียลไทม์

Eventhouse มีสภาพแวดล้อมการวิเคราะห์แบบเรียลไทม์ที่ปรับขนาดได้ซึ่งออกแบบมาเพื่อนําเข้า จัดเก็บ และวิเคราะห์ข้อมูลเหตุการณ์จํานวนมาก เป็นกลไกพื้นฐานสําหรับปริมาณงาน Real-Time Intelligence

Eventhouse โฮสต์ฐานข้อมูล Kusto Query Language อย่างน้อยหนึ่งฐานข้อมูลตามเอ็นจิ้น Kusto ฐานข้อมูลเหล่านี้จะจัดทําดัชนีและแบ่งพาร์ติชันข้อมูลโดยอัตโนมัติตามเวลาการนําเข้า คุณสอบถามข้อมูล โดยใช้ภาษาคิวรี Kusto

Eventhouse เหมาะอย่างยิ่งสําหรับการวัดและส่งข้อมูลทางไกล บันทึกความปลอดภัย บันทึกการปฏิบัติตามข้อกําหนด และธุรกรรมทางการเงินที่ต้องการการวิเคราะห์เวลาแฝงต่ําและการนําเข้าขนาดใหญ่

ฐานข้อมูล SQL สําหรับปริมาณงานธุรกรรม

ฐานข้อมูล SQL ใน Fabric รองรับปริมาณงานการวิเคราะห์ธุรกรรมและการดําเนินงาน พวกเขามอบประสบการณ์ฐานข้อมูลเชิงสัมพันธ์ที่มีการจัดการเต็มรูปแบบพร้อมรองรับ T-SQL รวมถึงความสามารถในการกําหนดข้อมูล (DDL) การจัดการ (DML) และการสืบค้น (DQL) คุณสามารถใช้กระบวนงาน มุมมอง และฟังก์ชันที่เก็บไว้เพื่อสร้างโซลูชันธุรกรรมและการวิเคราะห์

ฐานข้อมูล SQL ใช้บริการ มิเรอร์ อัตโนมัติเพื่อจําลองตารางธุรกรรมไปยัง OneLake สําหรับการวิเคราะห์ เมื่อคุณสร้างฐานข้อมูล SQL Fabric จะเริ่มกลไกการจําลองแบบที่บันทึกการดําเนินการแทรก ปรับปรุง และลบผ่านตัวดึงข้อมูลการเปลี่ยนแปลงกลไกจัดการ SQL และเขียนการเปลี่ยนแปลงเหล่านั้นลงใน OneLake เป็นไฟล์ Delta Parquet การจําลองแบบเกิดขึ้นในแบบเรียลไทม์และเริ่มโดยอัตโนมัติ ตารางที่รองรับทั้งหมดจะถูกมิเรอร์ตามค่าเริ่มต้น ลักษณะการทํางานนี้ช่วยให้แน่ใจว่าสําเนา OneLake ยังคงซิงโครไนส์กับฐานข้อมูลการดําเนินงาน

ฐานข้อมูล SQL รวมกับประสบการณ์ Fabric อื่นๆ เช่น Power BI, สมุดบันทึก, ฟังก์ชันข้อมูลผู้ใช้,ไปป์ไลน์ และเครื่องมือภายนอกผ่านโปรโตคอล TDS การผสานรวมนี้ช่วยให้คุณสามารถสร้างโซลูชันแบบครบวงจร ตั้งแต่การนําเข้าและการแปลงข้อมูลไปจนถึง การแสดงภาพ และการรายงาน โดยไม่ต้องออกจากสภาพแวดล้อม Fabric แพลตฟอร์มจะจัดการการจัดทําดัชนีและการเพิ่มประสิทธิภาพโดยอัตโนมัติ คุณจึงไม่จําเป็นต้องปรับแต่งหรือจัดการโครงสร้างพื้นฐานด้วยตนเอง

Cosmos DB สําหรับปริมาณงาน NoSQL แบบกระจาย

Cosmos DB ใน Microsoft Fabric เป็นฐานข้อมูล NoSQL แบบกระจายที่มีการจัดการเต็มรูปแบบซึ่งออกแบบมาสําหรับแอปพลิเคชันที่มีปริมาณงานสูงและกระจายไปทั่วโลก รองรับโมเดลสคีมาที่ยืดหยุ่นและข้อมูล JSON กึ่งโครงสร้าง

Cosmos DB จะถูกมิเรอร์ไปยัง OneLake ในรูปแบบเดลต้าโดยอัตโนมัติเพื่อรองรับการวิเคราะห์โดยไม่ส่งผลกระทบต่อประสิทธิภาพการดําเนินงาน การจําลองแบบเป็นไปอย่างต่อเนื่องและใกล้เคียงกับเวลาจริง และไม่จําเป็นต้องกําหนดค่าด้วยตนเอง

หลังจากการจําลองแบบ ข้อมูลจะสามารถเข้าถึงได้ผ่านจุดสิ้นสุดการวิเคราะห์ SQL คุณสามารถคิวรีข้อมูลโดยใช้ Transact-SQL สร้างมุมมอง และรวมเข้ากับ Power BI สมุดบันทึก และไปป์ไลน์

จุดสิ้นสุดการวิเคราะห์ SQL มีอินเทอร์เฟซแบบอ่านอย่างเดียวกับข้อมูลที่มิเรอร์ เพื่อให้มั่นใจว่าคิวรีการวิเคราะห์จะไม่รบกวนการดําเนินการธุรกรรม สถาปัตยกรรมนี้รองรับการประมวลผลธุรกรรมและการวิเคราะห์แบบไฮบริด (HTAP) ดังนั้นคุณจึงสามารถรวมปริมาณงานการดําเนินงานและการวิเคราะห์ไว้ในแพลตฟอร์มเดียวได้

แบบจําลองความหมายสําหรับตรรกะทางธุรกิจและการรายงาน

แบบจําลองความหมาย มีเลเยอร์ที่มีโครงสร้างและดูแลจัดการซึ่งกําหนดตรรกะทางธุรกิจ หน่วยวัด ลําดับชั้น ความสัมพันธ์ และข้อมูลเมตาที่ด้านบนของข้อมูลดิบใน Microsoft Fabric พวกเขาทําให้ข้อมูลสามารถตีความและนํากลับมาใช้ใหม่ได้ทั่วทั้งแพลตฟอร์มสําหรับประสบการณ์การวิเคราะห์

โมเดลความหมายใน Fabric ถูกรวมเข้ากับโมเดลความจุและโครงสร้างพื้นที่ทํางานของแพลตฟอร์มอย่างแน่นหนา แบบจําลองความหมายสนับสนุนโหมดคิวรีสามโหมด: นําเข้า DirectQuery และ Direct Lake แต่ละโหมดมีการแลกเปลี่ยนที่แตกต่างกันระหว่างประสิทธิภาพ ความสดใหม่ และความสามารถในการปรับขนาด:

  • โหมดนําเข้า จะคัดลอกข้อมูลจากแหล่งที่มาไปยังแบบจําลองความหมายระหว่างการรีเฟรชตามกําหนดการหรือด้วยตนเอง โหมดนี้ให้ประสิทธิภาพคิวรีที่เร็วที่สุด เนื่องจาก Power BI ทํางานกับข้อมูลในหน่วยความจํา แต่จะแนะนําเวลาแฝงระหว่างการอัปเดตแหล่งที่มาและการมองเห็นรายงาน โหมดนําเข้าเหมาะอย่างยิ่งสําหรับแดชบอร์ดประสิทธิภาพสูงที่ข้อมูลแบบเรียลไทม์ไม่สําคัญ

  • โหมด DirectQuery ส่งคิวรีโดยตรงไปยังระบบต้นทางในขณะรันไทม์โดยไม่ต้องจัดเก็บข้อมูลในแบบจําลองความหมาย วิธีการนี้ช่วยให้มั่นใจได้ถึงผลลัพธ์ up-toวันที่ แต่อาจนําไปสู่ประสิทธิภาพการทํางานที่ช้าลงขึ้นอยู่กับการตอบสนองของระบบต้นทาง DirectQuery เหมาะสําหรับสถานการณ์ที่ความใหม่ของข้อมูลมีความสําคัญมากกว่าความเร็ว เช่น การรายงานการดําเนินงาน

  • โหมด Direct Lake ช่วยให้ Power BI สามารถคิวรีตารางเดลต้าที่จัดเก็บไว้ใน OneLake ได้โดยตรง โดยจะรวมลักษณะประสิทธิภาพของการนําเข้าเข้ากับความสดใหม่ของ DirectQuery หลีกเลี่ยงการทําซ้ําของข้อมูลและใช้สถาปัตยกรรมแบบ lake-native สําหรับการวิเคราะห์แบบเกือบเรียลไทม์ที่ปรับขนาดได้ แนะนําให้ใช้ Direct Lake สําหรับการวิเคราะห์ขนาดใหญ่เกี่ยวกับข้อมูลที่จัดการโดย Fabric

แบบจําลองความหมายยังเปิดใช้งาน AI การสนทนา การค้นหาเชิงความหมาย การรายงานองค์กร และการให้เหตุผลข้ามโดเมน โดยการรวบรวมคุณลักษณะขั้นสูง เช่น ตัวแทนข้อมูล Fabric, Power BI Copilot, Ontology และรายงาน Power BI เข้าด้วยกัน ผู้ใช้ทางธุรกิจยัง สามารถเข้าถึงแบบจําลองความหมายผ่าน Excel ซึ่งพวกเขาสามารถสํารวจข้อมูลและข้อมูลเชิงลึกในอินเทอร์เฟซ PivotTable ที่ใช้ข้อมูลสดจากแบบจําลองความหมาย

คู่มือการตัดสินใจ: เลือกที่เก็บข้อมูลที่เหมาะสม

Microsoft Fabric มีตัวเลือกที่เก็บข้อมูลหลายแบบ โดยแต่ละตัวเลือกได้รับการปรับให้เหมาะสมสําหรับปริมาณงานเฉพาะ:

  • Lakehouse สําหรับวิศวกรรมข้อมูลขนาดใหญ่และพื้นที่จัดเก็บข้อมูลรูปแบบเปิด เช่น Delta และ Iceberg พร้อมรองรับเอ็นจิ้น Spark และ SQL
  • คลังสินค้า สําหรับการวิเคราะห์เชิงสัมพันธ์ที่มีโครงสร้างพร้อมความสามารถ SQL ประสิทธิภาพสูงและการรายงานระดับองค์กร
  • Eventhouse สําหรับการวัดและส่งข้อมูลทางไกลแบบเรียลไทม์และการวิเคราะห์บันทึกโดยใช้ Kusto Query Language
  • ฐานข้อมูล SQL สําหรับปริมาณงานธุรกรรมและการวิเคราะห์การดําเนินงาน
  • Cosmos DB สําหรับแอปพลิเคชัน NoSQL ที่กระจายไปทั่วโลก ซึ่งเป็นแอปพลิเคชันหลายรุ่นที่มีการเข้าถึงเวลาแฝงต่ํา
  • ทางลัด OneLake สําหรับการเข้าถึงข้อมูลในที่เก็บข้อมูลภายนอกหรือพื้นที่ทํางาน Fabric และผู้เช่าอื่นๆ แบบไม่ต้องคัดลอก เมื่อคุณไม่ต้องการสําเนาแยกต่างหากและต้องการรักษาความจริงเวอร์ชันเดียว

การเลือกร้านค้าที่เหมาะสมจะขึ้นอยู่กับโครงสร้างข้อมูล ข้อกําหนดเวลาแฝง ความซับซ้อนของคิวรี และความต้องการในการผสานรวม เมื่อข้อมูลที่คุณต้องการมีอยู่ในตําแหน่งที่ตั้งที่สามารถเข้าถึงได้แล้ว ทางลัดสามารถขจัดความจําเป็นในการจําลองแบบได้ทั้งหมด หากต้องการคําแนะนําเพิ่มเติม โปรดดู การเลือกร้านค้าที่เหมาะสม