แชร์ผ่าน


แนวทางปฏิบัติที่ดีที่สุดสําหรับการสร้างแบบจําลองมิติโดยใช้กระแสข้อมูล

การออกแบบแบบจําลองมิติเป็นหนึ่งในงานทั่วไปที่คุณสามารถทําได้ด้วยกระแสข้อมูล บทความนี้เน้นแนวทางปฏิบัติที่ดีที่สุดสําหรับการสร้างแบบจําลองมิติโดยใช้กระแสข้อมูล

การจัดเตรียมกระแสข้อมูล

หนึ่งในจุดสําคัญในระบบการรวมข้อมูลคือการลดจํานวนการอ่านจากระบบการดําเนินงานต้นทาง ในสถาปัตยกรรมการรวมข้อมูลแบบดั้งเดิม การลดนี้ทําได้โดยการสร้างฐานข้อมูลใหม่ที่เรียกว่า ฐานข้อมูลการจัดเตรียม วัตถุประสงค์ของฐานข้อมูลการกําหนดระยะคือการโหลดข้อมูล as-is จากแหล่งข้อมูลลงในฐานข้อมูลการจัดเตรียมตามกําหนดการปกติ

ส่วนที่เหลือของการรวมข้อมูลจะใช้ฐานข้อมูลการจัดเตรียมเป็นแหล่งที่มาสําหรับการแปลงเพิ่มเติม และแปลงเป็นโครงสร้างแบบจําลองมิติ

เราขอแนะนําให้คุณทําตามวิธีการเดียวกันโดยใช้กระแสข้อมูล สร้างชุดของกระแสข้อมูลที่รับผิดชอบเพียงแค่โหลดข้อมูล as-is จากระบบต้นทาง (และสําหรับตารางที่คุณต้องการเท่านั้น) จากนั้นจึงจัดเก็บผลลัพธ์ไว้ในโครงสร้างที่เก็บข้อมูลของกระแสข้อมูล (Azure Data Lake Storage หรือ Dataverse) การเปลี่ยนแปลงนี้ช่วยให้แน่ใจว่าการดําเนินการอ่านจากระบบต้นทางมีน้อยมาก

ถัดไป คุณสามารถสร้างกระแสข้อมูลอื่นที่แหล่งข้อมูลมาจากการจัดเตรียมกระแสข้อมูล ประโยชน์ของวิธีนี้รวมถึง:

  • การลดจํานวนของการดําเนินการอ่านจากระบบต้นทางและลดภาระในระบบต้นทางเป็นผลให้ได้
  • การลดการโหลดบนเกตเวย์ข้อมูลหากมีการใช้แหล่งข้อมูลภายในองค์กร
  • การมีสําเนากลางของข้อมูลเพื่อวัตถุประสงค์ในการกระทบยอด ในกรณีที่มีการเปลี่ยนแปลงข้อมูลระบบต้นทาง
  • สร้างการแปลงกระแสข้อมูลโดยอิสระจากแหล่งข้อมูล

ไดอะแกรมที่แสดงโฟลว์เมื่อคุณจัดเตรียมกระแสข้อมูล

ไดอะแกรมที่เน้นการจัดเตรียมกระแสข้อมูลและการจัดเก็บการจัดเตรียม ไดอะแกรมแสดงข้อมูลที่เข้าถึงได้จากแหล่งข้อมูลโดยกระแสข้อมูลการจัดเตรียม และตารางที่จัดเก็บไว้ใน Cadavers หรือ Azure Data Lake Storage จากนั้นตารางจะถูกแปลงพร้อมกับกระแสข้อมูลอื่น ๆ ซึ่งจะถูกส่งออกเป็นคิวรี

กระแสข้อมูลการแปลง

เมื่อคุณแยกกระแสข้อมูลการแปลงของคุณออกจากกระแสข้อมูลการจัดเตรียม การแปลงจะเป็นอิสระจากแหล่งที่มา การแยกนี้จะช่วยหากคุณกําลังโยกย้ายระบบต้นทางไปยังระบบใหม่ สิ่งที่คุณต้องทําในกรณีดังกล่าวคือเปลี่ยนการจัดเตรียมกระแสข้อมูล กระแสข้อมูลการแปลงมีแนวโน้มที่จะทํางานโดยไม่มีปัญหาใด ๆ เนื่องจากมาจากกระแสข้อมูลการจัดเตรียมเท่านั้น

การแยกนี้ยังช่วยในกรณีที่การเชื่อมต่อระบบต้นทางช้า กระแสข้อมูลการแปลงไม่จําเป็นต้องรอเป็นเวลานานเพื่อรับเรกคอร์ดที่มาจากการเชื่อมต่อที่ช้าจากระบบต้นทาง กระแสข้อมูลการจัดเตรียมได้ทําส่วนนั้นแล้ว และข้อมูลก็พร้อมสําหรับเลเยอร์การแปลง

ไดอะแกรมคล้ายกับภาพก่อนหน้า ยกเว้นการแปลงจะถูกเน้น และข้อมูลจะถูกส่งไปยังคลังข้อมูล

สถาปัตยกรรมแบบชั้น

สถาปัตยกรรมแบบชั้นเป็นสถาปัตยกรรมที่คุณดําเนินการในเลเยอร์แยกต่างหาก กระแสข้อมูลการจัดเตรียมและการแปลงข้อมูลสามารถมีได้สองชั้นของสถาปัตยกรรมกระแสข้อมูลแบบหลายชั้น พยายามที่จะดําเนินการในเลเยอร์เพื่อให้แน่ใจว่าการบํารุงรักษาต่ําสุดที่จําเป็น เมื่อคุณต้องการเปลี่ยนบางสิ่ง คุณเพียงแค่ต้องเปลี่ยนในเลเยอร์ที่มันอยู่ เลเยอร์อื่น ๆ ทั้งหมดควรทํางานได้ต่อไป

รูปภาพต่อไปนี้แสดงสถาปัตยกรรมแบบหลายเลเยอร์สําหรับกระแสข้อมูลซึ่งมีการใช้ตารางของพวกเขาในแบบจําลองความหมายของ Power BI

ไดอะแกรมแสดงสถาปัตยกรรมหลายชั้น โดยที่กระแสข้อมูลการจัดเตรียมและกระแสข้อมูลการแปลงอยู่ในเลเยอร์ที่แยกจากกัน

ใช้ตารางที่มีการคํานวณมากที่สุดเท่าที่เป็นไปได้

เมื่อคุณใช้ผลลัพธ์ของกระแสข้อมูลในกระแสข้อมูลอื่น คุณกําลังใช้แนวคิดของตารางที่คํานวณซึ่งหมายถึงการรับข้อมูลจากตาราง "ประมวลผลและจัดเก็บแล้ว" สิ่งเดียวกันนี้สามารถเกิดขึ้นภายในกระแสข้อมูลได้ เมื่อคุณอ้างอิงตารางจากตารางอื่น คุณสามารถใช้ตารางที่คํานวณได้ วิธีนี้มีประโยชน์เมื่อคุณมีชุดของการแปลงที่ต้องทําในหลายตาราง ซึ่งเรียกว่าการแปลงทั่วไป

ไดอะแกรมแสดงตารางที่คํานวณที่มาจากแหล่งข้อมูลที่ใช้ในการประมวลผลการแปลงทั่วไป

ในรูปภาพก่อนหน้า ตารางที่คํานวณจะได้รับข้อมูลจากแหล่งที่มาโดยตรง อย่างไรก็ตาม ในสถาปัตยกรรมของกระแสข้อมูลการจัดเตรียมและการแปลงอาจเป็นไปได้ว่าตารางที่คํานวณมีแหล่งที่มาจากกระแสข้อมูลการจัดเตรียม

ไดอะแกรมแสดงตารางที่คํานวณที่มาจากกระแสข้อมูลที่ใช้ในการประมวลผลการแปลงทั่วไป

สร้างสคีมาแบบดาว

แบบจําลองมิติที่ดีที่สุดคือแบบจําลองสคีมารูปดาวที่มีมิติและตารางข้อเท็จจริงที่ออกแบบมาเพื่อลดระยะเวลาในการสืบค้นข้อมูลจากแบบจําลอง โมเดล Schema แบบดาวยังทําให้ง่ายต่อการเข้าใจสําหรับตัวสร้างภาพข้อมูล

ไม่เหมาะที่จะนําข้อมูลในเค้าโครงเดียวกันของระบบปฏิบัติการลงในระบบ BI ตารางข้อมูลควรได้รับการปรับปรุงใหม่ บางตารางควรใช้รูปแบบของตารางมิติ ซึ่งเก็บข้อมูลที่เป็นคําอธิบาย ตารางบางตารางควรใช้รูปแบบของตารางข้อเท็จจริง เพื่อเก็บข้อมูลที่สามารถรวมได้ เค้าโครงที่ดีที่สุดสําหรับตารางข้อเท็จจริงและตารางมิติที่จะสร้างคือโครงสร้างแบบดาว สําหรับข้อมูลเพิ่มเติม ไปที่ ทําความเข้าใจ Schema ดาวและความสําคัญสําหรับ Power BI

แผนภาพของสคีมาดาวที่แสดงตารางข้อเท็จจริงที่ล้อมรอบด้วยตารางมิติในรูปของดาวห้าแฉก

ใช้ค่าคีย์ที่ไม่ซ้ํากันสําหรับมิติ

เมื่อสร้างตารางมิติข้อมูล ตรวจสอบให้แน่ใจว่าคุณมีคีย์สําหรับแต่ละคีย์ คีย์นี้ช่วยให้แน่ใจว่าไม่มีความสัมพันธ์แบบกลุ่มต่อกลุ่ม (หรืออีกนัยหนึ่งคือ "อ่อนแอ") ระหว่างมิติ คุณสามารถสร้างคีย์โดยใช้การแปลงบางอย่างเพื่อให้แน่ใจว่าคอลัมน์หรือชุดของคอลัมน์จะส่งกลับแถวที่ไม่ซ้ํากันในมิติ จากนั้นสามารถทําเครื่องหมายการรวมกันของคอลัมน์เป็นคีย์ในตารางในกระแสข้อมูลได้

สกรีนช็อตของแท็บการแปลง Power Query พร้อมตัวเลือก ทําเครื่องหมายเป็นคีย์ และไอคอนคีย์ในคอลัมน์วันที่ของตารางที่เน้น

ทําการรีเฟรชแบบเพิ่มหน่วยสําหรับตารางข้อเท็จจริงขนาดใหญ่

ตารางข้อเท็จจริงเป็นตารางที่มีขนาดใหญ่ที่สุดในแบบจําลองมิติ เราขอแนะนําให้คุณลดจํานวนแถวที่โอนย้ายสําหรับตารางเหล่านี้ ถ้าคุณมีตารางข้อเท็จจริงที่มีขนาดใหญ่มาก ตรวจสอบให้แน่ใจว่าคุณใช้การรีเฟรชแบบเพิ่มหน่วยสําหรับตารางนั้น การรีเฟรชแบบเพิ่มหน่วยสามารถทําได้ในแบบจําลองความหมาย Power BI และตารางกระแสข้อมูล

คุณสามารถใช้การรีเฟรชแบบเพิ่มหน่วยเพื่อรีเฟรชเฉพาะบางส่วนของข้อมูล ซึ่งเป็นส่วนที่เปลี่ยนแปลง มีหลายตัวเลือกในการเลือกว่าจะรีเฟรชส่วนใดของข้อมูลและส่วนใดที่จะยังคงอยู่ สําหรับข้อมูลเพิ่มเติม ไปที่ การใช้การรีเฟรชแบบเพิ่มหน่วยกับกระแสข้อมูล Power BI

สกรีนช็อตของกล่องโต้ตอบการตั้งค่าการรีเฟรชแบบเพิ่มหน่วยสําหรับกระแสข้อมูล

การอ้างอิงเพื่อสร้างตารางมิติและตารางข้อเท็จจริง

ในระบบต้นทาง คุณมักจะมีตารางที่คุณใช้ในการสร้างทั้งตารางข้อเท็จจริงและมิติในคลังข้อมูล ตารางเหล่านี้เป็นตัวระบุที่ดีสําหรับตารางที่มีการคํานวณและกระแสข้อมูลระดับกลาง ส่วนทั่วไปของกระบวนการ เช่น การทําความสะอาดข้อมูล และการลบแถวและคอลัมน์เพิ่มเติมสามารถทําได้ครั้งเดียว โดยใช้การอ้างอิงจากผลลัพธ์ของการดําเนินการเหล่านั้น คุณสามารถสร้างตารางมิติและตารางข้อเท็จจริงได้ วิธีการนี้ใช้ตารางที่คํานวณสําหรับการแปลงทั่วไป

สกรีนช็อตที่แสดงแบบสอบถาม ใบสั่งซื้อ พร้อมตัวเลือกการอ้างอิงที่ใช้เพื่อสร้างแบบสอบถามใหม่ที่เรียกว่า ใบสั่งที่รวม