แชร์ผ่าน


สํารวจและตรวจสอบความสัมพันธ์ในแบบจําลองความหมายของ Power BI

ในบทความนี้ คุณจะได้เรียนรู้เพื่อค้นหาและตรวจสอบความสัมพันธ์ภายในแบบจําลองความหมาย Power BI และ pandas DataFrames ของคุณโดยใช้โมดูล SemPy

ในวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง เป็นสิ่งสําคัญที่ต้องทําความเข้าใจโครงสร้างและความสัมพันธ์ภายในข้อมูลของคุณ แม้ว่า Power BI เป็นเครื่องมือที่มีประสิทธิภาพที่ช่วยให้คุณสามารถจําลองและแสดงภาพข้อมูลของคุณ แต่ในบางครั้งคุณจําเป็นต้องเจาะลึกลงในโครงสร้างของแบบจําลองความหมายเพื่อรับข้อมูลเชิงลึกเพิ่มเติมหรือสร้างแบบจําลองการเรียนรู้ของเครื่อง นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจสามารถสํารวจความสัมพันธ์ภายในแบบจําลองความหมายของ Power BI หรือ pandas DataFrame โดยใช้ฟังก์ชันต่าง ๆ ในไลบรารี SemPy ได้

คุณจะได้เรียนรู้วิธีการ:

  • ค้นหา แสดงภาพ และสํารวจความสัมพันธ์ในแบบจําลองความหมายของ Power BI
  • ค้นหาและตรวจสอบความสัมพันธ์ใน DataFrame ของ pandas

ข้อกำหนดเบื้องต้น

  • ไปยังประสบการณ์ด้านวิทยาศาสตร์ข้อมูลใน Microsoft Fabric
  • สร้าง สมุดบันทึก ใหม่เพื่อคัดลอก/วางรหัสลงในเซลล์
  • สําหรับ Spark 3.4 และสูงกว่า ลิงก์ความหมายจะพร้อมใช้งานในรันไทม์เริ่มต้นเมื่อใช้ Fabric และไม่จําเป็นต้องติดตั้ง ถ้าคุณกําลังใช้ Spark 3.3 หรือต่ํากว่า หรือถ้าคุณต้องการอัปเดตเป็นลิงก์ความหมายเวอร์ชันล่าสุด คุณสามารถเรียกใช้คําสั่งได้: python %pip install -U semantic-link  
  • เพิ่มเลคเฮาส์ลงในสมุดบันทึกของคุณ สําหรับ Spark 3.4 และสูงกว่า ลิงก์ความหมายจะพร้อมใช้งานในรันไทม์เริ่มต้นเมื่อใช้ Fabric และไม่จําเป็นต้องติดตั้ง ถ้าคุณกําลังใช้ Spark 3.3 หรือต่ํากว่า หรือถ้าคุณต้องการอัปเดตเป็นลิงก์ความหมายเวอร์ชันล่าสุด คุณสามารถเรียกใช้คําสั่งได้:

python %pip install -U semantic-link  

ค้นหาความสัมพันธ์ในแบบจําลองความหมาย

ฟังก์ชัน list_relationships นี้ช่วยให้คุณสามารถเรียกใช้รายการของความสัมพันธ์ทั้งหมดที่พบภายในแบบจําลองความหมาย Power BI เพื่อให้คุณสามารถทําความเข้าใจโครงสร้างของข้อมูลของคุณได้ดียิ่งขึ้นและวิธีการเชื่อมต่อตารางและคอลัมน์ที่แตกต่างกัน

ฟังก์ชันนี้ทํางานโดยการใช้ประโยชน์จากลิงก์ความหมาย ซึ่งให้ DataFrame ที่มีคําอธิบายประกอบซึ่งรวมถึงเมตาดาต้าที่จําเป็นเพื่อทําความเข้าใจความสัมพันธ์ภายในแบบจําลองความหมาย ซึ่งทําให้ง่ายต่อการวิเคราะห์โครงสร้างของแบบจําลองเชิงความหมายและใช้ในแบบจําลองการเรียนรู้ของเครื่องของคุณหรืองานการวิเคราะห์ข้อมูลอื่น ๆ

หากต้องการใช้ list_relationships ฟังก์ชัน คุณจะต้องนําเข้า sempy.fabric โมดูลก่อน จากนั้นคุณสามารถเรียกใช้ฟังก์ชัน ด้วยชื่อหรือ UUID ของแบบจําลองความหมาย Power BI ของคุณดังที่แสดงในโค้ดต่อไปนี้:

import sempy.fabric as fabric

fabric.list_relationships("my_dataset")

รหัสก่อนหน้านี้แสดงlist_relationshipsฟังก์ชันถูกเรียกด้วยแบบจําลองความหมาย Power BI ที่เรียกว่า my_dataset ฟังก์ชันจะส่งกลับ DataFrame ของ pandas ที่มีหนึ่งแถวต่อความสัมพันธ์ ซึ่งช่วยให้คุณสามารถสํารวจและวิเคราะห์ความสัมพันธ์ภายในแบบจําลองความหมายได้อย่างง่ายดาย

เคล็ดลับ

สมุดบันทึก แบบจําลองความหมาย (ชุดข้อมูล Power BI) และ เลคเฮ้าส์ ของคุณสามารถอยู่ในพื้นที่ทํางานเดียวกันหรือในพื้นที่ทํางานที่แตกต่างกันได้ ตามค่าเริ่มต้น SemPy พยายามเข้าถึงแบบจําลองความหมายของคุณจาก:

  • พื้นที่ทํางานของเลคเฮาส์ของคุณ ถ้าคุณได้แนบเลคเฮาส์เข้ากับสมุดโน๊ตของคุณ
  • พื้นที่ทํางานของสมุดบันทึกของคุณ ถ้าไม่มีเลคเฮ้าส์ติดอยู่

หากแบบจําลองความหมายของคุณไม่อยู่ในพื้นที่ทํางานเริ่มต้นที่ SemPy พยายามเข้าถึง คุณต้องระบุพื้นที่ทํางานของแบบจําลองความหมายของคุณเมื่อคุณเรียกใช้เมธอด SemPy

แสดงภาพความสัมพันธ์ในแบบจําลองความหมาย

ฟังก์ชัน plot_relationship_metadata นี้ช่วยให้คุณสามารถแสดงภาพความสัมพันธ์ในแบบจําลองความหมายเพื่อให้คุณสามารถทําความเข้าใจโครงสร้างของแบบจําลองความหมายได้ดียิ่งขึ้น

ด้วยการใช้ฟังก์ชันนี้ คุณสามารถสร้างกราฟที่แสดงการเชื่อมต่อระหว่างตารางและคอลัมน์ ทําให้ง่ายต่อการทําความเข้าใจโครงสร้างของแบบจําลองแสดงความหมายและความสัมพันธ์ขององค์ประกอบที่แตกต่างกัน

รหัสต่อไปนี้แสดงวิธีการใช้ plot_relationship_metadata ฟังก์ชัน

import sempy.fabric as fabric
from sempy.relationships import plot_relationship_metadata

relationships = fabric.list_relationships("my_dataset")
plot_relationship_metadata(relationships)

ในโค้ดก่อนหน้า ฟังก์ชันจะ list_relationships ดึงข้อมูลความสัมพันธ์ใน แบบจําลองความหมาย my_dataset และ plot_relationship_metadata ฟังก์ชันจะสร้างกราฟเพื่อแสดงภาพความสัมพันธ์เหล่านี้

คุณสามารถปรับแต่งกราฟโดยระบุคอลัมน์ที่จะรวม วิธีการจัดการคีย์ที่ขาดหายไป และโดยการให้แอตทริบิวต์ graphviz เพิ่มเติม

สํารวจการละเมิดความสัมพันธ์ในแบบจําลองความหมาย

หลังจากที่คุณมีความเข้าใจที่ดีขึ้นเกี่ยวกับความสัมพันธ์ภายในแบบจําลองความหมายของคุณ คุณจําเป็นต้องตรวจสอบความสัมพันธ์เหล่านี้และระบุปัญหาหรือความไม่สอดคล้องกันที่อาจเกิดขึ้น นี่คือที่มาของ list_relationship_violations ฟังก์ชัน

ฟังก์ชัน list_relationship_violations นี้ช่วยให้คุณตรวจสอบความถูกต้องของตารางของคุณเพื่อให้แน่ใจว่าตรงกับความสัมพันธ์ที่กําหนดไว้ในแบบจําลองความหมายของคุณ ด้วยการใช้ฟังก์ชันนี้ คุณสามารถระบุความไม่สอดคล้องกับความคูณของความสัมพันธ์ที่ระบุและแก้ไขปัญหาใด ๆ ก่อนที่จะส่งผลกระทบต่อการวิเคราะห์ข้อมูลหรือแบบจําลองการเรียนรู้ของเครื่อง

หากต้องการใช้ list_relationship_violations ฟังก์ชัน ก่อนอื่นคุณจะต้องนําเข้า sempy.fabric โมดูลและอ่านตารางจากแบบจําลองความหมายของคุณ จากนั้น คุณสามารถเรียกใช้ฟังก์ชัน ด้วยพจนานุกรมที่แมปชื่อตารางไปยัง DataFrames ด้วยเนื้อหาของตาราง

รหัสต่อไปนี้แสดงวิธีการแสดงรายการการละเมิดความสัมพันธ์:

import sempy.fabric as fabric

tables = {
    "Sales": fabric.read_table("my_dataset", "Sales"),
    "Products": fabric.read_table("my_dataset", "Products"),
    "Customers": fabric.read_table("my_dataset", "Customers"),
}

fabric.list_relationship_violations(tables)

ในโค้ดlist_relationship_violationsก่อนหน้านี้ ฟังก์ชันจะถูกเรียกด้วยพจนานุกรมที่ประกอบด้วยตาราง ยอดขาย ผลิตภัณฑ์ และ ลูกค้า จากแบบจําลองความหมาย my_dataset ฟังก์ชันส่งกลับ pandas DataFrame ที่มีหนึ่งแถวต่อการละเมิดความสัมพันธ์ ซึ่งช่วยให้คุณสามารถระบุและแก้ไขปัญหาใด ๆ ภายในแบบจําลองความหมายของคุณได้อย่างง่ายดาย

คุณสามารถกําหนดฟังก์ชันโดยระบุวิธีการจัดการคีย์ที่ขาดหายไป โดยการตั้งค่าขีดจํากัดความครอบคลุม และกําหนดจํานวนคีย์ที่ขาดหายไปในรายงานได้

เมื่อใช้ฟังก์ชัน นี้ คุณสามารถมั่นใจได้ว่าแบบจําลองความหมายของคุณมีความสอดคล้องและแม่นยํา ช่วยให้คุณสามารถสร้างแบบจําลองการเรียนรู้ของ list_relationship_violations เครื่องที่เชื่อถือได้มากขึ้นและรับข้อมูลเชิงลึกมากขึ้นในข้อมูลของคุณ

ค้นหาความสัมพันธ์ใน DataFrames ของ pandas

list_relationshipsในขณะที่ฟังก์ชัน , plot_relationships_df และ list_relationship_violations ในโมดูล Fabric เป็นเครื่องมือที่มีประสิทธิภาพสําหรับการสํารวจความสัมพันธ์ภายในแบบจําลองความหมาย คุณอาจจําเป็นต้องค้นหาความสัมพันธ์ที่นําเข้าจากแหล่งข้อมูลอื่น ๆ ในรูปแบบของ pandas DataFrames

นี่คือที่มาของ find_relationships ฟังก์ชันใน sempy.relationship โมดูล

ฟังก์ชันนี้ find_relationships ช่วยให้นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจค้นพบความสัมพันธ์ที่อาจเกิดขึ้นภายในรายการของ Pandas DataFrames

เมื่อใช้ฟังก์ชันนี้ คุณจะสามารถระบุการเชื่อมต่อที่เป็นไปได้ระหว่างตารางและคอลัมน์ ซึ่งช่วยให้คุณเข้าใจโครงสร้างของข้อมูลของคุณและความสัมพันธ์ขององค์ประกอบที่แตกต่างกันได้ดียิ่งขึ้น

โค้ดต่อไปนี้แสดงวิธีการค้นหาความสัมพันธ์ใน DataFrame ของ pandas:

from sempy.relationships import find_relationships

tables = [df_sales, df_products, df_customers]

find_relationships(tables)

ในโค้ดfind_relationshipsก่อนหน้า ฟังก์ชันจะถูกเรียกพร้อมรายการสาม Pandas DataFrames: df_sales, df_productsและdf_customers ฟังก์ชันจะส่งกลับ DataFrame ของ pandas ที่มีหนึ่งแถวต่อความสัมพันธ์ที่เป็นไปได้ ซึ่งช่วยให้คุณสามารถสํารวจและวิเคราะห์ความสัมพันธ์ภายในข้อมูลของคุณได้อย่างง่ายดาย

คุณสามารถกําหนดฟังก์ชันโดยระบุขีดจํากัดความครอบคลุม ค่าเกณฑ์ความคล้ายคลึงกันของชื่อ รายการความสัมพันธ์ที่จะแยกออกและจะรวมความสัมพันธ์แบบกลุ่มต่อกลุ่มหรือไม่

ตรวจสอบความสัมพันธ์ใน DataFrames ของ pandas

หลังจากที่คุณค้นพบความสัมพันธ์ที่อาจเกิดขึ้นภายใน DataFrame ของ pandas ของคุณการใช้ find_relationships ฟังก์ชัน สิ่งสําคัญคือการตรวจสอบความสัมพันธ์เหล่านี้และระบุปัญหาหรือความไม่สอดคล้องกันที่อาจเกิดขึ้น นี่คือที่มาของlist_relationship_violationssempy.relationshipsฟังก์ชันจากโมดูล

ฟังก์ชัน list_relationship_violations ได้รับการออกแบบมาเพื่อช่วยให้คุณตรวจสอบความถูกต้องของเนื้อหาของตารางของคุณ และตรวจสอบให้แน่ใจว่าตรงกับความสัมพันธ์ที่ค้นพบ

ด้วยการใช้ฟังก์ชันนี้ คุณสามารถระบุความไม่สอดคล้องกับความคูณของความสัมพันธ์ที่ระบุและแก้ไขปัญหาใด ๆ ก่อนที่จะส่งผลกระทบต่อการวิเคราะห์ข้อมูลหรือแบบจําลองการเรียนรู้ของเครื่อง

รหัสต่อไปนี้แสดงวิธีการค้นหาการละเมิดความสัมพันธ์ใน DataFrame ของ pandas:

from sempy.relationships import find_relationships, list_relationship_violations

tables = [df_sales, df_products, df_customers]
relationships = find_relationships(tables)

list_relationship_violations(tables, relationships)

ในโค้ด list_relationship_violations ก่อนหน้า ฟังก์ชันจะถูกเรียกพร้อมรายการสาม pandas DataFrames (df_sales, df_productsและ df_customers) และความสัมพันธ์ DataFrame ที่ได้รับจาก find_relationships ฟังก์ชัน ฟังก์ชัน list_relationship_violations จะส่งกลับ pandas DataFrame ที่มีหนึ่งแถวต่อการละเมิดความสัมพันธ์ ซึ่งช่วยให้คุณสามารถระบุและแก้ไขปัญหาใด ๆ ภายในข้อมูลของคุณได้อย่างง่ายดาย

คุณสามารถกําหนดฟังก์ชันโดยระบุวิธีการจัดการคีย์ที่ขาดหายไป โดยการตั้งค่าขีดจํากัดความครอบคลุม และกําหนดจํานวนคีย์ที่ขาดหายไปในรายงานได้

ด้วยการใช้ list_relationship_violations ฟังก์ชันกับ pandas DataFrames คุณสามารถมั่นใจได้ว่าข้อมูลของคุณมีความแม่นยําและแม่นยําช่วยให้คุณสามารถสร้างแบบจําลองการเรียนรู้ของเครื่องที่เชื่อถือได้มากขึ้นและรับข้อมูลเชิงลึกมากขึ้นในข้อมูลของคุณ