Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
V tomto článku se dozvíte, jak pomocí sémantických funkcí SemPy zjišťovat a ověřovat relace v sémantických modelech Power BI a v datových rámcích pandas.
V oblasti datových věd a strojového učení je důležité porozumět struktuře a vztahům v datech. Power BI umožňuje modelovat a vizualizovat tyto struktury a relace. Pokud chcete získat další přehledy nebo vytvářet modely strojového učení, použijte sémantické odkazové funkce v modulech knihovny SemPy.
Datoví vědci a obchodní analytici používají funkce SemPy k vypisování, vizualizaci a ověřování relací v sémantických modelech Power BI nebo hledání a ověřování relací v datových rámcích pandas.
Požadavky
Získejte předplatné Microsoft Fabric. Nebo si zaregistrujte bezplatnou zkušební verzi Microsoft Fabricu.
Přihlaste se k Microsoft Fabric.
Pomocí přepínače zážitků v levém dolním rohu domovské stránky přepněte na Fabric.
Vytvořte nový poznámkový blok pro zkopírování a vložení kódu do buněk.
Pro Spark 3.4 a vyšší je sémantické propojení dostupné ve výchozím prostředí runtime při použití Fabric, takže ho nemusíte instalovat. V případě Sparku 3.3 nebo novějšího nebo aktualizaci na nejnovější verzi sémantického odkazu spusťte následující příkaz:
%pip install -U semantic-link
Výpis relací v sémantických modelech
Funkce list_relationships v sempy.fabric modulu vrátí seznam všech relací nalezených v sémantickém modelu Power BI. Seznam vám pomůže pochopit strukturu dat a způsob propojení různých tabulek a sloupců.
Tato funkce funguje pomocí sémantického odkazu pro poskytování anotovaných datových rámců. Datové rámce obsahují potřebná metadata pro pochopení relací v sémantickém modelu. Anotované datové rámce usnadňují analýzu struktury sémantického modelu a jejich použití v modelech strojového učení nebo v jiných úlohách analýzy dat.
Pokud chcete tuto funkci použít list_relationships , nejprve modul naimportujete sempy.fabric . Pak funkci zavoláte pomocí názvu nebo UUID sémantického modelu Power BI, jak je znázorněno v následujícím příkladu:
import sempy.fabric as fabric
fabric.list_relationships("my_dataset")
Předchozí kód volá list_relationships funkci s sémantickým modelem Power BI s názvem my_dataset. Funkce vrátí datový rámec pandas s jedním řádkem pro každou relaci, takže můžete rychle prozkoumat a analyzovat relace v sémantickém modelu.
Poznámka:
Poznámkový blok, sémantický model datové sady Power BI a lakehouse se dají nacházet ve stejném pracovním prostoru nebo v různých pracovních prostorech. Ve výchozím nastavení se SemPy pokusí o přístup k sémantickému modelu z:
- Pokud jste k poznámkovému bloku připojili lakehouse pracovní prostor jezera.
- Pokud není připojený žádný lakehouse, pracovní prostor poznámkového bloku
Pokud se váš sémantický model nenachází v některém z těchto pracovních prostorů, musíte při volání metody SemPy zadat pracovní prostor sémantického modelu.
Vizualizace relací v sémantických modelech
plot_relationship_metadata Pomocí funkce můžete vizualizovat relace v sémantickém modelu a zjistit, jak je model strukturovaný. Tato funkce vytvoří graf, který zobrazuje propojení mezi tabulkami a sloupci a usnadňuje tak přehled o tom, jak různé prvky souvisejí.
Tady je příklad použití plot_relationship_metadata funkce:
import sempy.fabric as fabric
from sempy.relationships import plot_relationship_metadata
relationships = fabric.list_relationships("my_dataset")
plot_relationship_metadata(relationships)
V tomto příkladu list_relationships funkce získá relace v my_dataset sémantickém modelu a plot_relationship_metadata funkce vytvoří graf, který tyto relace zobrazí.
Přizpůsobte si graf výběrem sloupců, které chcete zahrnout, nastavením způsobu zpracování chybějících klíčů a přidáním dalších atributů graphviz .
Ověření relací v sémantických modelech
list_relationship_violations Pomocí funkce můžete zkontrolovat relace v sémantickém modelu a najít případné problémy nebo nekonzistence. Funkce list_relationship_violations zkontroluje tabulky, aby se ujistila, že odpovídají relacím v sémantickém modelu.
Tato funkce vám pomůže najít nekonzistence s násobností vztahů a vyřešit problémy, než ovlivní vaše modely analýzy dat nebo strojového učení.
Aby bylo možné použít funkci list_relationship_violations, naimportujte modul sempy.fabric a načtěte tabulky ze sémantického modelu.
Potom volejte funkci se slovníkem, který mapuje názvy tabulek na datové rámce s obsahem tabulky.
Následující příklad kódu ukazuje, jak zobrazit seznam porušení vztahů:
import sempy.fabric as fabric
tables = {
"Sales": fabric.read_table("my_dataset", "Sales"),
"Products": fabric.read_table("my_dataset", "Products"),
"Customers": fabric.read_table("my_dataset", "Customers"),
}
fabric.list_relationship_violations(tables)
Předchozí kód volá list_relationship_violations funkci se slovníkem, který obsahuje tabulky Sales, Products a Customers z my_dataset sémantického modelu. Funkci můžete přizpůsobit nastavením prahové hodnoty pokrytí, výběrem způsobu, jak zpracovat chybějící klíče, a nastavením počtu chybějících klíčů pro nahlášení.
Funkce vrátí datový rámec pandas s jedním řádkem pro každé porušení vztahu, takže můžete rychle najít a opravit problémy v sémantickém modelu.
list_relationship_violations Pomocí funkce udržujte sémantický model konzistentní a přesný, takže vytvoříte spolehlivější modely strojového učení a získáte lepší přehledy z dat.
Hledání relací v datových rámcích pandas
Funkce list_relationshipsa plot_relationships_df funkce list_relationship_violationsv modulu Fabric jsou výkonné nástroje pro zkoumání relací v sémantických modelech. Někdy potřebujete najít relace v jiných zdrojích dat, jako jsou datové rámce pandas.
find_relationships Pomocí funkce v modulu sempy.relationship můžete najít relace v datových rámcích pandas.
Funkce find_relationships v modulu sempy.relationships umožňuje datovým vědcům a obchodním analytikům najít potenciální vztahy v seznamu datových rámců pandas. Tato funkce vám pomůže odhalit propojení mezi tabulkami a sloupci, abyste se dozvěděli více o datech a o tom, jak jejich prvky souvisejí.
Tady je postup, jak najít relace v datových rámcích pandas:
from sempy.relationships import find_relationships
tables = [df_sales, df_products, df_customers]
find_relationships(tables)
Předchozí kód volá find_relationships funkci se seznamem tří datových rámců pandas: df_sales, df_productsa df_customers.
Funkce vrátí datový rámec pandas s jedním řádkem pro každou potenciální relaci, takže můžete zkoumat a analyzovat relace v datech.
Přizpůsobte si funkci nastavením prahové hodnoty pokrytí, prahové hodnoty podobnosti názvu, seznamu relací, které chcete vyloučit, a toho, jestli se mají zahrnout relace M:N.
Ověření relací v datových rámcích pandas
Jakmile pomocí funkce zjistíte potenciální relace v datových rámcích find_relationships pandas, pomocí list_relationship_violations funkce tyto relace ověřte a identifikujte případné problémy nebo nekonzistence.
Funkce list_relationship_violations zkontroluje tabulky, aby se ujistila, že odpovídají zjištěnám relacím. Pomocí této funkce můžete najít nekonzistence se zadanou násobností relací, abyste mohli problémy vyřešit dříve, než ovlivní analýzu dat nebo modely strojového učení.
Tady je příklad, který ukazuje, jak najít porušení relací v datových rámcích pandas:
from sempy.relationships import find_relationships, list_relationship_violations
tables = [df_sales, df_products, df_customers]
relationships = find_relationships(tables)
list_relationship_violations(tables, relationships)
Příklad volá funkci list_relationship_violations se třemi datovými rámci pandas: df_sales, df_products, a df_customers, spolu s datovým rámcem relací z funkce find_relationships.
Funkce list_relationship_violations vrátí datový rámec pandas s jedním řádkem pro každé porušení vztahu, takže můžete rychle najít a opravit všechny problémy v datech.
Přizpůsobte si funkci nastavením prahové hodnoty pokrytí, výběrem způsobu zpracování chybějících klíčů a definováním počtu chybějících klíčů, které se mají hlásit.
list_relationship_violations Pomocí funkce s datovými rámci pandas udržujte data konzistentní a přesná. To vám pomůže vytvářet spolehlivé modely strojového učení a získat hlubší přehledy z vašich dat.