Jaa


Semanttisten mallien ja tietokehysten suhteiden tutkiminen ja vahvistaminen

Tässä artikkelissa kerrotaan, miten voit semPy-semanttisen linkin funktioiden avulla löytää ja vahvistaa suhteita Power BI:n semanttisista malleista ja pandas DataFrame -kehyksistä.

Tietotieteessä ja koneoppimisessa on tärkeää ymmärtää tietoihisi sisäinen rakenne ja suhteet. Power BI on tehokas työkalu, jonka avulla voit mallintaa ja visualisoida näitä rakenteita ja suhteita. Jos haluat lisää merkityksellisiä tietoja tai luoda koneoppimismalleja, voit sukeltaa syvemmälle käyttämällä SemPy-kirjastomoduulien semanttisia linkkifunktioita.

Tietotutkijat ja yritysanalyytikot voivat SemPy-funktioiden avulla luetella, visualisoida ja vahvistaa suhteita Power BI:n semanttisissa malleissa tai etsiä ja vahvistaa suhteita pandas DataFrames -kehyksissä.

Edellytykset

  • Luo uusi muistikirja , jonka avulla voit kopioida ja liittää koodia soluihin.

  • Spark 3.4:ssä ja tätä uudemmat versioissa semanttinen linkki on käytettävissä oletusarvoisessa suorituspalvelussa Fabricia käytettäessä, eikä sitä tarvitse asentaa. Jos kyseessä on Spark 3.3 tai uudempi tai jos haluat päivittää uusimpaan semanttisen linkin versioon, suorita seuraava komento:

    %pip install -U semantic-link
    
  • Lisää muistikirjaasi lakehouse.

Semanttisten mallien yhteyksien luettelo

list_relationships Moduulin sempy.fabric funktio palauttaa luettelon kaikista Power BI:n semanttisesta mallista löytyneiden suhteiden luettelosta. Luettelon avulla ymmärrät tietotesi rakenteen ja sen, miten eri taulukot ja sarakkeet yhdistetään.

Tämä funktio käyttää semanttista linkkiä ja tuottaa merkintöjä dataframe-kehyksiin. DataFrame-kehyksissä on tarvittavat metatiedot semanttisen mallin välisten suhteiden ymmärtämiseksi. Huomautetuilla DataFrame-kehyksillä on helppo analysoida semanttisen mallin rakennetta ja käyttää sitä koneoppimismalleissa tai muissa tietojen analysointitehtävissä.

Jos haluat käyttää -funktiota list_relationships , tuo ensin - sempy.fabric moduuli. Sen jälkeen voit kutsua funktiota käyttämällä Power BI:n semanttisen mallin nimeä tai UUID-nimeä seuraavassa esimerkissä esitetyllä tavalla:

import sempy.fabric as fabric

fabric.list_relationships("my_dataset")

Edellinen koodi kutsuu funktiota Power BI:n list_relationships semanttisella mallilla, jonka nimi on my_dataset. Funktio palauttaa pandas DataFrame -kehyksen, jossa on yksi rivi suhdetta kohden, joten voit helposti tutkia ja analysoida semanttisen mallin sisäisiä suhteita.

Muistiinpano

Muistikirja, Power BI -tietojoukon semanttinen malli ja Lakehouse voivat sijaita samassa työtilassa tai eri työtiloissa. SemPy yrittää oletusarvoisesti käyttää semanttista malliasi seuraavasti:

  • Lakehousen työtila, jos kiinnitit muistikirjaasi lakehousen.
  • Muistikirjasi työtila, jos siihen ei ole kiinnitetty mitään.

Jos semanttinen mallisi ei sijaitse kummassakaan näistä työtiloista, sinun on määritettävä semanttisen mallin työtila, kun kutsut SemPy-menetelmää.

Suhteiden visualisointi semanttisissa malleissa

- plot_relationship_metadata funktion avulla voit visualisoida suhteita semanttisessa mallissa, jotta voit ymmärtää paremmin mallin rakennetta. Tämä funktio luo kaavion, joka näyttää taulukoiden ja sarakkeiden väliset yhteydet. Kaavion avulla on helpompi ymmärtää semanttisen mallin rakennetta ja sitä, miten eri elementit liittyvät toisiinsa.

Seuraavassa esimerkissä näytetään, miten funktiota plot_relationship_metadata käytetään:

import sempy.fabric as fabric
from sempy.relationships import plot_relationship_metadata

relationships = fabric.list_relationships("my_dataset")
plot_relationship_metadata(relationships)

Edellisessä koodissa list_relationships funktio noutaa my_dataset semanttisen mallin suhteet ja plot_relationship_metadata funktio luo kaavion suhteiden visualisoimiseksi.

Voit mukauttaa kaaviota määrittämällä, mitkä sarakkeet sisällytetään, määrittämällä, miten puuttuvat avaimet käsitellään, ja antamalla lisää käyrän määritteitä .

Suhteiden vahvistaminen semanttisissa malleissa

Nyt kun ymmärrät paremmin semanttisen mallisi suhteita, voit käyttää - list_relationship_violations funktiota näiden suhteiden vahvistamiseen ja mahdollisten ongelmien tai epäjohdonmukaisuuksien tunnistamiseen. Funktion list_relationship_violations avulla voit vahvistaa taulukoiden sisällön varmistaaksesi, että ne vastaavat semanttisessa mallissasi määritettyjä suhteita.

Käyttämällä tätä funktiota voit tunnistaa epäyhtenäisyyksiä määritetyn suhteen moninaisuuden kanssa ja korjata mahdolliset ongelmat, ennen kuin ne vaikuttavat tietoanalyysi- tai koneoppimismalleihin.

Jos haluat käyttää funktiota list_relationship_violations , tuo sempy.fabric ensin moduuli ja lue taulukot semanttisesta mallistasi. Sen jälkeen voit kutsua funktiota sanastolla, joka yhdistää taulukoiden nimet DataFrame-kehyksiin taulukkosisällöllä.

Seuraavassa esimerkkikoodissa näytetään, miten voidaan luetella suhteiden rikkomukset:

import sempy.fabric as fabric

tables = {
    "Sales": fabric.read_table("my_dataset", "Sales"),
    "Products": fabric.read_table("my_dataset", "Products"),
    "Customers": fabric.read_table("my_dataset", "Customers"),
}

fabric.list_relationship_violations(tables)

Edellinen koodi kutsuu funktiota list_relationship_violations sanastolla, joka sisältää my_dataset semanttisen mallin Sales-, Products- ja Customers-taulukot. Voit mukauttaa funktiota asettamalla kattavuuskynnysarvon, määrittämällä, miten puuttuvia avaimia käsitellään, ja määrittämällä puuttuvien avainten määrän raportissa.

Funktio palauttaa pandas DataFrame -kehyksen, jossa on yksi rivi suhderikkomusta kohden, joten voit helposti tunnistaa ja käsitellä semanttisen mallisi mahdollisia ongelmia. -funktion list_relationship_violations avulla voit varmistaa semanttisen mallisi yhtenäisen ja tarkan toiminnan, jotta voit luoda luotettavampia koneoppimismalleja ja saada syvällisempiä tietoja tiedoistasi.

Suhteiden etsiminen pandas DataFrames -kehyksistä

Vaikka Fabric-moduulin list_relationships- ja list_relationship_violations - plot_relationships_df funktiot ovat tehokkaita työkaluja semanttisten mallien välisten suhteiden tutkimiseen, sinun on ehkä myös löydettävä suhteita pandoina tuoduista muista tietolähteistä DataFrames-kehyksissä.

Tässä moduulin find_relationships sempy.relationship funktiolla on merkitystä.

find_relationships Moduulin sempy.relationships funktio auttaa tietojenkäsittelyasiantuntijat ja yritysanalyytikot löytämään mahdollisia suhteita pandas DataFrames -luettelosta. Tämän funktion avulla voit tunnistaa mahdolliset yhteydet taulukoiden ja sarakkeiden välillä, jolloin voit paremmin ymmärtää tietoihisi liittyvän rakenteen ja eri elementtien välisen suhteen.

Seuraava esimerkkikoodi näyttää, miten voit löytää suhteita pandas DataFrame -kehyksistä:

from sempy.relationships import find_relationships

tables = [df_sales, df_products, df_customers]

find_relationships(tables)

Edellinen koodi kutsuu funktiota find_relationships kolmen Pandas DataFrame -kohteen luettelon avulla: df_sales, df_productsja df_customers. Funktio palauttaa pandas DataFrame -kehyksen, jossa on yksi rivi potentiaalista suhdetta kohden, joten voit helposti tutkia ja analysoida tietoihisi liittyviä suhteita.

Voit mukauttaa funktiota määrittämällä kattavuuskynnysarvon, nimen samankaltaisuuden raja-arvon, pois jätettävän suhdeluettelon ja sen, sisällytetäänkö mukaan monta moneen -suhteet.

Pandas DataFrames -yhteyksien vahvistaminen

Kun olet löytänyt mahdollisia suhteita pandas DataFrame -kehyksistä -funktion find_relationships avulla, voit funktion list_relationship_violations avulla vahvistaa nämä suhteet ja tunnistaa mahdolliset ongelmat tai epäyhtenäisyykset.

Funktio list_relationship_violations vahvistaa taulukoiden sisällön ja varmistaa, että ne vastaavat löydettyjä suhteita. Käyttämällä tätä funktiota tunnistaaksesi epäyhtenäisyyksiä määritetyn suhteen moninaisuuden kanssa, voit korjata mahdolliset ongelmat, ennen kuin ne vaikuttavat tietoanalyysi- tai koneoppimismalleihisi.

Seuraavassa esimerkkikoodissa näytetään, miten voit havaita suhderikkomuksia pandas DataFrames -kehyksissä:

from sempy.relationships import find_relationships, list_relationship_violations

tables = [df_sales, df_products, df_customers]
relationships = find_relationships(tables)

list_relationship_violations(tables, relationships)

Edellinen koodi kutsuu funktiota list_relationship_violations kolmen pandas DataFrames-, df_sales, df_products- ja df_customers-kehyksen find_relationships sekä funktion DataFrame-suhteiden luettelon avulla. Funktio list_relationship_violations palauttaa pandas DataFrame -kehyksen, jossa on yksi rivi suhderikkomusta kohden, joten voit helposti tunnistaa ja käsitellä tietoihisi liittyviä ongelmia.

Voit mukauttaa funktiota asettamalla kattavuuskynnysarvon, määrittämällä, miten puuttuvia avaimia käsitellään, ja määrittämällä puuttuvien avainten määrän raportissa.

list_relationship_violations Käyttämällä -toimintoa pandas DataFramesin kanssa voit varmistaa tietojen yhdenmukaisen ja tarkan toiminnan, jotta voit luoda luotettavampia koneoppimismalleja ja saada syvällisempiä tietoja tiedoistasi.