Del via


Datavidenskabsscenarie fra ende til anden: introduktion og arkitektur

Disse selvstudier præsenterer et komplet komplet scenarie i Fabric-datavidenskabsoplevelsen. De dækker hvert trin fra

  • Dataindtagelse
  • Datarensning
  • Dataforberedelse

til

  • Oplæring af model til maskinel indlæring
  • Generering af indsigt

og derefter dække forbruget af disse indsigter med visualiseringsværktøjer – f.eks. Power BI.

Personer, der er nye i Microsoft Fabric, skal besøge Hvad er Microsoft Fabric?.

Indførelsen

En livscyklus for et datavidenskabelig projekt omfatter typisk disse trin:

  • Forstå forretningsreglerne
  • Hent dataene
  • Udforsk, rens, forbered og visualiser dataene
  • Oplær modellen, og spor eksperimentet
  • Scor modellen, og opret indsigt

Trinnene fortsætter ofte iterativt. Målene og succeskriterierne for hver fase afhænger af samarbejde, datadeling og dokumentation. Fabric-datavidenskabsoplevelsen omfatter flere indbyggede funktioner, der muliggør problemfrit samarbejde, dataanskaffelse, deling og forbrug.

I disse selvstudier får du rollen som dataforsker, der skal udforske, rense og transformere et datasæt, der indeholder status som 10.000 bankkunder. Du opretter derefter en model til maskinel indlæring for at forudsige, hvilke bankkunder der sandsynligvis forlader virksomheden.

Du udfører følgende aktiviteter i selvstudierne:

  1. Brug Fabric-notesbøger til datavidenskabsscenarier
  2. Brug Apache Spark til at indtage data i et Fabric lakehouse
  3. Indlæs eksisterende data fra deltatabellerne i lakehouse
  4. Brug Apache Spark- og Python-baserede værktøjer til at rense og transformere data
  5. Opret eksperimenter og kørsler for at oplære forskellige modeller til maskinel indlæring
  6. Brug MLflow og Fabric UI til at registrere og spore oplærte modeller
  7. Kør score i stor skala, og gem forudsigelser og resultater for afledning i lakehouse
  8. Brug DirectLake til at visualisere forudsigelser i Power BI

Arkitektur

Denne serie af selvstudier viser et forenklet datavidenskabsscenarie fra ende til anden, der omfatter:

  1. Dataindtagelse fra en ekstern datakilde.
  2. Dataudforskning og -rengøring.
  3. Oplæring og registrering af model til maskinel indlæring.
  4. Lagring af batchscore og forudsigelse.
  5. Visualisering af forudsigelsesresultat i Power BI.

diagram over komponenterne i scenariet datavidenskab fra ende til anden.

Forskellige komponenter i datavidenskabsscenariet

Datakilder – Hvis du vil hente data med Fabric, kan du nemt og hurtigt oprette forbindelse til Azure Data Services, andre cloudplatforme og dataressourcer i det lokale miljø. Med Fabric Notebooks kan du hente data fra disse ressourcer:

  • Indbyggede lakehouses
  • Data Warehouses
  • Semantic models
  • Forskellige Apache Spark-datakilder
  • Forskellige datakilder, der understøtter Python

I denne serie af selvstudier fokuseres der på dataindtagelse og indlæsning fra et lakehouse.

Udforsk, rens og forbered – Fabric-datavidenskabsoplevelsen understøtter datarensning, transformation, udforskning og featurisering. Den bruger indbyggede Spark-oplevelser og Python-baserede værktøjer – f.eks. Data Wrangler og SemPy Library. I dette selvstudium vises dataudforskning med seaborn Python-biblioteket og datarensning og -forberedelse med Apache Spark.

Modeller og eksperimenter – Med Fabric kan du oplære, evaluere og score modeller til maskinel indlæring med indbyggede eksperimenter. For at registrere og udrulle dine modeller og spore eksperimenter tilbyder MLflow problemfri integration med Fabric som en måde at modellere elementer på. For at bygge og dele forretningsindsigt tilbyder Fabric andre funktioner til modelforudsigelse i stor skala (PREDICT) til at bygge og dele forretningsindsigt.

Storage – Fabric standardiserer deltasøen, hvilket betyder, at alle Fabric-motorer kan interagere med det samme datasæt, der er gemt i et lakehouse. Med dette lagerlag kan du gemme både strukturerede og ustrukturerede data, der understøtter både filbaseret lager og tabelformat. Du kan nemt få adgang til datasættene og lagrede filer via alle Fabric-elementer – f.eks. notesbøger og pipelines.

Eksponer analyse og indsigt – Power BI, der er et brancheførende business intelligence-værktøj, kan bruge lakehouse-data til oprettelse af rapporter og visualiseringer. Indbyggede visualiseringsbiblioteker i Python eller Spark i notesbogressourcer

  • matplotlib
  • seaborn
  • plotly
  • osv.

kan visualisere data, der bevares i et lakehouse. SemPy-biblioteket understøtter også datavisualisering. Dette bibliotek understøtter indbyggede avancerede, opgavespecifikke visualiseringer til

  • Den semantiske datamodel
  • Afhængigheder og deres overtrædelser
  • Anvendelsessager for klassificering og regression

Næste trin