Datavidenskabsscenarie fra ende til anden: introduktion og arkitektur

Dette sæt selvstudier viser et eksempel på et scenarie fra ende til anden i Fabric-datavidenskabsoplevelsen. Du implementerer hvert trin fra dataindtagelse, rensning og forberedelse til oplæring af modeller til maskinel indlæring og generering af indsigt og bruger derefter denne indsigt ved hjælp af visualiseringsværktøjer som Power BI.

Hvis du er ny bruger af Microsoft Fabric, kan du se Hvad er Microsoft Fabric?.

Introduktion

Livscyklussen for et datavidenskabeligt projekt omfatter typisk (ofte iterativt) følgende trin:

  • Forretningsforståelse
  • Dataindsamling
  • Dataudforskning, rensning, forberedelse og visualisering
  • Modeltræning og eksperimentsporing
  • Modelscore og generering af indsigt.

Målene og succeskriterierne for hver fase afhænger af samarbejde, datadeling og dokumentation. Fabric-datavidenskabsoplevelsen består af flere indbyggede funktioner, der muliggør samarbejde, dataanskaffelse, deling og forbrug på en problemfri måde.

I disse selvstudier tager du rollen som dataforsker, der har fået til opgave at udforske, rense og transformere et datasæt, der indeholder 10.000 kunders faldstatus i en bank. Du opretter derefter en model til maskinel indlæring for at forudsige, hvilke bankkunder der sandsynligvis forlader virksomheden.

Du lærer at udføre følgende aktiviteter:

  1. Brug Fabric-notesbøgerne til datavidenskabsscenarier.
  2. Indfødning af data i et Fabric lakehouse ved hjælp af Apache Spark.
  3. Indlæs eksisterende data fra deltatabellerne i lakehouse.
  4. Rens og transformér data ved hjælp af Apache Spark- og Python-baserede værktøjer.
  5. Opret eksperimenter og kørsler for at oplære forskellige modeller til maskinel indlæring.
  6. Registrer og spor oplærte modeller ved hjælp af MLflow og Fabric UI.
  7. Kør scoring i stor skala, og gem forudsigelser og resultatforudsigelser i lakehouse.
  8. Visualiser forudsigelser i Power BI ved hjælp af DirectLake.

Arkitektur

I denne serie af selvstudier viser vi et forenklet datavidenskabsscenarie fra ende til anden, der omfatter:

  1. Indtagelse af data fra en ekstern datakilde.
  2. Udforsk og rens data.
  3. Oplær og registrer modeller til maskinel indlæring.
  4. Udfør batchscore, og gem forudsigelser.
  5. Visualiser forudsigelsesresultater i Power BI.

Diagram of the Data science end-to-end scenario components.

Forskellige komponenter i datavidenskabsscenariet

Datakilder – Fabric gør det nemt og hurtigt at oprette forbindelse til Azure Data Services, andre cloudplatforme og datakilder i det lokale miljø for at hente data fra. Ved hjælp af Fabric Notebooks kan du hente data fra de indbyggede Lakehouse-, Data Warehouse-, semantiske modeller og forskellige Apache Spark- og Python-understøttede brugerdefinerede datakilder. I denne serie af selvstudier fokuseres der på indtagelse og indlæsning af data fra et lakehouse.

Udforsk, rens og forbered – Datavidenskabsoplevelsen på Fabric understøtter rensning, transformation, udforskning og featurisering af data ved hjælp af indbyggede oplevelser på Spark samt Python-baserede værktøjer som Data Wrangler og SemPy Library. I dette selvstudium vises dataudforskning ved hjælp af Python-bibliotek seaborn og datarensning og -forberedelse ved hjælp af Apache Spark.

Modeller og eksperimenter – Fabric giver dig mulighed for at oplære, evaluere og score modeller til maskinel indlæring ved hjælp af indbyggede eksperiment- og modelelementer med problemfri integration med MLflow til registrering/udrulning af eksperimenter. Fabric indeholder også funktioner til modelforudsigelse i stor skala (PREDICT) for at få og dele forretningsindsigt.

Storage – Fabric standardiserer deltasøen, hvilket betyder, at alle motorer i Fabric kan interagere med det samme datasæt, der er gemt i et lakehouse. Dette lagerlag giver dig mulighed for at gemme både strukturerede og ustrukturerede data, der understøtter både filbaseret lager og tabelformat. De lagrede datasæt og filer kan nemt tilgås via alle Fabric-elementer, f.eks. notesbøger og pipelines.

Eksponer analyse og indsigt – Data fra et lakehouse kan bruges af Power BI, brancheførende business intelligence-værktøj, til rapportering og visualisering. Data, der bevares i lakehouse, kan også visualiseres i notesbøger ved hjælp af oprindelige visualiseringsbiblioteker i Spark eller Python, f.eks matplotlib. , seaborn, plotlyog meget mere. Data kan også visualiseres ved hjælp af SemPy-biblioteket, der understøtter indbyggede avancerede, opgavespecifikke visualiseringer for den semantiske datamodel, afhængigheder og deres overtrædelser samt til brugscases for klassificering og regression.

Næste trin