Delen via


End-to-end-scenario voor data science: inleiding en architectuur

In deze reeks zelfstudies ziet u een end-to-end-voorbeeldscenario in de data science-ervaring van Fabric. U implementeert elke stap van gegevensopname, opschoning en voorbereiding om machine learning-modellen te trainen en inzichten te genereren en deze inzichten vervolgens te gebruiken met behulp van visualisatiehulpprogramma's zoals Power BI.

Als u niet eerder met Microsoft Fabric werkt, raadpleegt u Wat is Microsoft Fabric?

Inleiding

De levenscyclus van een Data science-project omvat doorgaans (vaak, iteratief) de volgende stappen:

  • Inzicht in het bedrijf
  • Gegevens ophalen
  • Gegevensverkenning, opschoning, voorbereiding en visualisatie
  • Modeltraining en experimenten bijhouden
  • Modelscore en het genereren van inzichten.

De doelstellingen en succescriteria van elke fase zijn afhankelijk van samenwerking, het delen van gegevens en documentatie. De Data Science-ervaring van Fabric bestaat uit meerdere ingebouwde functies die samenwerking, gegevensverwerving, delen en verbruik op een naadloze manier mogelijk maken.

In deze zelfstudies neemt u de rol van een data scientist die de taak heeft gekregen om een gegevensset met de verloopstatus van 10.000 klanten bij een bank te verkennen, op te schonen en te transformeren. Vervolgens bouwt u een machine learning-model om te voorspellen welke bankklanten waarschijnlijk vertrekken.

U leert de volgende activiteiten uit te voeren:

  1. Gebruik de Fabric-notebooks voor data science-scenario's.
  2. Gegevens opnemen in een Fabric Lakehouse met behulp van Apache Spark.
  3. Laad bestaande gegevens uit de lakehouse-deltatabellen.
  4. Gegevens opschonen en transformeren met hulpprogramma's op basis van Apache Spark en Python.
  5. Maak experimenten en uitvoeringen om verschillende machine learning-modellen te trainen.
  6. Registreer getrainde modellen en volg ze met behulp van MLflow en de gebruikersinterface van Fabric.
  7. Voer scoren op schaal uit en sla voorspellingen en deductieresultaten op in het lakehouse.
  8. Visualiseer voorspellingen in Power BI met DirectLake.

Architectuur

In deze reeks zelfstudies laten we een vereenvoudigd end-to-end data science-scenario zien dat betrekking heeft op:

  1. Gegevens opnemen uit een externe gegevensbron.
  2. Gegevens verkennen en opschonen.
  3. Machine Learning-modellen trainen en registreren.
  4. Batchgewijs scoren en voorspellingen opslaan.
  5. Visualiseer voorspellingsresultaten in Power BI.

Diagram of the Data science end-to-end scenario components.

Verschillende onderdelen van het data science-scenario

Gegevensbronnen - Fabric maakt het eenvoudig en snel om verbinding te maken met Azure Data Services, andere cloudplatforms en on-premises gegevensbronnen om gegevens op te nemen. Met Fabric Notebooks kunt u gegevens opnemen uit de ingebouwde Lakehouse-, Data Warehouse-, semantische modellen en verschillende aangepaste gegevensbronnen van Apache Spark en Python. Deze reeks zelfstudies is gericht op het opnemen en laden van gegevens uit een lakehouse.

Verkennen, opschonen en voorbereiden : de data science-ervaring in Fabric biedt ondersteuning voor het opschonen van gegevens, transformatie, verkenning en featurization met behulp van ingebouwde ervaringen op Spark en python-hulpprogramma's zoals Data Wrangler en SemPy Library. In deze zelfstudie wordt gegevensverkenning getoond met behulp van Python-bibliotheek seaborn en gegevensopschoning en -voorbereiding met behulp van Apache Spark.

Modellen en experimenten : met Fabric kunt u machine learning-modellen trainen, evalueren en scoren met behulp van ingebouwd experiment en modelitems met naadloze integratie met MLflow voor het bijhouden van experimenten en modelregistratie/implementatie. Fabric bevat ook mogelijkheden voor modelvoorspelling op schaal (PREDICT) om zakelijke inzichten te verkrijgen en te delen.

Storage - Fabric standaardiseert delta lake, wat betekent dat alle engines van Fabric kunnen communiceren met dezelfde gegevensset die is opgeslagen in een lakehouse. Met deze opslaglaag kunt u zowel gestructureerde als ongestructureerde gegevens opslaan die zowel bestandsopslag als tabellaire indeling ondersteunen. De gegevenssets en bestanden die zijn opgeslagen, kunnen eenvoudig worden geopend via alle Fabric-ervaringsitems, zoals notebooks en pijplijnen.

Analyse en inzichten beschikbaar maken: gegevens uit een lakehouse kunnen worden gebruikt door Power BI, toonaangevende business intelligence tool voor rapportage en visualisatie. Gegevens die in lakehouse worden bewaard, kunnen ook worden gevisualiseerd in notebooks met behulp van systeemeigen Spark- of Python-visualisatiebibliotheken, zoals matplotlib, seabornen plotlymeer. Gegevens kunnen ook worden gevisualiseerd met behulp van de SemPy-bibliotheek die ingebouwde uitgebreide, taakspecifieke visualisaties voor het semantische gegevensmodel ondersteunt, voor afhankelijkheden en hun schendingen, en voor classificatie- en regressiegebruiksscenario's.

Volgende stap