Scenario för datavetenskap från slutpunkt till slutpunkt: introduktion och arkitektur

Den här uppsättningen självstudier visar ett exempel på ett scenario från slutpunkt till slutpunkt i infrastrukturresursens datavetenskapsupplevelse. Du implementerar varje steg från datainmatning, rensning och förberedelse till att träna maskininlärningsmodeller och generera insikter och sedan använda dessa insikter med hjälp av visualiseringsverktyg som Power BI.

Om du inte har använt Microsoft Fabric tidigare läser du Vad är Microsoft Fabric?.

Introduktion

Livscykeln för ett datavetenskapsprojekt innehåller vanligtvis (ofta iterativt) följande steg:

  • Förstå verksamheten
  • Datainsamling
  • Datautforskning, rensning, förberedelse och visualisering
  • Modellträning och experimentspårning
  • Modellera bedömning och generera insikter.

Målen och framgångskriterierna för varje fas beror på samarbete, datadelning och dokumentation. Data science-upplevelsen i Fabric består av flera inbyggda funktioner som möjliggör samarbete, datainsamling, delning och förbrukning på ett sömlöst sätt.

I de här självstudierna tar du rollen som dataexpert som har fått uppgiften att utforska, rensa och transformera en datauppsättning som innehåller omsättningsstatus för 10 000 kunder på en bank. Sedan skapar du en maskininlärningsmodell för att förutsäga vilka bankkunder som sannolikt kommer att lämna.

Du får lära dig att utföra följande aktiviteter:

  1. Använd fabric notebook-filer för datavetenskapsscenarier.
  2. Mata in data i en Infrastruktursjöhus med Apache Spark.
  3. Läs in befintliga data från lakehouse delta-tabellerna.
  4. Rensa och transformera data med hjälp av Apache Spark- och Python-baserade verktyg.
  5. Skapa experiment och körningar för att träna olika maskininlärningsmodeller.
  6. Registrera och spåra tränade modeller med MLflow och infrastrukturgränssnittet.
  7. Kör bedömning i stor skala och spara förutsägelser och slutsatsdragningsresultat till lakehouse.
  8. Visualisera förutsägelser i Power BI med DirectLake.

Arkitektur

I den här självstudieserien visar vi ett förenklat datavetenskapsscenario från slutpunkt till slutpunkt som omfattar:

  1. Mata in data från en extern datakälla.
  2. Utforska och rensa data.
  3. Träna och registrera maskininlärningsmodeller.
  4. Utför batchbedömning och spara förutsägelser.
  5. Visualisera förutsägelseresultat i Power BI.

Diagram of the Data science end-to-end scenario components.

Olika komponenter i scenariot för datavetenskap

Datakällor – Infrastrukturresurser gör det enkelt och snabbt att ansluta till Azure Data Services, andra molnplattformar och lokala datakällor att mata in data från. Med hjälp av Fabric Notebooks kan du mata in data från inbyggda Lakehouse, Data Warehouse, semantiska modeller och olika Apache Spark- och Python-datakällor som stöds. Den här självstudieserien fokuserar på att mata in och läsa in data från ett sjöhus.

Utforska, rensa och förbereda – Data science-upplevelsen i Fabric stöder datarensning, omvandling, utforskning och funktionalisering med hjälp av inbyggda upplevelser på Spark samt Python-baserade verktyg som Data Wrangler och SemPy Library. Den här självstudien visar datautforskning med hjälp av Python-bibliotek seaborn och datarensning och förberedelse med Apache Spark.

Modeller och experiment – Med Infrastruktur kan du träna, utvärdera och poängsätta maskininlärningsmodeller med hjälp av inbyggda experiment- och modellobjekt med sömlös integrering med MLflow för experimentspårning och modellregistrering/distribution. Infrastrukturresurser har också funktioner för modellförutsägelse i stor skala (PREDICT) för att få och dela affärsinsikter.

Lagring – Infrastruktur standardiserar på Delta Lake, vilket innebär att alla motorer i Fabric kan interagera med samma datauppsättning som lagras i ett sjöhus. Med det här lagringslagret kan du lagra både strukturerade och ostrukturerade data som stöder både filbaserad lagring och tabellformat. Datauppsättningar och filer som lagras kan enkelt nås via alla objekt i Infrastrukturmiljön, till exempel notebook-filer och pipelines.

Exponera analys och insikter – Data från ett lakehouse kan användas av Power BI, branschledande business intelligence-verktyg, för rapportering och visualisering. Data som sparas i lakehouse kan också visualiseras i notebook-filer med spark- eller Python-inbyggda visualiseringsbibliotek som matplotlib, seaborn, plotlyoch mycket mer. Data kan också visualiseras med hjälp av SemPy-biblioteket som stöder inbyggda omfattande, uppgiftsspecifika visualiseringar för semantisk datamodell, för beroenden och deras överträdelser samt för användningsfall för klassificering och regression.

Gå vidare