Dela via


Förbereda och transformera data i Microsoft Fabric

När du har matat in data i Microsoft Fabric behöver du vanligtvis rensa, forma och berika dem före analys. Oavsett om ditt mål är att förbereda utvalda tabeller i en lakehouse eller modellklara data i ett lager, tillhandahåller Fabric både alternativ för låg kod och kod först-transformering.

Den här artikeln beskriver hur du använder Dataflow Gen2 för visuell dataförberedelse med låg kod och hur du använder notebook-filer och användardatafunktioner för avancerade, koddrivna transformeringar. Välj den metod som bäst passar din roll, kompetensuppsättning och arbetsbelastningskrav.

Transformera data med Dataflow Gen2

För förberedelse av data med låg kod använder du Dataflow Gen2. Dataflow Gen2 använder den välbekanta Power Query-upplevelsen , samma teknik som används i Excel och Power BI.

Med Power Query-gränssnittet kan du använda filter, härleda kolumner, aggregera data, slå samman frågor och utföra andra omvandlingar via ett visuellt, steg för steg-arbetsflöde. I Fabric kan Dataflow Gen2 köras som en fristående ETL-process eller som en aktivitet i en pipeline.

När du till exempel har läst in rå försäljningsdata i ett Lakehouse kan du använda ett dataflöde för att ta bort dubletter, standardisera kolumnnamn, tillämpa affärsregler och skriva de bearbetade resultaten till bearbetade tabeller i en guldnivå i Lakehouse eller till ett Data Warehouse.

Dataflöde Gen2 körs i molnet med hjälp av Infrastrukturkapacitet, vilket gör det möjligt att skala till stora datamängder och komplexa transformeringar utan att kräva anpassad kod. Dataanalytiker och BI-utvecklare kan förbereda data oberoende av varandra, samtidigt som de fortfarande skriver utdata till Lakehouse- eller Warehouse-tabeller som en del av Fabrics enhetliga lagringsgrund.

Kodförberedelse med notebook-filer och användardatafunktioner

För avancerade omvandlingsscenarier med kod använder du notebook-filer, Spark-jobb och användardatafunktioner i datateknikmiljön.

En Fabric-notebook-fil innehåller en Jupyter-miljö i Fabric-portalen. Du kan skriva kod på språk som Python, T-SQL eller Scala för att arbeta med data som lagras i OneLake.

Notebook-filer passar bra för komplexa omvandlingar, anpassade algoritmer, arbetsflöden för datavetenskap och integrering med externa bibliotek. Du kan till exempel läsa in råa JSON- eller Parquet-filer från en lakehouse till en Spark DataFrame, koppla dem till andra datauppsättningar, tillämpa fönsterbaserade aggregeringar, berika data och spara resultatet som Delta-tabeller i OneLake.

Notebook-filer integreras direkt med lakehouses och lager på samma arbetsyta. Du kan läsa och skriva data utan ytterligare konfiguration av autentiseringsuppgifter eftersom åtgärder körs i infrastrukturresursens säkerhetskontext. Du kan också orkestrera och schemalägga notebook-filer med hjälp av notebook-aktiviteten i Data Factory-pipelines.

Fabric-användardatafunktioner gör det möjligt att omsluta återanvändbar Python-logik i Fabric. Du kan använda dem för att implementera avancerade affärsregler, anropa externa tjänster eller skapa modulära transformeringskomponenter. Användardatafunktioner stöder PyPI-bibliotek, kan ansluta till Infrastrukturdatakällor och kan exponera REST-slutpunkter för extern integrering. De här funktionerna gör dem lämpliga för företagsscenarier som kräver återanvändbar, styrd transformeringslogik.

Du kan anropa User Data Functions från Notebooks, Pipelines, Activator rules och som en del av Translytical task flows i Power BI-rapporter.