Udforsk og behandl data med Microsoft Fabric
Data er hjørnestenen i datavidenskab, især når man sigter mod at træne en maskinlæringsmodel til at opnå kunstig intelligens. Modeller udviser typisk forbedret ydeevne, efterhånden som størrelsen på træningsdatasættet øges. Ud over mængden af data er kvaliteten af dataene lige så afgørende.
For at garantere både kvaliteten og kvantiteten af dine data er det umagen værd at bruge Microsoft Fabrics robuste dataindtagelses- og behandlingsprogrammer. Du har fleksibiliteten til at vælge enten en low-code- eller code-first-tilgang, når du etablerer de vigtige pipelines til dataindtagelse, udforskning og transformation.
Indtag dine data i Microsoft Fabric
Hvis du vil arbejde med data i Microsoft Fabric, skal du først indtage data. Du kan indtage data fra flere kilder, både lokale datakilder og clouddatakilder. Du kan f.eks. indtage data fra en CSV-fil, der er gemt på din lokale maskine eller i et Azure Data Lake Storage (Gen2).
Tips
Få mere at vide om, hvordan du indfødning og orkestrering af data fra forskellige kilder med Microsoft Fabric.
Når du har oprettet forbindelse til en datakilde, kan du gemme dataene i et Microsoft Fabric-søhus. Du kan bruge lakehouse som en central placering til at gemme alle strukturerede, semi-strukturerede og ustrukturerede filer. Du kan derefter nemt oprette forbindelse til lakehouse, når du vil have adgang til dine data til udforskning eller transformation.
Udforsk og transformer dine data
Som datalog er du måske mest fortrolig med at skrive og udføre kode i notesbøger. Microsoft Fabric tilbyder en velkendt notesbogsoplevelse, der er drevet af Spark Compute.
Apache Spark er en parallel behandlingsstruktur med åben kildekode til databehandling og analyse i stor skala.
Notesbøger knyttes automatisk til Spark Compute. Når du kører en celle i en notesbog for første gang, starter en ny Spark-session. Sessionen fortsætter, når du kører efterfølgende celler. Spark-sessionen stopper automatisk efter et stykke tid med inaktivitet for at spare omkostninger. Du kan også stoppe sessionen manuelt.
Når du arbejder i en notesbog, kan du vælge det sprog, du vil bruge. I forbindelse med arbejdsbelastninger inden for datavidenskab arbejder du sandsynligvis med PySpark (Python) eller SparkR (R).
I notesbogen kan du udforske dine data ved hjælp af dit foretrukne bibliotek eller med en af de indbyggede visualiseringsindstillinger. Hvis det er nødvendigt, kan du transformere dine data og gemme de behandlede data ved at skrive dem tilbage til søhuset.
Forbered dine data med Data Wrangler
For at hjælpe dig med at udforske og transformere dine data hurtigere tilbyder Microsoft Fabric den brugervenlige Data Wrangler.
Når du har startet Data Wrangler, får du et beskrivende overblik over de data, du arbejder med. Du kan se oversigtsstatistikken for dine data for at finde eventuelle problemer som f.eks. manglende værdier.
Hvis du vil rense dine data, kan du vælge en af de indbyggede datarensningshandlinger. Når du vælger en handling, genereres der automatisk en forhåndsvisning af resultatet og den tilknyttede kode for dig. Når du har valgt alle nødvendige handlinger, kan du eksportere transformationerne til kode og udføre dem på dine data.