Hva er datateknikk i Microsoft Fabric?

Datateknikk i Microsoft Fabric gjør det mulig for brukere å utforme, bygge og vedlikeholde infrastrukturer og systemer som gjør det mulig for organisasjonene å samle inn, lagre, behandle og analysere store mengder data.

Microsoft Fabric tilbyr ulike funksjoner for datateknikk for å sikre at dataene dine er lett tilgjengelige, velorganiserte og av høy kvalitet. Fra hjemmesiden for datateknikk kan du:

  • Opprette og administrere data ved hjelp av et lakehouse

  • Utforme rørledninger for å kopiere data til lakehouse

  • Bruk Spark-jobbdefinisjoner til å sende inn parti-/strømmingsjobb til Spark-klyngen

  • Bruke notatblokker til å skrive kode for datainntak, forberedelse og transformasjon

    Screenshot showing Data Engineering objects.

Lakehouse

Lakehouses er dataarkitekturer som gjør det mulig for organisasjoner å lagre og administrere strukturerte og ustrukturerte data på ett sted, ved hjelp av ulike verktøy og rammeverk for å behandle og analysere disse dataene. Disse verktøyene og rammeverkene kan omfatte SQL-baserte spørringer og analyser, samt maskinlæring og andre avanserte analyseteknikker.

Apache Spark-jobbdefinisjon

Spark-jobbdefinisjoner er sett med instruksjoner som definerer hvordan du utfører en jobb på en Spark-klynge. Den inneholder informasjon som inndata- og utdatadatakildene, transformasjonene og konfigurasjonsinnstillingene for Spark-programmet. Spark-jobbdefinisjon lar deg sende inn batch-/streamingjobb til Spark-klyngen, bruke forskjellig transformasjonslogikk på dataene som driftes på lakehouse sammen med mange andre ting.

Notatblokk

Notatblokker er et interaktivt databehandlingsmiljø som gjør det mulig for brukere å opprette og dele dokumenter som inneholder live-kode, formler, visualiseringer og fortellende tekst. De tillater brukere å skrive og kjøre kode på ulike programmeringsspråk, inkludert Python, R og Scala. Du kan bruke notatblokker for datainntak, forberedelse, analyse og andre datarelaterte oppgaver.

Dataforløp

Datasamlebånd er en rekke trinn som kan samle inn, behandle og transformere data fra råformen til et format som du kan bruke til analyse og beslutningstaking. De er en kritisk komponent i datateknikk, da de gir en måte å flytte data fra kilden til målet på en pålitelig, skalerbar og effektiv måte.

Kom i gang med Dataingeniør opplevelsen: