Was ist Datentechnik in Microsoft Fabric?

Datentechnik in Microsoft Fabric ermöglicht es Benutzern, Infrastrukturen und Systeme zu entwerfen, zu erstellen und zu verwalten, die es ihren Organisationen ermöglichen, große Datenmengen zu sammeln, zu speichern, zu verarbeiten und zu analysieren.

Microsoft Fabric bietet verschiedene Datentechnikfunktionen, um sicherzustellen, dass Ihre Daten leicht zugänglich, gut organisiert und von hoher Qualität sind. Über die Datentechnik-Willkommensseite können Sie folgende Aktionen ausführen:

  • Erstellen und Verwalten Ihrer Daten mit einem Lakehouse

  • Entwerfen von Pipelines zum Kopieren von Daten in Ihr Lakehouse

  • Verwenden von Spark-Auftragsdefinitionen zum Übermitteln eines Batch-/Streamingauftrags an den Spark-Cluster

  • Verwenden von Notebooks zum Schreiben von Code für die Datenerfassung, -aufbereitung und -transformation

    Screenshot showing Data Engineering objects.

Lakehouse

Lakehouses sind Datenarchitekturen, die es Organisationen ermöglichen, strukturierte und unstrukturierte Daten an einem einzigen Ort zu speichern und zu verwalten, indem sie verschiedene Tools und Frameworks verwenden, um diese Daten zu verarbeiten und zu analysieren. Diese Tools und Frameworks können SQL-basierte Abfragen und Analysen sowie maschinelles Lernen und andere erweiterte Analysemethoden umfassen.

Apache Spark-Auftragsdefinition

Spark-Auftragsdefinitionen sind Anweisungen, die definieren, wie ein Auftrag in einem Spark-Cluster ausgeführt wird. Sie enthalten Informationen wie die Eingabe- und Ausgabedatenquellen, die Transformationen und die Konfigurationseinstellungen für die Spark-Anwendung. Mithilfe der Spark-Auftragsdefinition können Sie Batch-/Streamingaufträge an den Spark-Cluster übermitteln und eine andere Transformationslogik auf die in Ihrem Lakehouse gehosteten Daten anwenden.

Notebook

Notebooks stellen eine interaktive Computingumgebung dar, mit der Benutzer*innen Dokumente erstellen und freigeben können, die Livecode, Gleichungen, Visualisierungen und beschreibenden Text enthalten. Sie ermöglichen es Benutzern, Code in verschiedenen Programmiersprachen zu schreiben und auszuführen, darunter Python, R und Scala. Sie können Notebooks für die Datenerfassung, Vorbereitung, Analyse und andere datenbezogene Aufgaben verwenden.

Datenpipeline

Datenpipelines sind eine Reihe von Schritten, die Daten aus dem Rohformat in ein Format sammeln, verarbeiten und transformieren können, das Sie für die Analyse und Entscheidungsfindung verwenden können. Sie sind eine wichtige Komponente der Datentechnik, da sie eine Möglichkeit bieten, Daten zuverlässig, skalierbar und effizient von der Quelle an ihr Ziel zu verschieben.

Erste Schritte mit der Datentechnik: