Microsoft Fabric-Terminologie

Lernen Sie die Definitionen von in Microsoft Fabric verwendeten Begriffen kennen, einschließlich spezifischer Begriffe für Synapse Data Warehouse, Synapse Data Engineering, Synapse Data Science, Synapse Real-Time Analytics, Data Factory und Power BI.

Allgemeine Begriffe

  • Kapazität: Die Kapazität ist eine dedizierte Ressourcengruppe, die zu einem bestimmten Zeitpunkt verfügbar ist. Kapazität definiert, ob es einer Ressource möglich ist, eine Aktivität auszuführen oder eine Ausgabe zu erzeugen. Verschiedene Elemente verbrauchen zu einem bestimmten Zeitpunkt unterschiedliche Kapazitäten. Fabric bietet Kapazität über die Fabric-SKU und Testversionen. Weitere Informationen finden Sie unter Was bedeutet Kapazität?

  • Oberfläche: eine Sammlung von Funktionen, die auf ein bestimmtes Funktionsziel ausgerichtet sind. Zu den Fabric-Oberflächen gehören Synapse Data Warehouse, Synapse Data Engineering, Synapse Data Science, Synapse Real-Time Analytics, Data Factory und Power BI.

  • Element: Ein Element ist eine Gruppe von Funktionen innerhalb einer Oberfläche. Benutzer*innen können diese erstellen, bearbeiten und löschen. Jeder Elementtyp bietet unterschiedliche Funktionen. Die Data Engineering-Oberfläche umfasst beispielsweise die Elemente für Lakehouses, Notebooks und Spark-Auftragsdefinitionen.

  • Mandant: Ein Mandant ist eine einzelne Instanz von Fabric für eine Organisation und ist mit einer Microsoft Entra ID ausgerichtet ist.

  • Arbeitsbereich: Ein Arbeitsbereich ist eine Sammlung von Elementen, die verschiedene Funktionen in einer einzigen, auf Zusammenarbeit ausgelegten Umgebung vereint. Sie fungiert als Container, der die Kapazität für die ausgeführte Arbeit nutzt und die Kontrolle darüber bietet, wer auf die darin enthaltenen Elemente zugreifen kann. Beispielsweise erstellen Benutzer*innen in einem Arbeitsbereich unter anderem Berichte, Notebooks, semantische Modelle. Weitere Informationen finden Sie im Artikel zu Arbeitsbereichen.

Datentechnik mit Synapse

  • Lakehouse: Ein Lakehouse ist eine Sammlung von Dateien, Ordnern und Tabellen, die eine Datenbank für einen Data Lake zur Verwendung durch die Apache Spark- und die SQL-Eingine für die Big Data-Verarbeitung darstellen. Ein Lakehouse enthält erweiterte Funktionen für ACID-Transaktionen, wenn die Open-Source-Tabellen im Deltaformat verwendet werden. Das Lakehouse-Element wird in einem eindeutigen Arbeitsbereichsordner in Microsoft OneLake gehostet. Es enthält Dateien in verschiedenen Formaten (strukturiert und unstrukturiert), die in Ordnern und Unterordnern organisiert sind. Weitere Informationen finden Sie unter Was ist ein Lakehouse?.

  • Notebook: Ein Fabric-Notebook ist ein mehrsprachiges interaktives Programmiertool mit umfangreichen Funktionen. Dazu gehören das Erstellen von Code und Markdown, das Ausführen und Überwachen von Spark-Aufträgen, das Anzeigen und Visualisieren der Ergebnisse sowie die Zusammenarbeit mit dem Team. Notebooks helfen Datentechniker*innen und Datenwissenschaftler*innen, Daten zu untersuchen und zu verarbeiten und Experimente mit maschinellem Lernen sowohl mit Code als auch mit geringem Code zu erstellen. Sie können einfach in eine Pipelineaktivität für die Orchestrierung transformiert werden.

  • Spark-Anwendung: Eine Apache Spark-Anwendung ist ein Programm, das von Benutzer*innen mit einer der Spark-API-Sprachen (Scala, Python, Spark SQL oder Java) oder der von Microsoft hinzugefügten Sprachen (.NET mit C# oder F#) geschrieben wird. Beim Ausführen wird eine Anwendung in Spark-Aufträge unterteilt, die parallel ausgeführt werden, um die Daten schneller zu verarbeiten. Weitere Informationen finden Sie unter Spark-Anwendungsüberwachung.

  • Apache Spark-Auftrag: Ein Spark-Auftrag ist Teil einer Spark-Anwendung, der parallel mit anderen Aufträgen in der Anwendung ausgeführt wird. Aufträge umfassen mehrere Aufgaben. Weitere Informationen finden Sie unter Spark-Auftragsüberwachung.

  • Apache Spark-Auftragsdefinition: Eine Spark-Auftragsdefinition ist eine Gruppe von Parametern, die benutzerseitig festgelegt werden und angeben, wie eine Spark-Anwendung ausgeführt werden soll. Mit ihr können Sie Batch- oder Streamingaufträge an den Spark-Cluster übermitteln. Weitere Informationen finden Sie unter Was ist eine Apache Spark-Auftragsdefinition?.

  • V-Reihenfolge: eine Schreiboptimierung für das Parquet-Dateiformat, die schnelle Lesevorgänge ermöglicht, und Kosteneffizienz sowie bessere Leistung bietet. Alle Fabric-Engines schreiben Parquet-Dateien standardmäßig in V-Reihenfolge.

Data Factory

  • Connector: Data Factory bietet eine umfassende Reihe von Connectors, mit der Sie Verbindungen mit verschiedenen Arten von Datenspeichern herstellen können. Nach der Verbindung können Sie die Daten transformieren. Weitere Informationen finden Sie unter Connectors.

  • Datenpipeline: In Data Factory werden Datenpipelines zum Orchestrieren von Datenverschiebungen und -transformationen verwendet. Diese Pipelines unterscheiden sich von den Bereitstellungspipelines in Fabric. Weitere Informationen finden Sie unter Pipelines in der Data Factory-Übersicht.

  • Dataflow Gen2: Dataflows bieten eine Schnittstelle mit wenig Code zum Erfassen von Daten aus Hunderten Datenquellen und Transformieren Ihrer Daten. Dataflows in Fabric werden als Dataflow Gen2 bezeichnet. Dataflow Gen1 ist in Power BI vorhanden. Dataflow Gen2 bietet zusätzliche Funktionen im Vergleich zu Dataflows in Azure Data Factory oder Power BI. Sie können kein Upgrade von Gen1 auf Gen2 durchführen. Weitere Informationen finden Sie unter Dataflows in der Data Factory-Übersicht.

Data Science mit Synapse

  • Data Wrangler: Data Wrangler ist ein auf Notebooks basierendes Tool, das Benutzer*innen eine immersive Erfahrung für die Durchführung explorativer Datenanalysen bietet. Das Feature kombiniert eine rasterähnliche Datenanzeige mit dynamischen Zusammenfassungsstatistiken und einer Reihe von allgemeinen Datenbereinigungsvorgängen, die alle durch Auswählen weniger Symbole verfügbar sind. Jeder Vorgang generiert Code, der als wiederverwendbares Skript im Notebook gespeichert werden kann.

  • Experiment: Ein Experiment mit maschinellem Lernen ist die primäre Einheit für die Organisation und Steuerung aller zugehörigen Ausführungen maschinellen Lernens. Weitere Informationen finden Sie unter Experimente mit maschinellem Lernen in Microsoft Fabric.

  • Modell: Ein Machine Learning-Modell ist eine Datei, die darauf trainiert wurde, bestimmte Arten von Mustern zu erkennen. Sie trainieren ein Modell für ein Dataset und stellen einen Algorithmus bereit, mit dem es dieses Dataset auswertet und zum Lernen verwendet. Weitere Informationen finden Sie unter Machine Learning Modell.

  • Run: eine einzelne Ausführung von Modellcode. In MLflow basiert die Nachverfolgung auf Experimenten und Ausführungen.

Data Warehouse mit Synapse

  • SQL-Analyseendpunkt: Jedes Lakehouse weist einen SQL-Analyseendpunkt auf, mit dem Benutzer*innen Deltatabellendaten mit T-SQL über TDS abfragen können. Weitere Informationen finden Sie unter SQL-Analyseendpunkt.

  • Synapse Data Warehouse: Synapse Data Warehouse fungiert als herkömmliches Data Warehouse und unterstützt alle T-SQL-Transaktionsfunktionen, die Sie in einem Data Warehouse für Unternehmen erwarten. Weitere Informationen finden Sie unter Synapse Data Warehouse.

Echtzeitanalysen mit Synapse

  • KQL-Datenbank: Die KQL-Datenbank enthält Daten in einem Format, mit dem Sie KQL-Abfragen ausführen können. Weitere Informationen finden Sie unter Abfragen einer KQL-Datenbank.

  • KQL-Abfrageset: Das KQL-Abfrageset ist das Element zum Ausführen von Abfragen, Anzeigen von Ergebnissen und Bearbeiten von Abfrageergebnissen für Daten aus Ihrer Data Explorer-Datenbank. Das Abfrageset enthält die Datenbanken und Tabellen, die Abfragen und die Ergebnisse. Mit dem KQL-Abfrageset können Sie Abfragen für das zukünftige Verwenden speichern oder Abfragen exportieren und für andere Personen freigeben. Weitere Informationen finden Sie unter Abfragen von Daten im KQL-Abfrage.

  • Ereignisstream: Das Microsoft Fabric-Ereignis bietet einen zentralen Ort auf der Fabric-Plattform zum Erfassen und Transformieren von Echtzeitereignissen sowie zum Weiterleiten dieser Ereignisse an Ziele über eine Oberfläche ohne Code. Ein Ereignisstream besteht aus verschiedenen Streamingdatenquellen und Erfassungszielen sowie einem Ereignisprozessor, wenn die Transformation benötigt wird. Weitere Informationen finden Sie unter Microsoft Fabric-Ereignisstreams.

OneLake

  • Verknüpfung: Verknüpfungen sind eingebettete Verweise in OneLake, die auf andere Dateispeicherorte verweisen. Sie bieten eine Möglichkeit zum Herstellen einer Verbindung mit vorhandenen Daten, ohne sie direkt kopieren zu müssen. Weitere Informationen finden Sie unter OneLake-Verknüpfungen.