Untersuchen von Microsoft Fabric Lakehouse

Abgeschlossen

Ein Lakehouse stellt eine Datenbank dar und basiert auf einem Data Lake mit Delta-Formattabellen. Lakehouses kombinieren die SQL-basierten Analysefunktionen eines relationalen Data Warehouse mit der Flexibilität und Skalierbarkeit eines Data Lake. Lakehouses speichern alle Datenformate und können mit verschiedenen Analysetools und Programmiersprachen verwendet werden. Als cloudbasierte Lösungen können Lakehouses automatisch skaliert werden und bieten Hochverfügbarkeit und Notfallwiederherstellung.

Diagramm eines Lakehouse, das die Ordnerstruktur eines Data Lakes und die relationalen Funktionen eines Data Warehouse zeigt.

Zu den Vorteilen Lakehouses gehören unter anderem die folgenden:

  • Lakehouses verwenden Spark- und SQL-Engines, um umfangreiche Daten zu verarbeiten und Maschinelles Lernen oder Vorhersagemodellierungsanalysen zu unterstützen.
  • Lakehouse-Daten sind in einem Schema-on-Read-Format organisiert. Das bedeutet, dass Sie das Schema nach Bedarf definieren, anstatt ein vordefiniertes Schema nutzen.
  • Lakehouses unterstützen ACID-Transaktionen (Atomicity, Consistency, Isolation, Durability – Unteilbarkeit, Konsistenz, Isolation, Dauerhaftigkeit) mithilfe von Delta Lake-formatierten Tabellen für Datenkonsistenz und -integrität.
  • Bei Lakehouses handelt es sich um einen einzigen Standort für Datentechniker*innen, Data Scientists und Datenanalyst*innen, um auf Daten zuzugreifen und diese zu verwenden.

Lakehouse ist eine großartige Option für eine skalierbare Analyselösung, die Datenkonsistenz gewährleistet. Sie müssen Ihre spezifischen Anforderungen bewerten, um zu ermitteln, welche Lösung am besten geeignet ist.

Microsoft Fabric-Lakehouses

In Microsoft Fabric können Sie ein Lakehouse in jedem Arbeitsbereich der Premium-Ebene erstellen. Nachdem Sie ein Lakehouse erstellt haben, können Sie Daten in jedem gängigen Format aus verschiedenen Quellen laden, einschließlich lokaler Dateien, Datenbanken oder APIs. Die Datenerfassung kann auch mithilfe von Data Factory-Pipelines oder Dataflows (Gen2) in Microsoft Fabric automatisiert werden. Darüber hinaus können Sie Fabric-Verknüpfungen für Daten in externen Quellen wie Azure Data Lake Storage Gen2 oder einen Microsoft OneLake-Standort außerhalb des Speichers des Lakehouse erstellen. Mit dem Lakehouse-Explorer können Sie Dateien, Ordner, Verknüpfungen und Tabellen durchsuchen und deren Inhalte auf der Fabric-Plattform anzeigen.

Nachdem Sie die Daten im Lakehouse erfasst haben, können Sie Notebooks oder Dataflows (Gen2) verwenden, um sie zu untersuchen und zu transformieren.

Hinweis

Dataflows (Gen2) basieren auf Power Query, einem Datenanalyst*innen vertrauten Tool mit Excel oder Power BI, das eine visuelle Darstellung von Transformationen als Alternative zur herkömmlichen Programmierung bietet.

Data Factory-Pipelines können zum Orchestrieren von Spark, Dataflows und anderen Aktivitäten verwendet werden und helfen Ihnen, komplexe Datentransformationsprozesse zu implementieren.

Nach dem Transformieren Ihrer Daten können Sie sie verwenden, um sie in SQL abzufragen, Machine Learning-Modelle zu trainieren, Echtzeitintelligenz durchzuführen oder Berichte in Power BI zu erstellen.

Sie können auch Datengovernancerichtlinien auf Ihr Lakehouse anwenden, z. B. für die Datenklassifizierung und die Zugriffssteuerung.