Freigeben über


Neuerungen und Planungen für Data Factory in Microsoft Fabric

Wichtig

In den Freigabeplänen werden Funktionen beschrieben, die möglicherweise noch nicht freigegeben wurden. Die Liefer-Zeitachsen und die geplante Funktion können sich ändern oder werden möglicherweise nicht geliefert. Weitere Informationen finden Sie unter Microsoft-Richtlinie.

Data Factory in Microsoft Fabric vereint die Fähigkeiten zur Datenintegration sowohl für Citizen Developer als auch für professionelle Entwickelnde in einer einzigen, modernen Datenintegrationslösung. Es bietet Konnektivität zu mehr als 100 relationalen und nicht-relationalen Datenbanken, Lakehouses, Data Warehouses, generischen Schnittstellen wie REST-APIs, OData und mehr.

Dataflows: Dataflow Gen2 ermöglicht es Ihnen, umfangreiche Datentransformationen durchzuführen und verschiedene Ausgabeziele zu unterstützen, die in Azure SQL-Datenbank, Lakehouse, Data Warehouse und mehr speichern. Der Dataflows-Editor bietet mehr als 300 Transformationen, einschließlich KI-basierter Optionen, und ermöglicht Ihnen das einfache Transformieren von Daten mit besserer Flexibilität als jedes andere Tool. Unabhängig davon, ob Sie Daten aus einer unstrukturierten Datenquelle wie einer Webseite extrahieren oder eine vorhandene Tabelle im Power Query-Editor umgestalten, können Sie die Power Query-Funktion „Data Extraction By Example“ (Datenextraktion anhand von Beispielen) verwenden, die künstliche Intelligenz (KI) nutzt und so den Prozess vereinfacht.

Datenpipelines: Datenpipelines bieten die Möglichkeit, vielseitige Workflows zur Datenorchestrierung zu erstellen, die Aufgaben wie die Extraktion von Daten, das Laden in bevorzugte Datenspeicher, die Ausführung von Notebooks, die Ausführung von SQL-Skripten und vieles mehr zusammenführen. Sie können schnell leistungsstarke metadatengesteuerte Datenpipelines erstellen, die sich wiederholende Aufgaben automatisieren. Beispielsweise das Laden und Extrahieren von Daten aus verschiedenen Tabellen in einer Datenbank, das Durchlaufen mehrerer Container in Azure Blob Storage und vieles mehr. Außerdem können Sie mit Datenpipelines über den Connector von Microsoft Graph Data Connection (MGDC) auf die Daten von Microsoft 365 zugreifen.

Weitere Informationen finden Sie in der Dokumentation.

Schwerpunkte

In den nächsten Monaten wird Data Factory in Microsoft Fabric seine Konnektivitätsoptionen erweitern und die umfangreiche Bibliothek an Transformationen und Datenpipelineaktivitäten weiter ausbauen. Darüber hinaus können Sie die Echtzeit-, Hochleistungsdatenreplikation aus betriebstechnischen Datenbanken durchführen und diese Daten zur Analyse in den Lake einzuspeisen.

Funktion Geschätzter Zeitplan für die Veröffentlichung
Copilot für Data Factory (Dataflow) Q3 2024
Unterstützung der inkrementellen Aktualisierung in Dataflow Gen2 Q3 2024
Unterstützung der Datenpipeline für DBT CLI Q3 2024
Unterstützung der Datenpipeline für Azure Databricks-Aufträge Q3 2024
Unterstützung der Schnellkopie in Dataflow Gen2 Q3 2024
Kopierauftrag Q3 2024
Copilot für Data Factory (Datenpipeline) Q3 2024
Verbesserte E-Mail-Benachrichtigungen für Aktualisierungsfehler Q3 2024
Identitätsverwaltung für Datenquellen (verwaltete Identität) Q3 2024
Identitätsverwaltung für Datenquellen (Azure Key Vault) Q3 2024
Unterstützung für das Aufrufen von arbeitsbereichsübergreifenden Datenpipelines Q3 2024
Ermöglichen, dass die Kundschaft ihre Verbindungen parametrisieren kann Q4 2024
Unterstützung der Datenpipeline für ereignisgesteuerte Trigger Verfügbar (Q2 2024)
Stagingstandardwerte für das Ausgabeziel von Dataflow Gen 2 Verfügbar (Q2 2024)
Unterstützung der Datenpipeline für SparkJobDefinition Verfügbar (Q2 2024)
Unterstützung der Datenpipeline für Azure HDInsight Verfügbar (Q2 2024)
Neue Connectors für Copy-Aktivität Verfügbar (Q2 2024)
Datenworkflows: Erstellen von Datenpipelines, die von Apache Airflow unterstützt werden Verfügbar (Q2 2024)
Identitätsverwaltung für Datenquellen (SPN) Verfügbar (Q2 2024)
Verbesserungen der GET-Datenerfahrung (Durchsuchen von Azure-Ressourcen) Verfügbar (Q1 2024)
Datenpipelines wurden um die Unterstützung des lokalen Datengateways (OPDG) erweitert Verfügbar (Q1 2024)
Unterstützung der Schnellkopie in Dataflow Gen2 Verfügbar (Q1 2024)
Git-Integration von Data Factory für Datenpipelines Verfügbar (Q1 2024)
Verbesserungen an Ausgabezielen in Dataflow Gen2 (Abfrageschema) Verfügbar (Q1 2024)
Abbrechen der Aktualisierungsunterstützung in Dataflow Gen2 Verfügbar (Q4 2023)

Copilot für Data Factory (Dataflow)

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Allgemeine Verfügbarkeit

Copilot für Data Factory (Dataflow) ermöglicht Kundinnen und Kunden, ihre Anforderungen bei der Erstellung von Datenintegrationslösungen mit Dataflows Gen2 in natürlicher Sprache auszudrücken.

Unterstützung der inkrementellen Aktualisierung in Dataflow Gen2

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Öffentliche Vorschau

Wir fügen in Dataflow Gen2 Unterstützung für inkrementelle Aktualisierungen hinzu. Mit diesem Feature können Sie schrittweise Daten aus Datenquellen extrahieren, Power Query-Transformationen anwenden und in verschiedene Ausgabeziele laden.

Datenpipelineunterstützung für DBT CLI

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Öffentliche Vorschau

DBT CLI Orchestration (Data Build Tool): Integriert das Datenbuildtool (dbt) für Datentransformationsworkflows.

Unterstützung der Datenpipeline für Azure Databricks-Aufträge

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Öffentliche Vorschau

Wir aktualisieren die Data Factory-Datenpipelines für Azure Databricks-Aktivitäten, um jetzt die neueste Auftrags-API zu verwenden, die spannende Workflowfunktionen wie das Ausführen von DLT-Aufträgen ermöglicht.

Unterstützung der Schnellkopie in Dataflow Gen2

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Allgemeine Verfügbarkeit

Wir fügen Unterstützung für die Aufnahme großer Datenmengen direkt in Dataflow Gen2 hinzu, indem wir die Pipeline-Funktion „Copy-Aktivität“ nutzen. Diese Erweiterung erhöht die Datenverarbeitungskapazität von Dataflow Gen2 erheblich und bietet ELT-Funktionen (Extract-Load-Transform) in großem Umfang.

Kopierauftrag

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Öffentliche Vorschau

Der Kopierauftrag vereinfacht die Benutzererfahrung für Kunden und Kundinnen, die Daten erfassen wollen, ohne einen Dataflow oder eine Datenpipeline erstellen zu müssen. Der Kopierauftrag unterstützt vollständige und inkrementelle Kopien aus beliebigen Datenquellen zu beliebigen Datenzielen. Jetzt für die private Vorschau registrieren

Copilot für Data Factory (Datenpipeline)

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Öffentliche Vorschau

Copilot für Data Factory (Datenpipeline) ermöglicht es Kundschaft, Datenpipelines mit natürlicher Sprache zu erstellen und bietet Anleitungen zur Problembehandlung.

Verbesserte E-Mail-Benachrichtigungen für Aktualisierungsfehler

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Öffentliche Vorschau

E-Mail-Benachrichtigungen ermöglichen es Dataflow Gen2-Erstellenden, die Ergebnisse (Erfolg/Fehler) des Aktualisierungsvorgangs eines Dataflows zu überwachen.

Identitätsverwaltung für Datenquellen (verwaltete Identität)

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Öffentliche Vorschau

Dies ermöglicht die Konfiguration von verwalteten Identitäten auf Arbeitsbereichsebene. Sie können die von Fabric verwalteten Identitäten verwenden, um eine sichere Verbindung mit Ihrer Datenquelle herzustellen.

Identitätsverwaltung für Datenquellen (Azure Key Vault)

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Öffentliche Vorschau

Unterstützung für Azure Key Vault: Sie können Ihre Schlüssel und Geheimnisse in Azure Key Vault speichern und eine Verbindung damit herstellen. Auf diese Weise können Sie Ihre Schlüssel an einem zentralen Ort verwalten.

Unterstützung für das Aufrufen von arbeitsbereichsübergreifenden Datenpipelines

Geschätzter Zeitplan für die Veröffentlichung: Q3 2024

Versionstyp: Öffentliche Vorschau

Aktualisierung der Aktivität zum Aufrufen von Pipelines: Wir ermöglichen einige neue und aufregende Aktualisierungen der Aktivität „Pipeline aufrufen“. Als Reaktion auf die überwältigenden Anfragen von Kundinnen und Kunden und der Community ermöglichen wir die Ausführung von Datenpipelines in verschiedenen Arbeitsbereichen. Sie können nun Pipelines aus anderen Arbeitsbereichen aufrufen, auf die Sie Zugriff haben. Dies ermöglicht sehr spannende Datenworkflowmuster, die die Zusammenarbeit von Ihren Datentechnik- und Integrationsteams über Arbeitsbereiche und funktionsübergreifende Teams hinweg nutzen können.

Ermöglichen, dass die Kundschaft ihre Verbindungen parametrisieren kann

Geschätzter Zeitplan für die Veröffentlichung: Q4 2024

Versionstyp: Öffentliche Vorschau

Verbindungen bieten einen gemeinsamen Rahmen für die Definition von Konnektivität und Authentifizierung für Ihre Datenspeicher. Diese Verbindungen können für verschiedene Elemente freigegeben werden. Mit der Parametrisierungsunterstützung können Sie komplexe und wiederverwendbare Pipelines, Notebooks, Dataflows und andere Elementtypen erstellen.

Verfügbare Features

Unterstützung der Datenpipeline für ereignisgesteuerte Trigger

Verfügbar (Q2 2024)

Versionstyp: Öffentliche Vorschau

Ein gängiger Anwendungsfall für den Aufruf von Data Factory-Datenpipelines ist das Auslösen der Pipeline bei Dateiereignissen wie dem Eintreffen einer Datei oder dem Löschen einer Datei. Für Kundinnen und Kunden, die von ADF oder Synapse zu Fabric wechseln, ist die Verwendung von ADLS/Blog-Speicherereignissen sehr üblich, um entweder eine neue Pipeline-Ausführung zu signalisieren oder die Namen der erstellten Dateien zu erfassen. Trigger in Fabric Data Factory nutzen die Fähigkeiten der Fabric-Plattform, einschließlich EventStreams und Reflex-Trigger. Im Design-Canvas der Data Factory-Pipeline von Fabric finden Sie eine Trigger-Schaltfläche, mit der Sie einen Reflex-Trigger für Ihre Pipeline erstellen können. Sie können den Trigger aber auch direkt aus Data Activator heraus erstellen.

Stagingstandardwerte für das Ausgabeziel von Dataflow Gen 2

Verfügbar (Q2 2024)

Versionstyp: Öffentliche Vorschau

Dataflow Gen2 bietet die Möglichkeit, Daten aus einer Vielzahl von Datenquellen in Fabric OneLake zu erfassen. Nach der Bereitstellung dieser Daten können sie mit der High-Scale Dataflows Gen2-Engine (basierend auf Fabric Lakehouse/Warehouse SQL Compute) im großen Maßstab transformiert werden.

Das Standardverhalten von Dataflows Gen2 besteht darin, Daten in OneLake bereitzustellen, um Datentransformationen in großem Maßstab zu ermöglichen. Dies funktioniert zwar hervorragend für umfangreiche Szenarien, aber nicht so gut für Szenarien mit kleinen Datenmengen, da es einen zusätzlichen Sprung (Staging) für die Daten einführt, bevor sie schließlich in das Ziel der Dataflowausgabe geladen werden.

Mit den geplanten Verbesserungen wird das standardmäßige Staging-Verhalten für Abfragen mit einem Ausgabeziel, das kein Staging erfordert (nämlich Fabric Lakehouse und Azure SQL Database), deaktiviert.

Das Staging-Verhalten kann für jede Abfrage manuell über den Bereich „Abfrageeinstellungen“ oder über das Kontextmenü der Abfrage im Bereich „Abfragen“ konfiguriert werden.

Unterstützung der Datenpipeline für SparkJobDefinition

Verfügbar (Q2 2024)

Versionstyp: Allgemeine Verfügbarkeit

Jetzt können Sie Ihren Spark-Code, einschließlich JAR-Dateien, direkt aus einer Pipelineaktivität ausführen. Verweisen Sie einfach auf Ihren Spark-Code, und die Pipeline führt den Auftrag auf Ihrem Spark-Cluster in Fabric aus. Diese neue Aktivität ermöglicht aufregende Datenworkflowmuster, die die Leistung der Spark-Engine von Fabric nutzen und gleichzeitig die Kontrollfluss- und Datenflussfunktionen der Data Factory in dieselbe Pipeline wie Ihre Spark-Aufträge integrieren.

Unterstützung der Datenpipeline für Azure HDInsight

Verfügbar (Q2 2024)

Versionstyp: Allgemeine Verfügbarkeit

HDInsight ist der Azure PaaS-Service für Hadoop, mit dem Entwickelnde sehr leistungsfähige Big Data-Lösungen in der Cloud erstellen können. Die neue HDI-Pipelineaktivität ermöglicht HDInsights-Auftrags-Aktivitäten innerhalb Ihrer Data Factory-Datenpipelines, ähnlich der bestehenden Funktionalität, die Sie seit Jahren in ADF- und Synapse-Pipelines nutzen. Wir haben diese Funktion jetzt direkt in die Fabric-Datenpipelines integriert.

Neue Connectors für Copy-Aktivität

Verfügbar (Q2 2024)

Versionstyp: Öffentliche Vorschau

Neue Connectors werden für Copy-Aktivität hinzugefügt, um der Kundschaft die Erfassung aus den folgenden Quellen zu ermöglichen, während sie die Datenpipeline nutzen: Oracle, MySQL, Azure KI-Suche, Azure Files, Dynamics AX und Google BigQuery.

Datenworkflows: Erstellen von Datenpipelines, die von Apache Airflow unterstützt werden

Verfügbar (Q2 2024)

Versionstyp: Öffentliche Vorschau

Datenworkflows werden von Apache Airflow unterstützt und bieten eine integrierte Apache Airflow-Laufzeitumgebung, mit der Sie mühelos Python-DAGs erstellen, ausführen und planen können.

Identitätsverwaltung für Datenquellen (SPN)

Verfügbar (Q2 2024)

Versionstyp: Allgemeine Verfügbarkeit

Dienstprinzipal: Um auf Ressourcen zuzugreifen, die durch einen Azure AD-Mandanten gesichert sind, muss die Entität, die Zugriff benötigt, durch einen Sicherheitsprinzipal dargestellt werden. Mit dem Dienstprinzipal können Sie eine Verbindung zu Ihren Datenquellen herstellen.

Verbesserungen der GET-Datenerfahrung (Durchsuchen von Azure-Ressourcen)

Verfügbar (Q1 2024)

Versionstyp: Öffentliche Vorschau

Die Azure-Ressourcensuche bietet eine nahtlose Navigation zum Durchsuchen von Azure-Ressourcen. Sie können ganz einfach in Ihren Azure-Abonnements navigieren und über eine intuitive Benutzeroberfläche eine Verbindung mit Ihren Datenquellen herstellen. Es hilft Ihnen, die benötigten Daten schnell zu finden und eine Verbindung zu ihnen herzustellen.

Datenpipelines wurden um die Unterstützung des lokalen Datengateways (OPDG) erweitert

Verfügbar (Q1 2024)

Versionstyp: Öffentliche Vorschau

Diese Funktion ermöglicht es Datenpipelines, Fabric-Datengateways zu verwenden, um auf Daten zuzugreifen, die sich vor Ort und hinter einem virtuellen Netzwerk befinden. Benutzende, die selbstgehostete Integration Runtimes (SHIR) verwenden, können in Fabric auf lokale Datengateways umsteigen.

Unterstützung der Schnellkopie in Dataflow Gen2

Verfügbar (Q1 2024)

Versionstyp: Öffentliche Vorschau

Wir fügen Unterstützung für die Aufnahme großer Datenmengen direkt in Dataflow Gen2 hinzu, indem wir die Pipeline-Funktion „Copy-Aktivität“ nutzen. Dies unterstützt Quellen wie Azure SQL-Datenbanken, CSV- und Parquet-Dateien in Azure Data Lake Storage und Blob Storage.

Diese Erweiterung erhöht die Datenverarbeitungskapazität von Dataflow Gen2 erheblich und bietet ELT-Funktionen (Extract-Load-Transform) in großem Umfang.

Git-Integration von Data Factory für Datenpipelines

Verfügbar (Q1 2024)

Versionstyp: Öffentliche Vorschau

Sie können eine Verbindung zu Ihrem Git-Repository herstellen, um Datenpipelines in Zusammenarbeit zu entwickeln. Die Integration von Datenpipelines mit der ALM-Funktion (Application Lifecycle Management) der Fabric-Plattform ermöglicht Versionskontrolle, Verzweigungen, Commits und Pull Requests.

Erweiterungen der Ausgabeziele in Dataflow Gen2 (Abfrageschema)

Verfügbar (Q1 2024)

Versionstyp: Öffentliche Vorschau

Wir erweitern die Ausgabeziele in Dataflow Gen2 um die folgenden stark nachgefragten Funktionen:

  • Möglichkeit zum Behandeln von Abfrageschema-Änderungen nach dem Konfigurieren eines Ausgabeziels.
  • Standardzieleinstellungen zum Beschleunigen der Dataflowerstellung.

Weitere Informationen finden Sie unter Datenziele und verwaltete Einstellungen zu Dataflow Gen2

Abbrechen der Aktualisierungsunterstützung in Dataflow Gen2

Verfügbar (Q4 2023)

Versionstyp: Öffentliche Vorschau

Wir fügen Unterstützung für das Abbrechen laufender Dataflow Gen2-Aktualisierungen aus der Ansicht der Arbeitsbereichselemente hinzu.