Neuerungen und Planungen für Data Factory in Microsoft Fabric
Wichtig
In den Freigabeplänen werden Funktionen beschrieben, die möglicherweise noch nicht freigegeben wurden. Die Liefer-Zeitachsen und die geplante Funktion können sich ändern oder werden möglicherweise nicht geliefert. Weitere Informationen finden Sie unter Microsoft-Richtlinie.
Data Factory in Microsoft Fabric vereint die Fähigkeiten zur Datenintegration sowohl für Citizen Developer als auch für professionelle Entwickelnde in einer einzigen, modernen Datenintegrationslösung. Es bietet Konnektivität zu mehr als 100 relationalen und nicht-relationalen Datenbanken, Lakehouses, Data Warehouses, generischen Schnittstellen wie REST-APIs, OData und mehr.
Dataflows: Dataflow Gen2 ermöglicht es Ihnen, umfangreiche Datentransformationen durchzuführen und verschiedene Ausgabeziele zu unterstützen, die in Azure SQL-Datenbank, Lakehouse, Data Warehouse und mehr speichern. Der Dataflows-Editor bietet mehr als 300 Transformationen, einschließlich KI-basierter Optionen, und ermöglicht Ihnen das einfache Transformieren von Daten mit besserer Flexibilität als jedes andere Tool. Unabhängig davon, ob Sie Daten aus einer unstrukturierten Datenquelle wie einer Webseite extrahieren oder eine vorhandene Tabelle im Power Query-Editor umgestalten, können Sie die Power Query-Funktion „Data Extraction By Example“ (Datenextraktion anhand von Beispielen) verwenden, die künstliche Intelligenz (KI) nutzt und so den Prozess vereinfacht.
Datenpipelines: Datenpipelines bieten die Möglichkeit, vielseitige Workflows zur Datenorchestrierung zu erstellen, die Aufgaben wie die Extraktion von Daten, das Laden in bevorzugte Datenspeicher, die Ausführung von Notebooks, die Ausführung von SQL-Skripten und vieles mehr zusammenführen. Sie können schnell leistungsstarke metadatengesteuerte Datenpipelines erstellen, die sich wiederholende Aufgaben automatisieren. Beispielsweise das Laden und Extrahieren von Daten aus verschiedenen Tabellen in einer Datenbank, das Durchlaufen mehrerer Container in Azure Blob Storage und vieles mehr. Außerdem können Sie mit Datenpipelines über den Connector von Microsoft Graph Data Connection (MGDC) auf die Daten von Microsoft 365 zugreifen.
Weitere Informationen finden Sie in der Dokumentation.
Schwerpunkte
In den nächsten Monaten wird Data Factory in Microsoft Fabric seine Konnektivitätsoptionen erweitern und die umfangreiche Bibliothek an Transformationen und Datenpipelineaktivitäten weiter ausbauen. Darüber hinaus können Sie die Echtzeit-, Hochleistungsdatenreplikation aus betriebstechnischen Datenbanken durchführen und diese Daten zur Analyse in den Lake einzuspeisen.
Copilot für Data Factory (Dataflow)
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Allgemeine Verfügbarkeit
Copilot für Data Factory (Dataflow) ermöglicht Kundinnen und Kunden, ihre Anforderungen bei der Erstellung von Datenintegrationslösungen mit Dataflows Gen2 in natürlicher Sprache auszudrücken.
Unterstützung der inkrementellen Aktualisierung in Dataflow Gen2
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Öffentliche Vorschau
Wir fügen in Dataflow Gen2 Unterstützung für inkrementelle Aktualisierungen hinzu. Mit diesem Feature können Sie schrittweise Daten aus Datenquellen extrahieren, Power Query-Transformationen anwenden und in verschiedene Ausgabeziele laden.
Datenpipelineunterstützung für DBT CLI
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Öffentliche Vorschau
DBT CLI Orchestration (Data Build Tool): Integriert das Datenbuildtool (dbt) für Datentransformationsworkflows.
Unterstützung der Datenpipeline für Azure Databricks-Aufträge
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Öffentliche Vorschau
Wir aktualisieren die Data Factory-Datenpipelines für Azure Databricks-Aktivitäten, um jetzt die neueste Auftrags-API zu verwenden, die spannende Workflowfunktionen wie das Ausführen von DLT-Aufträgen ermöglicht.
Unterstützung der Schnellkopie in Dataflow Gen2
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Allgemeine Verfügbarkeit
Wir fügen Unterstützung für die Aufnahme großer Datenmengen direkt in Dataflow Gen2 hinzu, indem wir die Pipeline-Funktion „Copy-Aktivität“ nutzen. Diese Erweiterung erhöht die Datenverarbeitungskapazität von Dataflow Gen2 erheblich und bietet ELT-Funktionen (Extract-Load-Transform) in großem Umfang.
Kopierauftrag
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Öffentliche Vorschau
Der Kopierauftrag vereinfacht die Benutzererfahrung für Kunden und Kundinnen, die Daten erfassen wollen, ohne einen Dataflow oder eine Datenpipeline erstellen zu müssen. Der Kopierauftrag unterstützt vollständige und inkrementelle Kopien aus beliebigen Datenquellen zu beliebigen Datenzielen. Jetzt für die private Vorschau registrieren
Copilot für Data Factory (Datenpipeline)
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Öffentliche Vorschau
Copilot für Data Factory (Datenpipeline) ermöglicht es Kundschaft, Datenpipelines mit natürlicher Sprache zu erstellen und bietet Anleitungen zur Problembehandlung.
Verbesserte E-Mail-Benachrichtigungen für Aktualisierungsfehler
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Öffentliche Vorschau
E-Mail-Benachrichtigungen ermöglichen es Dataflow Gen2-Erstellenden, die Ergebnisse (Erfolg/Fehler) des Aktualisierungsvorgangs eines Dataflows zu überwachen.
Identitätsverwaltung für Datenquellen (verwaltete Identität)
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Öffentliche Vorschau
Dies ermöglicht die Konfiguration von verwalteten Identitäten auf Arbeitsbereichsebene. Sie können die von Fabric verwalteten Identitäten verwenden, um eine sichere Verbindung mit Ihrer Datenquelle herzustellen.
Identitätsverwaltung für Datenquellen (Azure Key Vault)
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Öffentliche Vorschau
Unterstützung für Azure Key Vault: Sie können Ihre Schlüssel und Geheimnisse in Azure Key Vault speichern und eine Verbindung damit herstellen. Auf diese Weise können Sie Ihre Schlüssel an einem zentralen Ort verwalten.
Unterstützung für das Aufrufen von arbeitsbereichsübergreifenden Datenpipelines
Geschätzter Zeitplan für die Veröffentlichung: Q3 2024
Versionstyp: Öffentliche Vorschau
Aktualisierung der Aktivität zum Aufrufen von Pipelines: Wir ermöglichen einige neue und aufregende Aktualisierungen der Aktivität „Pipeline aufrufen“. Als Reaktion auf die überwältigenden Anfragen von Kundinnen und Kunden und der Community ermöglichen wir die Ausführung von Datenpipelines in verschiedenen Arbeitsbereichen. Sie können nun Pipelines aus anderen Arbeitsbereichen aufrufen, auf die Sie Zugriff haben. Dies ermöglicht sehr spannende Datenworkflowmuster, die die Zusammenarbeit von Ihren Datentechnik- und Integrationsteams über Arbeitsbereiche und funktionsübergreifende Teams hinweg nutzen können.
Ermöglichen, dass die Kundschaft ihre Verbindungen parametrisieren kann
Geschätzter Zeitplan für die Veröffentlichung: Q4 2024
Versionstyp: Öffentliche Vorschau
Verbindungen bieten einen gemeinsamen Rahmen für die Definition von Konnektivität und Authentifizierung für Ihre Datenspeicher. Diese Verbindungen können für verschiedene Elemente freigegeben werden. Mit der Parametrisierungsunterstützung können Sie komplexe und wiederverwendbare Pipelines, Notebooks, Dataflows und andere Elementtypen erstellen.
Verfügbare Features
Unterstützung der Datenpipeline für ereignisgesteuerte Trigger
Verfügbar (Q2 2024)
Versionstyp: Öffentliche Vorschau
Ein gängiger Anwendungsfall für den Aufruf von Data Factory-Datenpipelines ist das Auslösen der Pipeline bei Dateiereignissen wie dem Eintreffen einer Datei oder dem Löschen einer Datei. Für Kundinnen und Kunden, die von ADF oder Synapse zu Fabric wechseln, ist die Verwendung von ADLS/Blog-Speicherereignissen sehr üblich, um entweder eine neue Pipeline-Ausführung zu signalisieren oder die Namen der erstellten Dateien zu erfassen. Trigger in Fabric Data Factory nutzen die Fähigkeiten der Fabric-Plattform, einschließlich EventStreams und Reflex-Trigger. Im Design-Canvas der Data Factory-Pipeline von Fabric finden Sie eine Trigger-Schaltfläche, mit der Sie einen Reflex-Trigger für Ihre Pipeline erstellen können. Sie können den Trigger aber auch direkt aus Data Activator heraus erstellen.
Stagingstandardwerte für das Ausgabeziel von Dataflow Gen 2
Verfügbar (Q2 2024)
Versionstyp: Öffentliche Vorschau
Dataflow Gen2 bietet die Möglichkeit, Daten aus einer Vielzahl von Datenquellen in Fabric OneLake zu erfassen. Nach der Bereitstellung dieser Daten können sie mit der High-Scale Dataflows Gen2-Engine (basierend auf Fabric Lakehouse/Warehouse SQL Compute) im großen Maßstab transformiert werden.
Das Standardverhalten von Dataflows Gen2 besteht darin, Daten in OneLake bereitzustellen, um Datentransformationen in großem Maßstab zu ermöglichen. Dies funktioniert zwar hervorragend für umfangreiche Szenarien, aber nicht so gut für Szenarien mit kleinen Datenmengen, da es einen zusätzlichen Sprung (Staging) für die Daten einführt, bevor sie schließlich in das Ziel der Dataflowausgabe geladen werden.
Mit den geplanten Verbesserungen wird das standardmäßige Staging-Verhalten für Abfragen mit einem Ausgabeziel, das kein Staging erfordert (nämlich Fabric Lakehouse und Azure SQL Database), deaktiviert.
Das Staging-Verhalten kann für jede Abfrage manuell über den Bereich „Abfrageeinstellungen“ oder über das Kontextmenü der Abfrage im Bereich „Abfragen“ konfiguriert werden.
Unterstützung der Datenpipeline für SparkJobDefinition
Verfügbar (Q2 2024)
Versionstyp: Allgemeine Verfügbarkeit
Jetzt können Sie Ihren Spark-Code, einschließlich JAR-Dateien, direkt aus einer Pipelineaktivität ausführen. Verweisen Sie einfach auf Ihren Spark-Code, und die Pipeline führt den Auftrag auf Ihrem Spark-Cluster in Fabric aus. Diese neue Aktivität ermöglicht aufregende Datenworkflowmuster, die die Leistung der Spark-Engine von Fabric nutzen und gleichzeitig die Kontrollfluss- und Datenflussfunktionen der Data Factory in dieselbe Pipeline wie Ihre Spark-Aufträge integrieren.
Unterstützung der Datenpipeline für Azure HDInsight
Verfügbar (Q2 2024)
Versionstyp: Allgemeine Verfügbarkeit
HDInsight ist der Azure PaaS-Service für Hadoop, mit dem Entwickelnde sehr leistungsfähige Big Data-Lösungen in der Cloud erstellen können. Die neue HDI-Pipelineaktivität ermöglicht HDInsights-Auftrags-Aktivitäten innerhalb Ihrer Data Factory-Datenpipelines, ähnlich der bestehenden Funktionalität, die Sie seit Jahren in ADF- und Synapse-Pipelines nutzen. Wir haben diese Funktion jetzt direkt in die Fabric-Datenpipelines integriert.
Neue Connectors für Copy-Aktivität
Verfügbar (Q2 2024)
Versionstyp: Öffentliche Vorschau
Neue Connectors werden für Copy-Aktivität hinzugefügt, um der Kundschaft die Erfassung aus den folgenden Quellen zu ermöglichen, während sie die Datenpipeline nutzen: Oracle, MySQL, Azure KI-Suche, Azure Files, Dynamics AX und Google BigQuery.
Datenworkflows: Erstellen von Datenpipelines, die von Apache Airflow unterstützt werden
Verfügbar (Q2 2024)
Versionstyp: Öffentliche Vorschau
Datenworkflows werden von Apache Airflow unterstützt und bieten eine integrierte Apache Airflow-Laufzeitumgebung, mit der Sie mühelos Python-DAGs erstellen, ausführen und planen können.
Identitätsverwaltung für Datenquellen (SPN)
Verfügbar (Q2 2024)
Versionstyp: Allgemeine Verfügbarkeit
Dienstprinzipal: Um auf Ressourcen zuzugreifen, die durch einen Azure AD-Mandanten gesichert sind, muss die Entität, die Zugriff benötigt, durch einen Sicherheitsprinzipal dargestellt werden. Mit dem Dienstprinzipal können Sie eine Verbindung zu Ihren Datenquellen herstellen.
Verbesserungen der GET-Datenerfahrung (Durchsuchen von Azure-Ressourcen)
Verfügbar (Q1 2024)
Versionstyp: Öffentliche Vorschau
Die Azure-Ressourcensuche bietet eine nahtlose Navigation zum Durchsuchen von Azure-Ressourcen. Sie können ganz einfach in Ihren Azure-Abonnements navigieren und über eine intuitive Benutzeroberfläche eine Verbindung mit Ihren Datenquellen herstellen. Es hilft Ihnen, die benötigten Daten schnell zu finden und eine Verbindung zu ihnen herzustellen.
Datenpipelines wurden um die Unterstützung des lokalen Datengateways (OPDG) erweitert
Verfügbar (Q1 2024)
Versionstyp: Öffentliche Vorschau
Diese Funktion ermöglicht es Datenpipelines, Fabric-Datengateways zu verwenden, um auf Daten zuzugreifen, die sich vor Ort und hinter einem virtuellen Netzwerk befinden. Benutzende, die selbstgehostete Integration Runtimes (SHIR) verwenden, können in Fabric auf lokale Datengateways umsteigen.
Unterstützung der Schnellkopie in Dataflow Gen2
Verfügbar (Q1 2024)
Versionstyp: Öffentliche Vorschau
Wir fügen Unterstützung für die Aufnahme großer Datenmengen direkt in Dataflow Gen2 hinzu, indem wir die Pipeline-Funktion „Copy-Aktivität“ nutzen. Dies unterstützt Quellen wie Azure SQL-Datenbanken, CSV- und Parquet-Dateien in Azure Data Lake Storage und Blob Storage.
Diese Erweiterung erhöht die Datenverarbeitungskapazität von Dataflow Gen2 erheblich und bietet ELT-Funktionen (Extract-Load-Transform) in großem Umfang.
Git-Integration von Data Factory für Datenpipelines
Verfügbar (Q1 2024)
Versionstyp: Öffentliche Vorschau
Sie können eine Verbindung zu Ihrem Git-Repository herstellen, um Datenpipelines in Zusammenarbeit zu entwickeln. Die Integration von Datenpipelines mit der ALM-Funktion (Application Lifecycle Management) der Fabric-Plattform ermöglicht Versionskontrolle, Verzweigungen, Commits und Pull Requests.
Erweiterungen der Ausgabeziele in Dataflow Gen2 (Abfrageschema)
Verfügbar (Q1 2024)
Versionstyp: Öffentliche Vorschau
Wir erweitern die Ausgabeziele in Dataflow Gen2 um die folgenden stark nachgefragten Funktionen:
- Möglichkeit zum Behandeln von Abfrageschema-Änderungen nach dem Konfigurieren eines Ausgabeziels.
- Standardzieleinstellungen zum Beschleunigen der Dataflowerstellung.
Weitere Informationen finden Sie unter Datenziele und verwaltete Einstellungen zu Dataflow Gen2
Abbrechen der Aktualisierungsunterstützung in Dataflow Gen2
Verfügbar (Q4 2023)
Versionstyp: Öffentliche Vorschau
Wir fügen Unterstützung für das Abbrechen laufender Dataflow Gen2-Aktualisierungen aus der Ansicht der Arbeitsbereichselemente hinzu.