Was ist Data Wrangling?

2024-07-31

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

Data Wrangling umfasst das Transformieren und Neuformatieren von Daten aus der ursprünglichen Quelle, um sie für verschiedene nachgeschaltete Anwendungen besser geeignet und nützlicher zu machen.

Organisationen müssen in der Lage sein, Ihre wichtigen Geschäftsdaten für die Datenaufbereitung und das Wrangling zu untersuchen, um eine exakte Analyse komplexer Daten zu ermöglichen, die täglich weiter anwachsen. Die Datenaufbereitung ist erforderlich, damit Organisationen die Daten in verschiedenen Geschäftsprozessen verwenden und die Amortisationszeit verkürzen können.

Data Factory ermöglicht Ihnen das iterative Vorbereiten von Daten ohne Code für die Cloud mithilfe von Power Query. Data Factory kann in Power Query Online integriert werden und stellt Power Query M-Funktionen als eine Pipelineaktivität bereit.

Data Factory übersetzt M-Code, der vom Power Query Online-Mashup-Editor generiert wird, in Spark-Code für die Cloudskalierungsausführung. Dazu wird M-Code in Azure Data Factory-Datenflüsse übersetzt. Das Wrangling von Daten mit Power Query und Datenflüsse sind besonders nützlich für Datentechniker oder für Datenintegratoren ohne Programmiererfahrung.

Anwendungsfälle

Schnelle interaktive Untersuchung und Aufbereitung von Daten

Mehrere Datentechniker und Datenintegratoren ohne Programmiererfahrung können Datasets in der Cloud interaktiv untersuchen und aufbereiten. Mit zunehmender Menge, Vielfalt und Geschwindigkeit der Daten in Data Lakes benötigen Benutzer eine effektive Möglichkeit zum Untersuchen und Aufbereiten von Datasets. Beispielsweise müssen Sie möglicherweise ein Dataset erstellen, das über alle demografischen Informationen zu neuen Kunden seit 2017 verfügt. Sie nehmen keine Zuordnung zu einem bekannten Ziel vor. Vor dem Veröffentlichen im Lake unterziehen Sie Datasets der Untersuchung, dem Wrangling und der Aufbereitung, damit sie eine Anforderung erfüllen. Wrangling wird häufig für weniger formale Analyseszenarien verwendet. Die aufbereiteten Datasets können für Downstreamtransformationen und -Machine Learning-Vorgänge verwendet werden.

Codefreie agile Datenaufbereitung

Die Datenintegratoren ohne Programmiererfahrung verbringen mehr als 60 % ihrer Zeit mit dem Suchen nach und Aufbereiten von Daten. Sie versuchen, dies ohne Code durchzuführen, um die operative Produktivität zu verbessern. Indem Datenintegratoren ohne Programmiererfahrung die Möglichkeit erhalten, Daten mit bekannten Tools wie Power Query Online skalierbar zu erweitern, zu strukturieren und zu veröffentlichen, wird ihre Produktivität erheblich verbessert. Das Wrangling in Azure Data Factory aktiviert den vertrauten Power Query Online-Mashup-Editor, damit Datenintegratoren ohne Programmiererfahrung schnell Fehler beheben, Daten standardisieren und qualitativ hochwertige Daten zur Unterstützung von Geschäftsentscheidungen produzieren können.

Datenüberprüfung und -untersuchung

Überprüfen Sie Ihre Daten visuell ohne Code, um alle Ausreißer sowie Anomalien zu entfernen und sie in eine Form zu bringen, die eine schnelle Analyse ermöglicht.

Unterstützte Quellen

Connector	Datenformat	Authentifizierungsart
Azure Blob Storage	CSV, Parquet, Excel	Kontoschlüssel, Dienstprinzipal, MSI
Azure Data Lake Storage Gen1	CSV, Parquet, Excel	Dienstprinzipal, MSI
Azure Data Lake Storage Gen2	CSV, Parquet, Excel	Kontoschlüssel, Dienstprinzipal, MSI
Azure SQL-Datenbank	-	SQL-Authentifizierung, MSI, Dienstprinzipal
Azure Synapse Analytics	-	SQL-Authentifizierung, MSI, Dienstprinzipal

Mashup-Editor

Wenn Sie eine Power Query-Aktivität erstellen, werden alle Quelldatasets zu Datasetabfragen, die im Ordner ADFResource platziert werden. Standardmäßig zeigt die UserQuery auf die erste Datasetabfrage. Alle Transformationen sind für die UserQuery durchzuführen, da Änderungen an Datasetabfragen weder unterstützt noch beibehalten werden. Das Umbenennen, Hinzufügen und Löschen von Abfragen werden derzeit nicht unterstützt.

Wrangling

Derzeit werden nicht alle Power Query M-Funktionen für Data Wrangling unterstützt, obwohl sie während der Erstellung verfügbar sind. Beim Erstellen von Power Query-Aktivitäten wird die folgende Fehlermeldung angezeigt, wenn eine Funktion nicht unterstützt wird:

The Power Query Spark Runtime does not support the function

Weitere Informationen zu unterstützten Transformationen finden Sie unter den Data Wrangling-Funktionen in Power Query.

Erfahren Sie, wie Sie ein Data Wrangling für Power Query-Mashups erstellen.

Freigeben über