Wat zijn gegevens wrangling?
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
Gegevens wrangling omvat het transformeren en opnieuw opmaken van gegevens uit de oorspronkelijke bron om deze geschikter en nuttiger te maken voor verschillende downstreamtoepassingen.
Organisaties moeten de mogelijkheid hebben om hun kritieke bedrijfsgegevens te verkennen voor gegevensvoorbereiding en wrangling om een nauwkeurige analyse van complexe gegevens te bieden die elke dag blijven groeien. Gegevensvoorbereiding is vereist, zodat organisaties de gegevens in verschillende bedrijfsprocessen kunnen gebruiken en de tijd tot waarde kunnen verminderen.
Data Factory biedt u de mogelijkheid om gegevens zonder code op iteratief te schalen op cloudschaal met behulp van Power Query. Data Factory is geïntegreerd met Power Query Online en maakt Power Query M-functies beschikbaar als pijplijnactiviteit.
Data Factory vertaalt M die is gegenereerd door de Power Query Online Mashup-editor in spark-code voor uitvoering van cloudschaal door M te vertalen naar Azure Data Factory-Gegevensstroom s. Wrangling van gegevens met Power Query en gegevensstromen zijn vooral handig voor data engineers of 'citizen data integrators'.
Gebruiksgevallen
Snelle interactieve gegevensverkenning en -voorbereiding
Meerdere data engineers en burgergegevensintegrators kunnen gegevenssets interactief verkennen en voorbereiden op cloudschaal. Door de toename van het volume, de verscheidenheid en de snelheid van gegevens in data lakes hebben gebruikers een effectieve manier nodig om gegevenssets te verkennen en voor te bereiden. Mogelijk moet u bijvoorbeeld een gegevensset maken met 'alle demografische gegevens van klanten voor nieuwe klanten sinds 2017'. U wordt niet toegewezen aan een bekend doel. U verkent, wrangt en voorbereidt gegevenssets om te voldoen aan een vereiste voordat u deze publiceert in de lake. Wrangling wordt vaak gebruikt voor minder formele analysescenario's. De vooraf gemaakte gegevenssets kunnen worden gebruikt voor het uitvoeren van transformaties en machine learning-bewerkingen downstream.
Flexibele gegevensvoorbereiding zonder code
Burgergegevensintegrators besteden meer dan 60% van hun tijd aan het zoeken en voorbereiden van gegevens. Ze willen dit op een gratis manier doen om de operationele productiviteit te verbeteren. Door burgergegevensintegrators toe te staan om gegevens te verrijken, vorm te geven en te publiceren met behulp van bekende hulpprogramma's zoals Power Query Online, verbetert ze hun productiviteit drastisch. Met Wrangling in Azure Data Factory kan de vertrouwde Mashup-editor van Power Query Online ervoor zorgen dat burgergegevensintegrators snel fouten kunnen oplossen, gegevens standaardiseren en gegevens van hoge kwaliteit kunnen produceren om zakelijke beslissingen te ondersteunen.
Gegevensvalidatie en -verkenning
Scan uw gegevens visueel op een codevrije manier om uitbijters, afwijkingen te verwijderen en deze te conformeren aan een vorm voor snelle analyses.
Ondersteunde bronnen
Connector | Gegevensopmaak | Authentication type |
---|---|---|
Azure Blob-opslag | CSV, Parquet, Excel | Accountsleutel, service-principal, MSI |
Azure Data Lake Storage Gen1 | CSV, Parquet, Excel | Service-principal, MSI |
Azure Data Lake Storage Gen2 | CSV, Parquet, Excel | Accountsleutel, service-principal, MSI |
Azure SQL-database | - | SQL-verificatie, MSI, service-principal |
Azure Synapse Analytics | - | SQL-verificatie, MSI, service-principal |
De mashup-editor
Wanneer u een Power Query-activiteit maakt, worden alle brongegevenssets gegevenssetquery's en geplaatst in de map ADFResource . UserQuery verwijst standaard naar de eerste gegevenssetquery. Alle transformaties moeten op de UserQuery worden uitgevoerd omdat wijzigingen in gegevenssetquery's niet worden ondersteund en niet worden behouden. Het wijzigen van de naam, het toevoegen en verwijderen van query's wordt momenteel niet ondersteund.
Momenteel worden niet alle Power Query M-functies ondersteund voor gegevens wrangling ondanks dat ze beschikbaar zijn tijdens het ontwerpen. Tijdens het bouwen van uw Power Query-activiteiten wordt u gevraagd om het volgende foutbericht als een functie niet wordt ondersteund:
The Power Query Spark Runtime does not support the function
Zie Power Query-functies voor het wrangling-gebruik van Power Query-functies voor meer informatie over ondersteunde transformaties.
Gerelateerde inhoud
Meer informatie over het maken van een power query-mash-up van gegevens.