VAN TOEPASSING OP: Azure Data Factory
Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
Dit artikel bevat antwoorden op veelgestelde vragen over Azure Data Factory.
Wat is Azure Data Factory?
Data Factory is een volledig beheerde, cloudgebaseerde ETL-service voor gegevensintegratie waarmee de verplaatsing en transformatie van gegevens wordt geautomatiseerd. Net als een fabriek waarop apparatuur wordt uitgevoerd om grondstoffen om te zetten in afgewerkte goederen, organiseert Azure Data Factory bestaande services die onbewerkte gegevens verzamelen en transformeren in kant-en-klare informatie.
Met behulp van Azure Data Factory kunt u gegevensgestuurde werkstromen maken om gegevens te verplaatsen tussen on-premises en cloudgegevensarchieven. En u kunt gegevens verwerken en transformeren met Gegevensstroom s. ADF biedt ook ondersteuning voor externe compute-engines voor handgecodeerde transformaties met behulp van rekenservices zoals Azure HDInsight, Azure Databricks en de SSIS-integratieruntime (SQL Server Integration Services).
Met Data Factory kunt u uw gegevensverwerking uitvoeren op een azure-cloudservice of in uw eigen zelf-hostende rekenomgeving, zoals SSIS, SQL Server of Oracle. Nadat u een pijplijn hebt gemaakt die de gewenste actie uitvoert, kunt u plannen dat deze periodiek wordt uitgevoerd (bijvoorbeeld per uur, dagelijks of wekelijks), het plannen van tijdvensters of het activeren van de pijplijn vanaf een gebeurtenis. Zie voor meer informatie Inleiding tot Azure Data Factory.
Nalevings- en beveiligingsoverwegingen
Azure Data Factory is gecertificeerd voor een reeks nalevingscertificeringen, waaronder SOC 1, 2, 3, HIPAA BAA en HITRUST. Hier vindt u een volledige en groeiende lijst met certificeringen. Digitale kopieën voor controlerapporten en nalevingscertificeringen vindt u in het Service Trust Center
Stromen beheren en schalen
Data Factory maakt flexibele modellering van gegevenspijplijnen mogelijk om de diverse integratiestromen en patronen in het moderne datawarehouse te ondersteunen. Dit omvat volledige controlestroomprogrammeringsparadigma's, waaronder voorwaardelijke uitvoering, vertakking in gegevenspijplijnen en de mogelijkheid om expliciet parameters binnen en over deze stromen door te geven. Controlestroom omvat ook het transformeren van gegevens via activiteitsverzending naar externe uitvoeringsengines en mogelijkheden voor gegevensstromen, waaronder gegevensverplaatsing op schaal, via de Copy-activiteit.
Data Factory biedt vrijheid om elke stroomstijl te modelleren die vereist is voor gegevensintegratie en die op aanvraag of herhaaldelijk volgens een schema kunnen worden verzonden. Enkele algemene stromen die door dit model worden ingeschakeld, zijn:
- Besturingsstromen:
- Activiteiten kunnen in een reeks in een pijplijn worden gekoppeld.
- Activiteiten kunnen worden vertakt binnen een pijplijn.
- Parameters:
- Parameters kunnen worden gedefinieerd op pijplijnniveau en argumenten kunnen worden doorgegeven terwijl u de pijplijn op aanvraag of vanuit een trigger aanroept.
- Activiteiten kunnen de argumenten die zijn doorgegeven aan de pijplijn gebruiken.
- Aangepaste status doorgeven:
- Activiteitsuitvoer, inclusief status, kan worden gebruikt door een volgende activiteit in de pijplijn.
- Containers herhalen:
- De foreach-activiteit wordt herhaald over een opgegeven verzameling activiteiten in een lus.
- Op triggers gebaseerde stromen:
- Pijplijnen kunnen op aanvraag worden geactiveerd, op wandkloktijd of in reactie op Event Grid-onderwerpen
- Delta-stromen:
- Parameters kunnen worden gebruikt om uw hoogwatermarkering te definiëren voor deltakopie tijdens het verplaatsen van dimensie- of referentietabellen uit een relationeel archief, on-premises of in de cloud, om de gegevens in het meer te laden.
Zie Zelfstudie: Stromen beheren voor meer informatie.
Gegevens die op schaal zijn getransformeerd met pijplijnen zonder code
De nieuwe browserhulpprogramma's bieden codevrije pijplijncreatie en -implementatie met een moderne, interactieve webgebaseerde ervaring.
Voor ontwikkelaars van visuele gegevens en data engineers is de webgebruikersinterface van Data Factory de ontwerpomgeving zonder code die u gaat gebruiken om pijplijnen te bouwen. Het is volledig geïntegreerd met Visual Studio Codespace Git en biedt integratie voor CI/CD en iteratieve ontwikkeling met foutopsporingsopties.
Uitgebreide platformoverschrijdende SDK's voor geavanceerde gebruikers
Data Factory V2 biedt een uitgebreide set SDK's die kunnen worden gebruikt voor het ontwerpen, beheren en bewaken van pijplijnen met behulp van uw favoriete IDE, waaronder:
- Python SDK
- PowerShell CLI
- C# SDK
Gebruikers kunnen ook de gedocumenteerde REST API's gebruiken om te interfacen met Data Factory V2.
Iteratieve ontwikkeling en foutopsporing met behulp van visuele hulpprogramma's
Visualhulpprogramma's van Azure Data Factory maken iteratieve ontwikkeling en foutopsporing mogelijk. U kunt uw pijplijnen maken en testuitvoeringen uitvoeren met behulp van de foutopsporingsfunctie in het pijplijncanvas zonder één regel code te schrijven. U kunt de resultaten van de testuitvoeringen bekijken in het uitvoervenster van uw pijplijncanvas. Nadat de testuitvoering is voltooid, kunt u meer activiteiten toevoegen aan uw pijplijn en doorgaan met foutopsporing op een iteratieve manier. U kunt de testuitvoeringen ook annuleren nadat ze in uitvoering zijn.
U hoeft uw wijzigingen niet te publiceren in de data factory-service voordat u Foutopsporing selecteert. Dit is handig in scenario's waarin u ervoor wilt zorgen dat de nieuwe toevoegingen of wijzigingen werken zoals verwacht voordat u uw data factory-werkstromen bijwerkt in ontwikkel-, test- of productieomgevingen.
Mogelijkheid om SSIS-pakketten te implementeren in Azure
Als u uw SSIS-workloads wilt verplaatsen, kunt u een Data Factory maken en een Azure-SSIS Integration Runtime inrichten. Een Azure-SSIS Integration Runtime is een volledig beheerd cluster van Azure-VM's (knooppunten) die zijn toegewezen voor het uitvoeren van uw SSIS-pakketten in de cloud. Zie de zelfstudie SSIS-pakketten implementeren in Azure voor stapsgewijze instructies.
SDK's
Als u een geavanceerde gebruiker bent en op zoek bent naar een programmatische interface, biedt Data Factory een uitgebreide set SDK's die u kunt gebruiken om pijplijnen te ontwerpen, beheren of bewaken met behulp van uw favoriete IDE. Taalondersteuning omvat .NET, PowerShell, Python en REST.
Controleren
U kunt uw data factory's bewaken via PowerShell, SDK of visual monitoring tools in de gebruikersinterface van de browser. U kunt aangepaste stromen op aanvraag, triggers en klokgestuurde aangepaste stromen op een efficiënte en effectieve manier bewaken en beheren. Bestaande taken annuleren, fouten in één oogopslag bekijken, inzoomen om gedetailleerde foutberichten op te halen en de problemen op te sporen, allemaal vanuit één venster zonder contextoverschakeling of heen en weer navigeren tussen schermen.
Nieuwe functies voor SSIS in Data Factory
Sinds de eerste openbare preview-release in 2017 heeft Data Factory de volgende functies toegevoegd voor SSIS:
- Ondersteuning voor drie configuraties/varianten van Azure SQL Database voor het hosten van de SSIS-database (SSISDB) van projecten/pakketten:
- SQL Database met service-eindpunten voor virtuele netwerken
- SQL Managed Instance
- Elastische pool
- Ondersteuning voor een virtueel Azure Resource Manager-netwerk boven op een klassiek virtueel netwerk dat in de toekomst wordt afgeschaft, zodat u uw Azure-SSIS Integration Runtime kunt injecteren/koppelen aan een virtueel netwerk dat is geconfigureerd voor SQL Database met service-eindpunten voor virtuele netwerken/MI/on-premises gegevenstoegang. Zie ook Een Azure-SSIS Integration Runtime toevoegen aan een virtueel netwerk voor meer informatie.
- Ondersteuning voor Microsoft Entra-verificatie en SQL-verificatie om verbinding te maken met de SSISDB, waardoor Microsoft Entra-verificatie met uw door Data Factory beheerde identiteit voor Azure-resources wordt toegestaan
- Ondersteuning voor het brengen van uw bestaande SQL Server-licentie om aanzienlijke kostenbesparingen te verdienen met de optie Azure Hybrid Benefit
- Ondersteuning voor Enterprise Edition van de Azure-SSIS Integration Runtime waarmee u geavanceerde/premium-functies, een aangepaste installatie-interface kunt gebruiken om extra onderdelen/extensies en een partnerecosysteem te installeren. Zie ook Enterprise Edition, Custom Setup en uitbreidingsmogelijkheden van derden voor SSIS in ADF voor meer informatie.
- Diepere integratie van SSIS in Data Factory waarmee u eersteklas SSIS-pakketactiviteiten kunt aanroepen/activeren in Data Factory-pijplijnen en deze via SSMS kunt plannen. Zie ook Uw ETL/ELT-werkstromen moderniseren en uitbreiden met SSIS-activiteiten in ADF-pijplijnen voor meer informatie.
Wat is de Integration Runtime?
De integratieruntime is de rekeninfrastructuur die Azure Data Factory gebruikt om de volgende mogelijkheden voor gegevensintegratie in verschillende netwerkomgevingen te bieden:
- Gegevensverplaatsing: Voor gegevensverplaatsing verplaatst de integratieruntime de gegevens tussen de bron- en doelgegevensarchieven en biedt ondersteuning voor ingebouwde connectors, indelingsconversie, kolomtoewijzing en krachtige en schaalbare gegevensoverdracht.
- Gegevensstroom: Voer voor de gegevensstroom een Gegevensstroom uit in een beheerde Azure-rekenomgeving.
- Dispatch-activiteiten: Voor transformatie biedt de integratieruntime de mogelijkheid om systeemeigen SSIS-pakketten uit te voeren.
- SSIS-pakketten uitvoeren: De Integration Runtime voert systeemeigen SSIS-pakketten uit in een beheerde Azure-rekenomgeving. De integratieruntime ondersteunt ook verzendings- en bewakingstransformatieactiviteiten die worden uitgevoerd op verschillende rekenservices, zoals Azure HDInsight, Azure Machine Learning, SQL Database en SQL Server.
U kunt zo nodig een of meer exemplaren van de Integration Runtime implementeren om gegevens te verplaatsen en te transformeren. De integratieruntime kan worden uitgevoerd op een openbaar Azure-netwerk of in een particulier netwerk (on-premises, Azure Virtual Network of Amazon Web Services virtuele privécloud [VPC]). In de Data Factory definieert een activiteit de actie die moet worden uitgevoerd. Een gekoppelde service definieert een doelgegevensarchief of een rekenservice. Een Integration Runtime vormt de brug tussen de activiteit en de gekoppelde services. Er wordt naar verwezen door de gekoppelde service of activiteit en biedt de rekenomgeving waarin de activiteit wordt uitgevoerd of wordt verzonden. Op deze manier kan de activiteit optimaal worden uitgevoerd in de regio die het dichtst mogelijk bij het doelgegevensarchief of de rekenservice ligt, terwijl wordt voldaan aan vereisten rondom beveiliging en naleving.
Integratieruntimes kunnen worden gemaakt in de Azure Data Factory UX via de beheerhub en alle activiteiten, gegevenssets of gegevensstromen waarnaar wordt verwezen. Zie voor meer informatie Integration Runtime in Azure Data Factory.
Wat is de limiet voor het aantal integratieruntimes?
Er is geen vaste limiet voor het aantal integration runtime-exemplaren dat u in een data factory kunt hebben. Er is echter een limiet voor het aantal VM-kernen dat de integratieruntime per abonnement kan gebruiken voor het uitvoeren van SSIS-pakketten. Zie Data Factory-limieten voor meer informatie.
Wat zijn de concepten op het hoogste niveau van Azure Data Factory?
Een Azure-abonnement kan een of meer Azure Data Factory-exemplaren (oftewel 'data factory's') hebben. Azure Data Factory bevat vier belangrijke onderdelen die samenwerken als een platform waarop u gegevensgestuurde werkstromen kunt opstellen met stappen voor het verplaatsen en transformeren van gegevens.
Pipelines
Een gegevensfactory kan één of meer pijplijnen hebben. Een pijplijn is een logische groepering van activiteiten om een werkeenheid uit te voeren. De activiteiten in een pijplijn voeren samen een taak uit. Een pijplijn kan bijvoorbeeld een groep activiteiten bevatten die gegevens uit een Azure-blob opnemen en vervolgens een Hive-query uitvoeren op een HDInsight-cluster om de gegevens te partitioneren. Het voordeel is dat u een pijplijn kunt gebruiken om de activiteiten als een set te beheren in plaats van dat u elke activiteit afzonderlijk moet beheren. U kunt de activiteiten in een pijplijn aan elkaar koppelen om ze sequentieel te laten werken, of u kunt ze onafhankelijk parallel uitvoeren.
Gegevensstromen
Gegevensstromen zijn objecten die u visueel bouwt in Data Factory die gegevens op schaal transformeren op back-end Spark-services. U hoeft geen inzicht te hebben in programmeren of Interne Spark-bewerkingen. Ontwerp uw intentie voor gegevenstransformatie met behulp van grafieken (toewijzing) of spreadsheets (Power Query-activiteit).
Activiteiten
Activiteiten vertegenwoordigen een verwerkingsstap in een pijplijn. U kunt bijvoorbeeld een Copy-activiteit gebruiken om gegevens uit het ene gegevensarchief naar een ander gegevensarchief te kopiëren. Op dezelfde manier kunt u een Hive-activiteit gebruiken, waarmee een Hive-query wordt uitgevoerd op een Azure HDInsight-cluster om uw gegevens te transformeren of analyseren. Data Factory ondersteunt drie soorten activiteiten: activiteiten voor gegevensverplaatsing, activiteiten voor gegevenstransformatie en controleactiviteiten.
Gegevenssets
Gegevenssets vertegenwoordigen gegevensstructuren in de gegevensarchieven die simpelweg verwijzen naar de gegevens die u in uw activiteiten als in- of uitvoer wilt gebruiken.
Gekoppelde services
Gekoppelde services zijn te vergelijken met verbindingsreeksen, die de verbindingsinformatie bevatten die Data Factory nodig heeft om verbinding te maken met externe bronnen. U kunt dit op deze manier zien: een gekoppelde service definieert de verbinding met de gegevensbron en een gegevensset vertegenwoordigt de structuur van de gegevens. Een gekoppelde Azure Storage-service geeft bijvoorbeeld de verbindingsreeks aan om verbinding te maken met het Azure Storage-account. En een Azure Blob-gegevensset geeft de blobcontainer en de map met de gegevens op.
Gekoppelde services hebben twee doeleinden in Data Factory:
- Een gegevensarchief dat een SQL Server-exemplaar, een Oracle-database-exemplaar, een bestandsshare of een Azure Blob Storage-account bevat, vertegenwoordigt. Zie Kopieeractiviteit in Azure Data Factory voor een lijst met ondersteunde gegevensarchieven.
- Ter vertegenwoordiging van een rekenresource die de uitvoering van een activiteit kan hosten. De HDInsight Hive-activiteit wordt bijvoorbeeld uitgevoerd op een HDInsight Hadoop-cluster. Zie Gegevens transformeren in Azure Data Factory voor een lijst met transformatieactiviteiten en ondersteunde rekenomgevingen.
Triggers
Triggers vertegenwoordigen eenheden van verwerking die bepalen wanneer een pijplijnuitvoering wordt gestart. Er zijn verschillende soorten triggers voor verschillende soorten gebeurtenissen.
Pijplijnuitvoeringen
Een pijplijnuitvoering is een exemplaar van een pijplijnuitvoering. Meestal instantieert u een pijplijn die wordt uitgevoerd door argumenten door te geven aan de parameters die in de pijplijn zijn gedefinieerd. U kunt de argumenten handmatig of binnen de triggerdefinitie doorgeven.
Parameters
Parameters zijn sleutel-waardeparen in een alleen-lezenconfiguratie. U definieert parameters in een pijplijn en u geeft de argumenten door voor de gedefinieerde parameters tijdens de uitvoering vanuit een uitvoeringscontext. De uitvoeringscontext wordt gemaakt door een trigger of vanuit een pijplijn die u handmatig uitvoert. Activiteiten binnen de pijplijn gebruiken de parameterwaarden.
Een gegevensset is een sterk getypte parameter en een entiteit die u opnieuw kunt gebruiken of waarnaar u kunt verwijzen. Een activiteit kan verwijzen naar gegevenssets en kan de eigenschappen gebruiken die zijn gedefinieerd in de definitie van de gegevensset.
Een gekoppelde service is ook een sterk getypte parameter die verbindingsgegevens bevat met een gegevensarchief of een rekenomgeving. Het is ook een entiteit die u opnieuw kunt gebruiken of waarnaar u kunt verwijzen.
Stromen controleren
Beheer stromen organiseren pijplijnactiviteiten die ketenactiviteiten bevatten in een reeks, vertakkingen, parameters die u op pijplijnniveau definieert en argumenten die u doorgeeft wanneer u de pijplijn op aanvraag aanroept of vanuit een trigger. Besturingsstromen omvatten ook aangepaste statusdoorgifte- en luscontainers (dat wil gezegd foreach-iterators).
Zie de volgende artikelen voor meer informatie over Data Factory-concepten:
Wat is het prijsmodel voor Data Factory?
Hoe kan ik up-to-date blijven met informatie over Data Factory?
Ga naar de volgende sites voor de meest recente informatie over Azure Data Factory:
Technische diepgaande informatie
Hoeveel exemplaren van Azure Data Factory moet ik hebben?
Het antwoord op deze vraag is afhankelijk van het beveiligingsmodel dat uw organisatie heeft aangenomen. Elk exemplaar van Data Factory moet worden beperkt met toegang met minimale bevoegdheden. Dit kan een situatie zijn waarbij één exemplaar van Data Factory alle HR-workloads ondersteunt en een andere instantie alle financiële gegevens ondersteunt. Elk exemplaar van Data Factory heeft toegang tot verschillende gekoppelde services en elk exemplaar kan worden ondersteund door verschillende ontwikkelteams. Er zijn geen extra kosten omdat u wordt gefactureerd met rekenverhogingen, dus dezelfde 100 pijplijnen in 1 exemplaar van Data Factory kosten hetzelfde als 10 pijplijnen in 10 exemplaren van Data Factory.
Hoe kan ik een pijplijn plannen?
U kunt de scheduler-trigger of tijdvenstertrigger gebruiken om een pijplijn te plannen. De trigger maakt gebruik van een wandklokkalenderschema, waarmee pijplijnen periodiek of in terugkerende patronen op basis van kalenders kunnen worden gepland (bijvoorbeeld op maandag om 18:00 uur en donderdag om 19:00 uur). Zie Pijplijnen uitvoeren en triggers voor meer informatie.
Kan ik parameters doorgeven aan een pijplijnuitvoering?
Ja, parameters zijn een eersteklas concept op het hoogste niveau in Data Factory. U kunt parameters definiëren op pijplijnniveau en argumenten doorgeven tijdens het uitvoeren van de pijplijnuitvoering op aanvraag of met behulp van een trigger.
Kan ik standaardwaarden definiëren voor de pijplijnparameters?
Ja. U kunt standaardwaarden definiëren voor de parameters in de pijplijnen.
Kan een activiteit in een pijplijn argumenten gebruiken die worden doorgegeven aan een pijplijnuitvoering?
Ja. Elke activiteit in de pijplijn kan de parameterwaarde gebruiken die wordt doorgegeven aan de pijplijn en wordt uitgevoerd met de @parameter
constructie.
Kan een uitvoereigenschap van een activiteit worden gebruikt in een andere activiteit?
Ja. Een activiteitsuitvoer kan worden gebruikt in een volgende activiteit met de @activity
constructie.
Hoe kan ik null-waarden in een activiteitsuitvoer correct verwerken?
U kunt de @coalesce
constructie in de expressies gebruiken om null-waarden correct te verwerken.
Hoeveel pijplijnactiviteiten kunnen tegelijkertijd worden uitgevoerd?
Maximaal 50 gelijktijdige pijplijnactiviteiten zijn toegestaan. De 51e pijplijnactiviteit wordt in de wachtrij geplaatst totdat een gratis site wordt geopend. Er worden maximaal 800 gelijktijdige externe activiteiten toegestaan, waarna ze op dezelfde manier in de wachtrij worden geplaatst.
Toewijzingsgegevensstromen
Ik heb hulp nodig bij het oplossen van problemen met mijn gegevensstroomlogica. Welke informatie moet ik opgeven om hulp te krijgen?
Wanneer Microsoft hulp biedt of problemen met gegevensstromen opgeeft, geeft u de ondersteuningsbestanden van de ADF-pijplijn op. Dit zip-bestand bevat het code-behind-script uit uw gegevensstroomgrafiek. Selecteer in de ADF-gebruikersinterface ... naast de pijplijn en selecteer vervolgens Ondersteuningsbestanden downloaden.
Hoe kan ik toegang tot gegevens met behulp van de andere 90 gegevenssettypen in Data Factory?
Met de functie toewijzingsgegevensstroom kunnen momenteel Azure SQL Database-, Azure Synapse Analytics-, tekstbestanden met scheidingstekens uit Azure Blob Storage of Azure Data Lake Storage Gen2 en Parquet-bestanden van Blob Storage of Data Lake Storage Gen2 systeemeigen worden gebruikt voor bron en sink.
Gebruik de Copy-activiteit om gegevens van een van de andere connectors te faseren en voer vervolgens een Gegevensstroom activiteit uit om gegevens te transformeren nadat deze zijn gefaseerd. Uw pijplijn wordt bijvoorbeeld eerst gekopieerd naar Blob Storage en vervolgens gebruikt een Gegevensstroom activiteit een gegevensset in de bron om die gegevens te transformeren.
Is de zelf-hostende Integration Runtime beschikbaar voor gegevensstromen?
Zelf-hostende IR is een ADF-pijplijnconstructie die u kunt gebruiken met de kopieeractiviteit om gegevens te verkrijgen of te verplaatsen naar en van on-premises of op VM's gebaseerde gegevensbronnen en sinks. De virtuele machines die u voor een zelf-hostende IR gebruikt, kunnen ook binnen hetzelfde VNET worden geplaatst als uw beveiligde gegevensarchieven voor toegang tot die gegevensarchieven vanuit ADF. Met gegevensstromen bereikt u dezelfde eindresultaten met behulp van de Azure IR met beheerd VNET.
Fungeert de berekeningsengine voor de gegevensstroom voor meerdere tenants?
Clusters worden nooit gedeeld. We garanderen isolatie voor elke taakuitvoering in productieuitvoeringen. In het geval van foutopsporingsscenario krijgt één persoon één cluster en worden alle foutopsporingsfouten naar dat cluster geleid die door die gebruiker worden geïnitieerd.
Is er een manier om kenmerken in Cosmos DB te schrijven in dezelfde volgorde als die is opgegeven in de sink in de ADF-gegevensstroom?
Voor Cosmos DB is de onderliggende indeling van elk document een JSON-object dat een niet-geordende set naam-/waardeparen is, zodat de volgorde niet kan worden gereserveerd.
Waarom kan een gebruiker geen voorbeeld van gegevens gebruiken in de gegevensstromen?
Controleer de machtigingen voor aangepaste rollen. Er zijn meerdere acties betrokken bij de voorbeeldgegevens van de gegevensstroom. U begint met het controleren van netwerkverkeer tijdens foutopsporing in uw browser. Volg alle acties voor meer informatie. Raadpleeg de resourceprovider.
Kan ik in ADF een waarde berekenen voor een nieuwe kolom uit een bestaande kolom van toewijzing?
U kunt een transformatie afleiden in de toewijzingsgegevensstroom gebruiken om een nieuwe kolom te maken op basis van de gewenste logica. Wanneer u een afgeleide kolom maakt, kunt u een nieuwe kolom genereren of een bestaande kolom bijwerken. Voer in het tekstvak Kolom de kolom in die u maakt. Als u een bestaande kolom in uw schema wilt overschrijven, kunt u de vervolgkeuzelijst kolom gebruiken. Als u de expressie van de afgeleide kolom wilt maken, selecteert u het tekstvak Expressie invoeren. U kunt beginnen met het typen van uw expressie of de opbouwfunctie voor expressies openen om uw logica samen te stellen.
Waarom mislukt de preview van toewijzingsgegevensstromen met een time-out van de gateway?
Probeer een groter cluster te gebruiken en gebruik te maken van de rijlimieten in foutopsporingsinstellingen naar een kleinere waarde om de grootte van foutopsporingsuitvoer te verminderen.
Kolomnaam in gegevensstroom parameteriseren
Kolomnaam kan worden geparameteriseerd zoals bij andere eigenschappen. Net als in de afgeleide kolom kan de klant $ColumnNameParam = toString(byName($myColumnNameParamInData)) gebruiken . Deze parameters kunnen worden doorgegeven van pijplijnuitvoering tot gegevensstromen.
Het advies over de gegevensstroom over TTL en kosten
Dit document voor probleemoplossing kan helpen bij het oplossen van uw problemen: De prestaties van toewijzingsgegevensstromen en het afstemmen van de handleiding Time to Live.
Power Query-gegevens Wrangling
Wat zijn de ondersteunde regio's voor gegevens-wrangling?
Data factory is beschikbaar in de volgende regio's. De Power Query-functie is beschikbaar in alle gegevensstroomregio's. Als de functie niet beschikbaar is in uw regio, neemt u contact op met de ondersteuning.
Wat is het verschil tussen toewijzingsgegevensstroom en Power Query-activiteit (gegevens wrangling)?
Toewijzingsgegevensstromen bieden een manier om gegevens op schaal te transformeren zonder dat hiervoor codering is vereist. U kunt een gegevenstransformatietaak ontwerpen in het gegevensstroomcanvas door een reeks transformaties samen te stellen. Begin met een willekeurig aantal brontransformaties, gevolgd door stappen voor gegevenstransformatie. Voltooi uw gegevensstroom met een sink om uw resultaten op een bestemming te laten landen. Toewijzingsgegevensstroom is zeer geschikt voor het toewijzen en transformeren van gegevens met zowel bekende als onbekende schema's in de sinks en bronnen.
Met Power Query Data Wrangling kunt u agile gegevensvoorbereiding en -verkenning uitvoeren met behulp van de Mashup-editor van Power Query Online op schaal via spark-uitvoering. Met de opkomst van data lakes moet u soms alleen een gegevensset verkennen of een gegevensset maken in het meer. U wordt niet toegewezen aan een bekend doel.
Ondersteunde SQL-typen
Power Query Data Wrangling ondersteunt de volgende gegevenstypen in SQL. U krijgt een validatiefout voor het gebruik van een gegevenstype dat niet wordt ondersteund.
- kort
- dubbel
- werkelijk
- zwevend
- char
- nchar
- varchar
- nvarchar
- geheel getal
- int
- bit
- boolean
- smallint
- tinyint
- bigint
- long
- sms verzenden
- datum
- datetime
- datetime2
- smalldatetime
- timestamp
- uniqueidentifier
- xml
Gerelateerde inhoud
Zie de volgende zelfstudies voor stapsgewijze instructies voor het maken van een data factory: