GÄLLER FÖR: Azure Data Factory
Azure Synapse Analytics
Dricks
Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!
Den här artikeln innehåller svar på vanliga frågor om Azure Data Factory.
Vad är Azure Data Factory?
Data Factory är en fullständigt hanterad, molnbaserad ETL-tjänst för dataintegrering som automatiserar förflyttning och omvandling av data. Precis som en fabrik som kör utrustning för att omvandla råmaterial till färdiga varor samordnar Azure Data Factory befintliga tjänster som samlar in rådata och omvandlar dem till information som är redo att användas.
Genom att använda Azure Data Factory kan du skapa datadrivna arbetsflöden för att flytta data mellan lokala datalager och molndatalager. Och du kan bearbeta och transformera data med Dataflöde. ADF stöder även externa beräkningsmotorer för handkodade transformeringar med hjälp av beräkningstjänster som Azure HDInsight, Azure Databricks och SQL Server Integration Services(SSIS) integration runtime.
Med Data Factory kan du köra databearbetningen antingen på en Azure-baserad molntjänst eller i din egen lokala beräkningsmiljö, till exempel SSIS, SQL Server eller Oracle. När du har skapat en pipeline som utför den åtgärd du behöver kan du schemalägga den så att den körs regelbundet (till exempel varje timme, varje dag eller varje vecka), schemaläggning av tidsfönster eller utlösa pipelinen från en händelsehändelse. Mer information finns i Introduktion till Azure Data Factory.
Efterlevnads- och säkerhetsöverväganden
Azure Data Factory är certifierat för en rad efterlevnadscertifieringar, inklusive SOC 1, 2, 3, HIPAA BAA och HITRUST. Fullständig och växande lista över certifieringar finns här. Digitala kopior för granskningsrapporter och efterlevnadscertifieringar finns i Service Trust Center
Kontrollera flöden och skala
För att stödja de olika integreringsflödena och mönstren i det moderna informationslagret möjliggör Data Factory flexibel modellering av datapipelines. Detta innebär programmeringsparadigm för fullständigt kontrollflöde, som omfattar villkorsstyrd körning, förgrening i datapipelines och möjligheten att uttryckligen skicka parametrar inom och över dessa flöden. Kontrollflödet omfattar även transformering av data via aktivitetssändning till externa körningsmotorer och dataflödesfunktioner, inklusive dataflytt i stor skala, via aktiviteten Kopiera.
Data Factory ger frihet att modellera alla flödesformat som krävs för dataintegrering och som kan skickas på begäran eller upprepade gånger enligt ett schema. Några vanliga flöden som den här modellen aktiverar är:
- Kontrollera flöden:
- Aktiviteter kan länkas samman i en sekvens i en pipeline.
- Aktiviteter kan förgrenas i en pipeline.
- Parametrar:
- Parametrar kan definieras på pipelinenivå och argument kan skickas när du anropar pipelinen på begäran eller från en utlösare.
- Aktiviteter kan använda argumenten som skickas till pipelinen.
- Anpassad tillståndsöverföring:
- Aktivitetsutdata, inklusive tillstånd, kan användas av en efterföljande aktivitet i pipelinen.
- Loopcontainrar:
- Foreach-aktiviteten itererar över en angiven samling aktiviteter i en loop.
- Utlösarbaserade flöden:
- Pipelines kan utlösas på begäran, efter tid på väggklockan eller som svar på Event Grid-ämnen
- Deltaflöden:
- Parametrar kan användas för att definiera ditt högvattenmärke för deltakopiering när du flyttar dimensions- eller referenstabeller från ett relationslager, antingen lokalt eller i molnet, för att läsa in data i sjön.
Mer information finns i Självstudie: Kontrollera flöden.
Data omvandlas i stor skala med kodfria pipelines
Den nya webbläsarbaserade verktygsupplevelsen ger kodfri pipelineredigering och distribution med en modern, interaktiv webbaserad upplevelse.
För visuella datautvecklare och datatekniker är Data Factory-webbgränssnittet den kodfria designmiljö som du kommer att använda för att skapa pipelines. Den är helt integrerad med Visual Studio Codespace Git och ger integrering för CI/CD och iterativ utveckling med felsökningsalternativ.
Omfattande plattformsoberoende SDK:er för avancerade användare
Data Factory V2 innehåller en omfattande uppsättning SDK:er som kan användas för att skapa, hantera och övervaka pipelines med hjälp av din favorit-IDE, inklusive:
- Python SDK
- PowerShell CLI
- C#-SDK
Användarna kan också använda de dokumenterade REST-API:erna för att interagera med Data Factory V2.
Iterativ utveckling och felsökning med hjälp av visuella verktyg
Med verktyg för visuella Azure Data Factory-objekt kan du utveckla och felsöka iterativt. Du kan skapa dina pipelines och göra testkörningar med hjälp av felsökningsfunktionen på pipelinearbetsytan utan att skriva en enda kodrad. Du kan visa resultatet av dina testkörningar i utdatafönstret på pipelinearbetsytan. När testkörningen har slutförts kan du lägga till fler aktiviteter i pipelinen och fortsätta felsökningen på ett iterativt sätt. Du kan också avbryta testkörningarna när de pågår.
Du behöver inte publicera ändringarna i datafabrikstjänsten innan du väljer Felsöka. Detta är användbart i scenarier där du vill se till att de nya tilläggen eller ändringarna fungerar som förväntat innan du uppdaterar dina datafabriksarbetsflöden i utvecklings-, test- eller produktionsmiljöer.
Möjlighet att distribuera SSIS-paket till Azure
Om du vill flytta dina SSIS-arbetsbelastningar kan du skapa en Data Factory och etablera en Azure-SSIS-integreringskörning. En Azure-SSIS-integreringskörning är ett fullständigt hanterat kluster med virtuella Azure-datorer (noder) som är dedikerade för att köra dina SSIS-paket i molnet. Stegvisa instruktioner finns i självstudien Distribuera SSIS-paket till Azure .
SDK:er
Om du är en avancerad användare och letar efter ett programmatiskt gränssnitt tillhandahåller Data Factory en omfattande uppsättning SDK:er som du kan använda för att skapa, hantera eller övervaka pipelines med hjälp av din favorit-IDE. Språkstöd omfattar .NET, PowerShell, Python och REST.
Övervakning
Du kan övervaka dina datafabriker via PowerShell, SDK eller Verktyg för visuell övervakning i webbläsarens användargränssnitt. Du kan övervaka och hantera anpassade flöden på begäran, utlösare och klockdrivna anpassade flöden på ett effektivt och effektivt sätt. Avbryt befintliga uppgifter, se fel snabbt, öka detaljnivån för att få detaljerade felmeddelanden och felsöka problemen, allt från en enda fönsterruta utan kontextväxling eller navigering fram och tillbaka mellan skärmar.
Nya funktioner för SSIS i Data Factory
Sedan den första offentliga förhandsversionen 2017 har Data Factory lagt till följande funktioner för SSIS:
- Stöd för ytterligare tre konfigurationer/varianter av Azure SQL Database som värd för SSIS-databasen (SSISDB) för projekt/paket:
- SQL Database med tjänstslutpunkter för virtuellt nätverk
- SQL-hanterad instans
- Elastisk pool
- Stöd för att ett virtuellt Azure Resource Manager-nätverk ovanpå ett klassiskt virtuellt nätverk ska bli inaktuellt i framtiden, vilket gör att du kan mata in/ansluta din Azure-SSIS-integreringskörning till ett virtuellt nätverk som konfigurerats för SQL Database med tjänstslutpunkter för virtuella nätverk/MI/lokal dataåtkomst. Mer information finns i Även Ansluta en Azure-SSIS-integreringskörning till ett virtuellt nätverk.
- Stöd för Microsoft Entra-autentisering och SQL-autentisering för att ansluta till SSISDB, vilket tillåter Microsoft Entra-autentisering med din Data Factory-hanterade identitet för Azure-resurser
- Stöd för att ta med din befintliga SQL Server-licens för att få betydande kostnadsbesparingar från alternativet Azure Hybrid-förmån
- Stöd för Enterprise Edition av Azure-SSIS-integreringskörningen som gör att du kan använda avancerade/premiumfunktioner, ett anpassat konfigurationsgränssnitt för att installera ytterligare komponenter/tillägg och ett partnerekosystem. Mer information finns även i Enterprise Edition, Anpassad installation och utökningsbarhet från tredje part för SSIS i ADF.
- Djupare integrering av SSIS i Data Factory som gör att du kan anropa/utlösa förstklassiga köra SSIS-paketaktiviteter i Data Factory-pipelines och schemalägga dem via SSMS. Mer information finns i Modernisera och utöka dina ETL/ELT-arbetsflöden med SSIS-aktiviteter i ADF-pipelines.
Vad är integrationskörningen?
Integreringskörningen är den beräkningsinfrastruktur som Azure Data Factory använder för att tillhandahålla följande funktioner för dataintegrering i olika nätverksmiljöer:
- Dataflytt: För dataflytt flyttar integrationskörningen data mellan käll- och måldatalager, samtidigt som det ger stöd för inbyggda anslutningsappar, formatkonvertering, kolumnmappning och högpresterande och skalbar dataöverföring.
- Dataflöde: Kör en Dataflöde i en hanterad Azure-beräkningsmiljö för dataflöde.
- Sändningsaktiviteter: För transformering ger integrationskörningen möjlighet att köra SSIS-paket internt.
- Kör SSIS-paket: Integreringskörningen kör SSIS-paket internt i en hanterad Azure-beräkningsmiljö. Integreringskörningen stöder även sändnings- och övervakningstransformeringsaktiviteter som körs på en mängd olika beräkningstjänster, till exempel Azure HDInsight, Azure Machine Learning, SQL Database och SQL Server.
Du kan distribuera en eller flera instanser av integrationskörningen efter behov för att flytta och transformera data. Integreringskörningen kan köras i ett offentligt Azure-nätverk eller i ett privat nätverk (lokalt, Azure Virtual Network eller Amazon Web Services virtuella privata moln [VPC]). I Data Factory definierar en aktivitet åtgärden som ska utföras. En länkad tjänst definierar ett datalager som mål eller en beräkningstjänst. Integration Runtime utgör bryggan mellan aktiviteten och länkade tjänster. Den refereras av den länkade tjänsten eller aktiviteten och tillhandahåller beräkningsmiljön där aktiviteten antingen körs på eller skickas från. På så sätt kan aktiviteten utföras i regionen som är den närmaste möjliga till måldatalagret eller beräkningstjänsten på det bästa sättet samtidigt som den uppfyller säkerhets- och efterlevnadsbehoven.
Integreringskörningar kan skapas i Azure Data Factory UX via hanteringshubben och alla aktiviteter, datauppsättningar eller dataflöden som refererar till dem. Mer information finns i Integration Runtime i Azure Data Factory.
Vad är gränsen för antalet integreringskörningar?
Det finns ingen hård gräns för hur många integreringskörningsinstanser du kan ha i en datafabrik. Det finns dock en gräns för hur många VM-kärnor som integreringskörningen kan använda per prenumeration för SSIS-paketkörning. Mer information finns i Data Factory-gränser.
Vilka är de främsta begreppen i Azure Data Factory?
En Azure-prenumeration kan ha en eller flera Azure Data Factory-instanser (eller datafabriker). Azure Data Factory innehåller fyra viktiga komponenter som fungerar tillsammans som en plattform där du kan skapa datadrivna arbetsflöden med steg för att flytta och transformera data.
Pipelines
En datafabrik kan ha en eller flera pipelines. En pipeline är en logisk gruppering av aktiviteter för att utföra en arbetsenhet. Tillsammans utför aktiviteterna i en pipeline en uppgift. En pipeline kan till exempel innehålla en grupp aktiviteter som matar in data från en Azure-blob och sedan kör en Hive-fråga i ett HDInsight-kluster för att partitionera data. Fördelen är att du kan använda en pipeline för att hantera aktiviteterna som en uppsättning i stället för att behöva hantera varje aktivitet individuellt. Du kan länka samman aktiviteterna i en pipeline för att hantera dem sekventiellt, eller så kan du använda dem separat, parallellt.
Dataflöden
Dataflöden är objekt som du skapar visuellt i Data Factory som transformerar data i stor skala på Spark-tjänster i serverdelen. Du behöver inte förstå programmering eller spark internt. Utforma bara avsikten med datatransformering med hjälp av diagram (mappning) eller kalkylblad (Power Query-aktivitet).
Aktiviteter
Aktiviteter representerar ett bearbetningssteg i en pipeline. Du kan till exempel använda en aktiviteten Kopiera för att kopiera data från ett datalager till ett annat datalager. På samma sätt kan du använda en Hive-aktivitet som kör en Hive-fråga i ett Azure HDInsight-kluster för att transformera eller analysera dina data. Data Factory stöder tre typer av aktiviteter: dataförflyttning, datatransformering och kontroll.
Datauppsättningar
Datauppsättningar representerar datastrukturer i datalager som pekar på eller refererar till de data som du vill använda i dina aktiviteter som indata eller utdata.
Länkade tjänster
Länkade tjänster liknar anslutningssträngar som definierar den anslutningsinformation som behövs för att Data Factory ska kunna ansluta till externa resurser. Tänk på det så här: En länkad tjänst definierar anslutningen till datakällan och en datauppsättning representerar datastrukturen. Till exempel anger en länkad Azure Storage-tjänst anslutningssträng för att ansluta till Azure Storage-kontot. Och en Azure Blob-datauppsättning anger blobcontainern och mappen som innehåller data.
Länkade tjänster har två syften i Data Factory:
- För att representera ett datalager som innehåller, men inte är begränsat till, en SQL Server-instans, en Oracle-databasinstans, en filresurs eller ett Azure Blob Storage-konto. En lista över datalager som stöds finns i Kopiera aktivitet i Azure Data Factory.
- Så här visar du en beräkningsresurs som kan vara värd för körningen av en aktivitet. Till exempel körs HDInsight Hive-aktiviteten på ett HDInsight Hadoop-kluster. En lista över omvandlingsaktiviteter och beräkningsmiljöer som stöds finns i Transformera data i Azure Data Factory.
Utlösare
Utlösare representerar bearbetningsenheter som avgör när en pipelinekörning startas. Det finns olika typer av utlösare för olika typer av händelser.
Pipelinekörningar
En pipelinekörning är en instans av en pipelinekörning. Du instansierar vanligtvis en pipelinekörning genom att skicka argument till de parametrar som definieras i pipelinen. Du kan skicka argumenten manuellt eller inom utlösardefinitionen.
Parametrar
Parametrar är nyckel/värde-par i en skrivskyddad konfiguration. Du definierar parametrar i en pipeline och skickar argumenten för de definierade parametrarna under körningen från en körningskontext. Körningskontexten skapas av en utlösare eller från en pipeline som du kör manuellt. Aktiviteter i pipelinen använder parametervärdena.
En datauppsättning är en starkt typinskriven parameter och en entitet som du kan återanvända eller referera till. En aktivitet kan referera till datauppsättningar och den kan använda de egenskaper som definieras i datamängdsdefinitionen.
En länkad tjänst är också en starkt typinskriven parameter som innehåller anslutningsinformation till antingen ett datalager eller en beräkningsmiljö. Det är också en entitet som du kan återanvända eller referera till.
Styr flöden
Styr flöden samordnar pipelineaktiviteter som inkluderar länkningsaktiviteter i en sekvens, förgrening, parametrar som du definierar på pipelinenivå och argument som du skickar när du anropar pipelinen på begäran eller från en utlösare. Kontrollflöden omfattar även anpassade tillståndsöverförings- och loopningscontainrar (det vill säga foreach iteratorer).
Mer information om Data Factory-begrepp finns i följande artiklar:
Vad är prismodellen för Data Factory?
Prisinformation för Azure Data Factory finns i Prisinformation för Data Factory.
Hur kan jag hålla mig uppdaterad med information om Data Factory?
Den senaste informationen om Azure Data Factory finns på följande webbplatser:
Teknisk djupdykning
Hur många instanser av Azure Data Factory ska jag ha?
Svaret på den här frågan beror på den säkerhetsmodell som din organisation har antagit. Varje instans av Data Factory bör begränsas med åtkomst med minst privilegier i åtanke. Detta kan vara en situation där en instans av Data Factory stöder alla HR-arbetsbelastningar och en annan stöder alla Finance-data. Varje instans av Data Factory har åtkomst till olika länkade tjänster och varje instans kan stödjas av olika utvecklingsteam. Det finns ingen extra kostnad eftersom du debiteras av beräkningssteg, så samma 100 pipelines i 1 instans av Data Factory skulle kosta samma som 10 pipelines över 10 instanser av Data Factory.
Hur schemalägger jag en pipeline?
Du kan använda schemaläggarens utlösare eller tidsfönsterutlösare för att schemalägga en pipeline. Utlösaren använder ett kalenderschema för väggklockan som kan schemalägga pipelines regelbundet eller i kalenderbaserade återkommande mönster (till exempel på måndagar kl. 18:00 och torsdagar kl. 21:00). Mer information finns i pipelinekörning och utlösare.
Kan jag skicka parametrar till en pipelinekörning?
Ja, parametrar är ett förstklassigt koncept på toppnivå i Data Factory. Du kan definiera parametrar på pipelinenivå och skicka argument när du kör pipelinekörningen på begäran eller med hjälp av en utlösare.
Kan jag definiera standardvärden för pipelineparametrarna?
Ja. Du kan definiera standardvärden för parametrarna i pipelines.
Kan en aktivitet i en pipeline använda argument som skickas till en pipelinekörning?
Ja. Varje aktivitet i pipelinen kan använda parametervärdet som skickas till pipelinen och köras med konstruktionen @parameter
.
Kan en aktivitetsutdataegenskap användas i en annan aktivitet?
Ja. En aktivitetsutdata kan användas i en efterföljande aktivitet med konstruktionen @activity
.
Hur gör jag för att korrekt hantera null-värden i en aktivitetsutdata?
Du kan använda konstruktionen @coalesce
i uttrycken för att hantera null-värden på ett korrekt sätt.
Hur många pipelineaktiviteter kan köras samtidigt?
Högst 50 samtidiga pipelineaktiviteter tillåts. Den 51:a pipelineaktiviteten placeras i kö tills ett kostnadsfritt fack öppnas. Högst 800 samtidiga externa aktiviteter tillåts, varefter de placeras i kö på samma sätt.
Mappa dataflöden
Jag behöver hjälp med att felsöka dataflödeslogik. Vilken information behöver jag ge för att få hjälp?
När Microsoft tillhandahåller hjälp eller felsökning med dataflöden anger du supportfilerna för ADF-pipelinen. Den här Zip-filen innehåller kod bakom skriptet från dataflödesdiagrammet. I ADF-användargränssnittet väljer du ... bredvid pipeline och väljer sedan Ladda ned supportfiler.
Hur gör jag för att komma åt data med hjälp av de andra 90 datamängdstyperna i Data Factory?
Funktionen för dataflödesmappning tillåter för närvarande Azure SQL Database, Azure Synapse Analytics, avgränsade textfiler från Azure Blob Storage eller Azure Data Lake Storage Gen2 och Parquet-filer från Blob Storage eller Data Lake Storage Gen2 internt för källa och mottagare.
Använd aktiviteten Kopiera för att mellanlagra data från någon av de andra anslutningsprogrammen och kör sedan en Dataflöde aktivitet för att transformera data när de har mellanlagrats. Din pipeline kopieras till exempel först till Blob Storage och sedan använder en Dataflöde-aktivitet en datauppsättning i källan för att transformera dessa data.
Är den lokala integrationskörningen tillgänglig för dataflöden?
Lokalt installerad IR är en ADF-pipelinekonstruktion som du kan använda med kopieringsaktiviteten för att hämta eller flytta data till och från lokala eller VM-baserade datakällor och mottagare. De virtuella datorer som du använder för en lokalt installerad IR kan också placeras i samma virtuella nätverk som dina skyddade datalager för åtkomst till dessa datalager från ADF. Med dataflöden får du samma slutresultat med hjälp av Azure IR med hanterat VNET i stället.
Betjänar dataflödesberäkningsmotorn flera klienter?
Kluster delas aldrig. Vi garanterar isolering för varje jobbkörning i produktionskörningar. I händelse av felsökningsscenario hämtar en person ett kluster, och alla felsökningar går till klustret som initieras av användaren.
Finns det något sätt att skriva attribut i Cosmos DB i samma ordning som anges i mottagare i ADF-dataflödet?
För Cosmos DB är det underliggande formatet för varje dokument ett JSON-objekt som är en osorterad uppsättning namn/värde-par, så ordningen kan inte reserveras.
Varför kan en användare inte använda förhandsversionen av data i dataflödena?
Du bör kontrollera behörigheter för anpassad roll. Det finns flera åtgärder som ingår i dataflödesdataförhandsgranskningen. Du börjar med att kontrollera nätverkstrafiken vid felsökning i webbläsaren. Följ alla åtgärder och mer information finns i Resursprovider.
Kan jag beräkna värdet för en ny kolumn från en befintlig kolumn från mappning i ADF?
Du kan använda en Härled transformering i mappning av dataflöde för att skapa en ny kolumn på den logik du vill använda. När du skapar en härledd kolumn kan du antingen generera en ny kolumn eller uppdatera en befintlig kolumn. I textrutan Kolumn anger du i den kolumn som du skapar. Om du vill åsidosätta en befintlig kolumn i schemat kan du använda listrutan kolumn. Om du vill skapa uttrycket för den härledda kolumnen väljer du i textrutan Ange uttryck. Du kan antingen börja skriva uttrycket eller öppna uttrycksverktyget för att konstruera logiken.
Varför misslyckas mappningen av förhandsversionen av dataflödet med gatewayens tidsgräns?
Försök att använda större kluster och utnyttja radgränserna i felsökningsinställningarna till ett mindre värde för att minska storleken på felsökningsutdata.
Hur parameteriserar du kolumnnamn i dataflödet?
Kolumnnamnet kan parametriseras på liknande sätt som andra egenskaper. Precis som i härledd kolumn kan kunden använda $ColumnNameParam = toString(byName($myColumnNameParamInData)). Dessa parametrar kan skickas från pipelinekörning ned till Dataflöden.
Dataflödesrådgivningen om TTL och kostnader
Det här felsökningsdokumentet kan hjälpa dig att lösa dina problem: Mappa dataflödens prestanda och justera guide-Time to live.
Dataomvandling i Power Query
Vilka regioner stöds för dataomvandling?
Datafabriken är tillgänglig i följande regioner. Power Query-funktionen är tillgänglig i alla dataflödesregioner. Om funktionen inte är tillgänglig i din region kan du kontakta supporten.
Vad är skillnaden mellan att mappa dataflöde och Power Query-aktivitet (dataomvandling)?
Genom att mappa dataflöden kan du transformera data i stor skala utan någon kodning. Du kan utforma ett datatransformeringsjobb på dataflödesarbetsytan genom att skapa en serie transformeringar. Börja med valfritt antal källtransformeringar följt av datatransformeringssteg. Slutför dataflödet med en mottagare för att landa dina resultat i ett mål. Att mappa dataflöde är bra på att mappa och transformera data med både kända och okända scheman i mottagare och källor.
Med Power Query Data Wrangling kan du utföra agil dataförberedelse och utforskning med power query online-kombinationsredigeraren i stor skala via spark-körning. Med ökningen av datasjöar behöver du ibland bara utforska en datauppsättning eller skapa en datauppsättning i sjön. Du mappas inte till ett känt mål.
SQL-typer som stöds
Power Query Data Wrangling stöder följande datatyper i SQL. Du får ett verifieringsfel för att använda en datatyp som inte stöds.
- short
- dubbel
- real
- flyttal
- char
- nchar
- varchar
- nvarchar
- integer
- heltal
- bit
- boolean
- smallint
- tinyint
- bigint
- lång
- text
- datum
- datetime
- datetime2
- smalldatetime
- timestamp
- uniqueidentifier
- xml
Relaterat innehåll
Stegvisa instruktioner för att skapa en datafabrik finns i följande självstudier: