Sådan kopierer du data ved hjælp af kopiaktivitet
I Datapipeline kan du bruge aktiviteten Kopiér til at kopiere data mellem datalagre, der er placeret i cloudmiljøet.
Når du har kopieret dataene, kan du bruge andre aktiviteter til yderligere at transformere og analysere dem. Du kan også bruge kopieringsaktiviteten til at publicere transformations- og analyseresultater for business intelligence (BI) og programforbrug.
Hvis du vil kopiere data fra en kilde til en destination, skal den tjeneste, der kører aktiviteten Kopiér, udføre disse trin:
- Læser data fra et kildedatalager.
- Udfører serialisering/deserialisering, komprimering/dekomprimering, kolonnetilknytning osv. Den udfører disse handlinger baseret på konfigurationen.
- Skriver data til destinationsdatalageret.
Forudsætninger
For at komme i gang skal du fuldføre følgende forudsætninger:
En Microsoft Fabric-lejerkonto med et aktivt abonnement. Opret en konto gratis.
Sørg for, at du har et Microsoft Fabric-aktiveret arbejdsområde.
Tilføj en kopiaktivitet ved hjælp af kopiassistenten
Følg disse trin for at konfigurere din kopiaktivitet ved hjælp af kopiassistenten.
Start med kopiassistent
Åbn en eksisterende datapipeline, eller opret en ny datapipeline.
Vælg Kopiér data på lærredet for at åbne værktøjet Kopiér assistent for at komme i gang. Eller vælg Brug kopiassistent på rullelisten Kopiér data under fanen Aktiviteter på båndet.
Konfigurer din kilde
Vælg en datakildetype i kategorien. Du skal bruge Azure Blob Storage som eksempel. Vælg Azure Blob Storage, og vælg derefter Næste.
Opret en forbindelse til datakilden ved at vælge Opret ny forbindelse.
Når du har valgt Opret ny forbindelse, skal du udfylde de påkrævede forbindelsesoplysninger og derefter vælge Næste. Du kan finde flere oplysninger om oprettelse af forbindelse for hver type datakilde i hver connectorartikel.
Hvis du har eksisterende forbindelser, kan du vælge Eksisterende forbindelse og vælge din forbindelse på rullelisten.
Vælg den fil eller mappe, der skal kopieres i dette kildekonfigurationstrin, og vælg derefter Næste.
Konfigurer din destination
Vælg en datakildetype i kategorien. Du skal bruge Azure Blob Storage som eksempel. Du kan enten oprette en ny forbindelse, der linker til en ny Azure Blob Storage-konto, ved at følge trinnene i forrige afsnit eller bruge en eksisterende forbindelse fra rullelisten forbindelse. Funktionerne i Testforbindelse og Rediger er tilgængelige for hver valgte forbindelse.
Konfigurer og knyt kildedataene til destinationen. Vælg derefter Næste for at afslutte dine destinationskonfigurationer.
Bemærk
Du kan kun bruge en enkelt datagateway i det lokale miljø inden for den samme kopiaktivitet. Hvis både kilde og vask er datakilder i det lokale miljø, skal de bruge den samme gateway. Hvis du vil flytte data mellem datakilder i det lokale miljø med forskellige gateways, skal du kopiere ved hjælp af den første gateway til en mellemliggende cloudkilde i én kopiaktivitet. Derefter kan du bruge en anden kopiaktivitet til at kopiere den fra den mellemliggende cloudkilde ved hjælp af den anden gateway.
Gennemse og opret din kopiaktivitet
Gennemse indstillingerne for kopiaktivitet i de forrige trin, og vælg OK for at afslutte. Du kan også gå tilbage til de forrige trin for at redigere dine indstillinger, hvis det er nødvendigt i værktøjet.
Når kopiaktiviteten er fuldført, føjes den derefter til dit datapipelinelærred. Alle indstillinger, herunder avancerede indstillinger for denne kopiaktivitet, er tilgængelige under fanerne, når den er valgt.
Nu kan du enten gemme din datapipeline med denne aktivitet med en enkelt kopi eller fortsætte med at designe din datapipeline.
Tilføj en kopiaktivitet direkte
Følg disse trin for at tilføje en kopiaktivitet direkte.
Tilføj en kopiaktivitet
Åbn en eksisterende datapipeline, eller opret en ny datapipeline.
Tilføj en kopiaktivitet ved enten at vælge Tilføj pipelineaktivitet>Kopiér aktivitet eller ved at vælge Kopiér data>Føj til lærredet under fanen Aktiviteter.
Konfigurer dine generelle indstillinger under fanen Generelt
Du kan få mere at vide om, hvordan du konfigurerer dine generelle indstillinger, under Generelt.
Konfigurer din kilde under kildefanen
Vælg + Ny ud for Forbindelse for at oprette en forbindelse til datakilden.
Vælg datakildetypen i pop op-vinduet. Du skal bruge Azure SQL Database som et eksempel. Vælg Azure SQL Database, og vælg derefter Fortsæt.
Den navigerer til siden til oprettelse af forbindelse. Udfyld de nødvendige forbindelsesoplysninger i panelet, og vælg derefter Opret. Du kan finde flere oplysninger om oprettelse af forbindelse for hver type datakilde i hver connectorartikel.
Når forbindelsen er oprettet, føres du tilbage til siden med datapipelines. Vælg derefter Opdater for at hente den forbindelse, du har oprettet, på rullelisten. Du kan også vælge en eksisterende Azure SQL Database-forbindelse direkte på rullelisten, hvis du allerede har oprettet den før. Funktionerne i Testforbindelse og Rediger er tilgængelige for hver valgte forbindelse. Vælg derefter Azure SQL Database i Forbindelsestype .
Angiv en tabel, der skal kopieres. Vælg Vis eksempeldata for at få vist en eksempelvisning af kildetabellen. Du kan også bruge Forespørgsel og Lagret procedure til at læse data fra din kilde.
Udvid Avanceret for at få mere avancerede indstillinger.
Konfigurer din destination under fanen Destination
Vælg destinationstypen. Det kan enten være dit interne første klasses datalager fra dit arbejdsområde, f.eks. Lakehouse, eller dine eksterne datalagre. Du skal f.eks. bruge Lakehouse.
Vælg at bruge Lakehouse i datalagertypen Arbejdsområde. Vælg + Ny, og den navigerer dig til oprettelsessiden for Lakehouse. Angiv navnet på Lakehouse, og vælg derefter Opret.
Når forbindelsen er oprettet, føres du tilbage til siden med datapipelines. Vælg derefter Opdater for at hente den forbindelse, du har oprettet, på rullelisten. Du kan også vælge en eksisterende Lakehouse-forbindelse direkte på rullelisten, hvis du allerede har oprettet den før.
Angiv en tabel, eller konfigurer filstien for at definere filen eller mappen som destination. Her skal du vælge Tabeller og angive en tabel til at skrive data.
Udvid Avanceret for at få mere avancerede indstillinger.
Nu kan du enten gemme din datapipeline med denne aktivitet med en enkelt kopi eller fortsætte med at designe din datapipeline.
Konfigurer dine tilknytninger under tilknytningsfanen
Hvis den connector, du anvender, understøtter tilknytning, kan du gå til fanen Tilknytning for at konfigurere din tilknytning.
Vælg Importér skemaer for at importere dataskemaet.
Du kan se, at den automatiske tilknytning vises. Angiv kolonnen Kilde og Destinationskolonne . Hvis du opretter en ny tabel i destinationen, kan du tilpasse navnet på kolonnen Destination her. Hvis du vil skrive data til den eksisterende destinationstabel, kan du ikke ændre navnet på den eksisterende destinationskolonne . Du kan også få vist kilde- og destinationskolonnernes type .
Desuden kan du vælge + Ny tilknytning for at tilføje ny tilknytning, vælge Ryd for at rydde alle tilknytningsindstillinger og vælge Nulstil for at nulstille alle tilknytningskildekolonner.
Konfigurer dine andre indstillinger under fanen Indstillinger
Fanen Indstillinger indeholder indstillinger for ydeevne, midlertidig lagring osv.
Se følgende tabel for at få en beskrivelse af hver indstilling.
Indstilling | Beskrivelse | JSON-scriptegenskab |
---|---|---|
Intelligent optimering af dataoverførselshastighed | Angiv for at optimere gennemløbet. Du kan vælge mellem: • Automatisk • Standard • Balanceret • Maksimum Når du vælger Auto, anvendes den optimale indstilling dynamisk baseret på dit kildedestinationspar og datamønster. Du kan også tilpasse dit gennemløb, og den brugerdefinerede værdi kan være 2-256, mens højere værdi indebærer flere gevinster. |
dataIntegrationUnits |
Graden af kopi parallelitet | Angiv, hvor meget parallelitet dataindlæsningen skal bruge. | parallelKopi |
Fejltolerance | Når du vælger denne indstilling, kan du ignorere nogle fejl, der opstod midt i kopieringsprocessen. Inkompatible rækker mellem kilde- og destinationslager, fil, der slettes under dataflytning osv. | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName |
Aktivér logføring | Når du vælger denne indstilling, kan du logføre kopierede filer, filer og rækker, der er sprunget over. | / |
Aktivér midlertidig lagring | Angiv, om data skal kopieres via et midlertidigt midlertidigt lagringslager. Aktivér kun midlertidig lagring for de fordelagtige scenarier. | enableStaging |
Datalagertype | Når du aktiverer midlertidig lagring, kan du vælge Arbejdsområde og Ekstern som datalagertype. | / |
Til arbejdsområde | ||
Arbejdsområde | Angiv, at der skal bruges indbygget lagring af midlertidig lagring. | / |
Til eksterne | ||
Midlertidig kontoforbindelse | Angiv forbindelsen til et Azure Blob Storage eller Azure Data Lake Storage Gen2, som refererer til den forekomst af Storage, som du bruger som et midlertidigt midlertidig lagringslager. Opret en midlertidig forbindelse, hvis du ikke har den. | forbindelse (under externalReferences ) |
Lagersti | Angiv den sti, du vil indeholde de faselagrede data. Hvis du ikke angiver en sti, opretter tjenesten en objektbeholder til lagring af midlertidige data. Angiv kun en sti, hvis du bruger Storage med en signatur for delt adgang, eller du har brug for midlertidige data for at være på en bestemt placering. | path |
Aktivér komprimering | Angiver, om data skal komprimeres, før de kopieres til destinationen. Denne indstilling reducerer mængden af data, der overføres. | enableCompression |
Bevare | Angiv, om metadata/ACL'er skal bevares under datakopien. | bevare |
Bemærk
Hvis du bruger faseinddelt kopi med komprimering aktiveret, understøttes godkendelse af tjenesteprincipalen for midlertidig blobforbindelse ikke.
Konfigurer parametre i en kopiaktivitet
Parametre kan bruges til at styre funktionsmåden for en pipeline og dens aktiviteter. Du kan bruge Tilføj dynamisk indhold til at angive parametre for dine egenskaber for kopiaktivitet. Lad os tage angivelse af Lakehouse/Data Warehouse/KQL Database som et eksempel for at se, hvordan du bruger den.
Når du har valgt Arbejdsområde som datalagertype i din kilde eller destination og angivet Lakehouse/Data Warehouse KQL-database/ som arbejdsområdedatalagertype, skal du vælge Tilføj dynamisk indhold på rullelisten over Lakehouse eller Data Warehouse eller KQL-database.
Vælg +under fanen Parametre i ruden Tilføj dynamisk indhold i pop op-vinduet.
Angiv navnet på parameteren, og giv den en standardværdi, hvis du vil, eller du kan angive værdien for parameteren, når du har valgt Kør i pipelinen.
Bemærk, at parameterværdien skal være Objekt-id for Lakehouse/Data Warehouse/KQL Database. Hvis du vil hente dit Lakehouse/Data Warehouse/KQL Database-objekt-id, skal du åbne din Lakehouse/Data Warehouse/KQL-database i dit arbejdsområde, og id'et er efter
/lakehouses/
eller/datawarehouses/
/databases/
i din URL-adresse.Lakehouse-objekt-id:
Data Warehouse-objekt-id:
KQL Database-objekt-id:
Vælg Gem for at gå tilbage til ruden Tilføj dynamisk indhold . Vælg derefter din parameter, så den vises i udtryksfeltet. Vælg derefter OK. Du går tilbage til pipelinesiden og kan se, at parameterudtrykket er angivet efter Lakehouse-objekt-id'et/Data Warehouse-objekt-id/KQL Database-objekt-id.