Konfigurer Lakehouse i en kopiaktivitet
I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i en datapipeline til at kopiere data fra og til Fabric Lakehouse. Som standard skrives data til Lakehouse Table i V-Order, og du kan gå til Tabeloptimering af Delta Lake og V-Order for at få flere oplysninger.
Understøttet format
Lakehouse understøtter følgende filformater. Se hver artikel for at få formatbaserede indstillinger.
- Avro-format
- Binært format
- Afgrænset tekstformat
- Excel-format
- JSON-format
- ORC-format
- Parquetformat
- XML-format
Understøttet konfiguration
Hvis du vil konfigurere hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.
Generelt
Gå til Generelt for at se konfigurationen af fanen Generelt.
Kilde
Følgende egenskaber understøttes for Lakehouse under fanen Kilde for en kopiaktivitet.
Følgende egenskaber er påkrævet:
Datalagertype: Vælg arbejdsområde.
Datalagertype for arbejdsområde: Vælg Lakehouse på listen over datalagertyper.
Lakehouse: Vælg et eksisterende Lakehouse fra arbejdsområdet. Hvis der ikke findes nogen, skal du oprette et nyt Lakehouse ved at vælge Ny. Hvis du bruger Tilføj dynamisk indhold til at angive dit Lakehouse, skal du tilføje en parameter og angive Lakehouse-objekt-id'et som parameterværdi. Hvis du vil hente dit Lakehouse-objekt-id, skal du åbne lakehouse'et i dit arbejdsområde, hvorefter id'et er efter
/lakehouses/
i din URL-adresse.Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i din sø. Du kan finde flere oplysninger i Introduktion til Lakehouse.
- Hvis du vælger Tabeller:
- Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som kilde.
- Under Avanceret kan du angive følgende felter:
- Tidsstempel: Angiv, at et ældre snapshot skal forespørge efter tidsstempel.
- Version: Angiv, om der skal forespørgs om et ældre snapshot efter version.
- Flere kolonner: Føj yderligere datakolonner til lagringskildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.
- Hvis du vælger Filer:
Filtype: Du kan vælge Filsti, Sti til jokertegn eller Liste over filer som filtype. På følgende liste beskrives konfigurationen af hver indstilling:
Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.
Sti til jokertegnfil: Angiv mappen eller filstien med jokertegn under det angivne ikke-administrerede Lakehouse-område (under Filer) for at filtrere kildemapperne eller -filerne. Tilladte jokertegn er:
*
(svarer til nul eller flere tegn) og?
(svarer til nul eller enkelt tegn). Bruges^
til at undslippe, hvis mappen eller filnavnet har jokertegn eller dette escape-tegn.Sti til jokertegnmappe: Stien til mappen under den angivne objektbeholder. Hvis du vil bruge et jokertegn til at filtrere mappen, skal du springe denne indstilling over og angive disse oplysninger i indstillingerne for aktivitetskilden.
Jokertegnfilnavn: Filnavnet under det angivne Lakehouse-ikke-administrerede område (under Filer) og mappestien.
Liste over filer: Angiver, at et givent filsæt skal kopieres.
- Mappesti: Peger på en mappe, der indeholder filer, du vil kopiere.
- Sti til filliste: Peger på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede filsti.
Rekursivt: Angiver, om dataene læses rekursivt fra undermapperne eller kun fra den angivne mappe. Hvis indstillingen er aktiveret, behandles alle filer i inputmappen og dens undermapper rekursivt. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
Filformat: Vælg filformatet på rullelisten. Vælg knappen Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.
Under Avanceret kan du angive følgende felter:
- Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
- Starttidspunkt: Filerne vælges, hvis deres seneste ændringstid er større end eller lig med det konfigurerede klokkeslæt.
- Sluttidspunkt: Filerne vælges, hvis deres seneste ændringstid er mindre end det konfigurerede tidspunkt.
- Aktivér registrering af partition: For filer, der er partitioneret, skal du angive, om partitionerne skal fortolkes fra filstien, og tilføje dem som ekstra kildekolonner.
- Partitionsrodsti: Når registrering af partition er aktiveret, skal du angive den absolutte rodsti for at læse partitionerede mapper som datakolonner.
- Maksimalt antal samtidige forbindelser: Angiver den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
- Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
- Hvis du vælger Tabeller:
Destination
Følgende egenskaber understøttes for Lakehouse under fanen Destination for en kopiaktivitet.
Følgende egenskaber er påkrævet:
Datalagertype: Vælg arbejdsområde.
Datalagertype for arbejdsområde: Vælg Lakehouse på listen over datalagertyper.
Lakehouse: Vælg et eksisterende Lakehouse fra arbejdsområdet. Hvis der ikke findes nogen, skal du oprette et nyt Lakehouse ved at vælge Ny. Hvis du bruger Tilføj dynamisk indhold til at angive dit Lakehouse, skal du tilføje en parameter og angive Lakehouse-objekt-id'et som parameterværdi. Hvis du vil hente dit Lakehouse-objekt-id, skal du åbne lakehouse'et i dit arbejdsområde, hvorefter id'et er efter
/lakehouses/
i din URL-adresse.Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i din sø. Du kan finde flere oplysninger i Introduktion til Lakehouse.
Hvis du vælger Tabeller:
Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som destination.
Under Avanceret kan du angive følgende felter:
- Maks. antal rækker pr. fil: Angiv det maksimale antal rækker pr. fil, når der skrives data til Lakehouse.
- Tabelhandlinger: Angiv handlingen i forhold til den valgte tabel.
- Tilføj: Føj nye værdier til eksisterende tabel.
- Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
- Navn på partitionskolonne: Vælg mellem destinationskolonnerne i skematilknytningen, når du føjer data til en ny tabel. Når du føjer data til en eksisterende tabel, der allerede har partitioner, afledes partitionskolonnerne automatisk fra den eksisterende tabel. Understøttede datatyper er streng, heltal, boolesk og datetime. Format respekterer indstillinger for typekonvertering under fanen Tilknytning .
- Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
- Overskriv: Overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. Hvis denne handling er valgt, kan du aktivere partition i destinationstabellen:
- Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
- Navn på partitionskolonne: Vælg mellem destinationskolonnerne i skematilknytningen. Understøttede datatyper er streng, heltal, boolesk og datetime. Format respekterer indstillinger for typekonvertering under fanen Tilknytning .
- Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
- Tilføj: Føj nye værdier til eksisterende tabel.
- Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
Hvis du vælger Filer:
Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.
Filformat: Vælg filformatet på rullelisten. Vælg Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.
Under Avanceret kan du angive følgende felter:
Funktionsmåde for kopiering: Definerer kopifunktionsmåden, når kilden er filer fra et filbaseret datalager. Du kan vælge Tilføj dynamisk indhold, Ingen, Fladt hierarki eller Bevar hierarki som din kopifunktion. Konfigurationen af hver indstilling er:
Tilføj dynamisk indhold: Hvis du vil angive et udtryk for en egenskabsværdi, skal du vælge Tilføj dynamisk indhold. Dette felt åbner udtryksgeneratoren, hvor du kan oprette udtryk fra understøttede systemvariabler, aktivitetsoutput, funktioner og brugerdefinerede variabler eller parametre. Du kan få flere oplysninger om udtrykssproget under Udtryk og funktioner.
Ingen: Vælg dette valg for ikke at bruge kopiering.
Fladgør hierarki: Alle filer fra kildemappen er på det første niveau i destinationsmappen. Destinationsfilerne har automatisk genererede navne.
Bevar hierarki: Bevarer filhierarkiet i destinationsmappen. Den relative sti for en kildefil til kildemappen er identisk med den relative sti for en destinationsfil til destinationsmappen.
Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
Blokstørrelse (MB): Angiv blokstørrelsen i MB, når du skriver data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB.
Metadata: Angiv brugerdefinerede metadata, når der kopieres til destinationsdatalageret. Hvert objekt under matrixen
metadata
repræsenterer en ekstra kolonne.name
definerer navnet på metadatanøglen ogvalue
angiver dataværdien for den pågældende nøgle. Hvis funktionen bevar attributter bruges, vil de angivne metadata blive forenings-/overskrive med kildefilens metadata. De tilladte dataværdier er:
Tilknytning
Hvis du ikke anvender Tabellen Lakehouse som destinationsdatalager under fanen Tilknytning, skal du gå til Tilknytning.
Hvis du anvender tabellen Lakehouse som dit destinationsdatalager, bortset fra konfigurationen i Tilknytning, kan du redigere typen for dine destinationskolonner. Når du har valgt Importér skemaer, kan du angive kolonnetypen i destinationen.
Typen for kolonnen PersonID i kilden er f.eks. int, og du kan ændre den til strengtype, når du tilknytter til destinationskolonnen.
Bemærk
Redigering af destinationstypen understøttes i øjeblikket ikke, når kilden er decimaltype.
Hvis du vælger Binær som filformat, understøttes tilknytning ikke.
Indstillinger
Gå til Indstillinger for at få Indstillinger fanekonfiguration.
Tabeloversigt
Følgende tabeller indeholder flere oplysninger om en kopiaktivitet i Lakehouse.
Kildeoplysninger
Navn | Beskrivelse | Værdi | Obligatorisk | JSON-scriptegenskab |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbejdsområde | Ja | / |
Datalagertype for arbejdsområde | Sektionen til valg af datalagertype for arbejdsområdet. | Lakehouse | Ja | type |
Lakehouse | Lakehouse, som du bruger som kilde. | <dit Lakehouse> | Ja | workspaceId artifactId |
Rodmappen | Rodmappens type. | * Tabeller * Filer |
Nr. | rootFolder: Tabel eller filer |
Tabelnavn | Navnet på den tabel, der skal læse data. | <tabelnavn> | Ja, når du vælger Tabeller i rodmappen | Tabel (under typeProperties ->source ->typeProperties ) |
Timestamp | Tidsstemplet til at forespørge om et ældre snapshot. | <Tidsstempel> | Nr. | timestampAsOf |
Version | Den version, der skal forespørge om et ældre snapshot. | <Version> | Nr. | versionAsOf |
Flere kolonner | Yderligere datakolonner til lagring af kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte. | *Navn *Værdi |
Nr. | additionalColumns: *Navn *Værdi |
Filtype | Den filtype, du bruger. | * Filsti * Sti til jokertegnfil * Liste over filer |
Ja | / |
Filsti | Kopiér fra stien til en mappe/fil under kildedatalageret. Anvend, når du vælger Filsti i Filtype. | <filsti> | Ja, når du vælger Filsti | * folderPath *Filnavn |
Jokertegnstier | Mappestien med jokertegn under kildedataene, der er konfigureret til at filtrere kildemapper. Anvend, når du vælger Sti til jokertegnfil i Filtype. | <jokertegnstier> | Ja, når du vælger sti til jokertegnfil | * jokertegnFolderPath * jokertegnFileName |
Mappesti | Peger på en mappe, der indeholder filer, du vil kopiere. Anvend, når du vælger Liste over filer i Filtype. | <mappesti> | Nr. | folderPath |
Sti til filliste | Angiver, at et givent filsæt skal kopieres. Peg på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede sti. Anvend, når du vælger Liste over filer i Filtype. | <sti til filliste> | Nr. | fileListPath |
Rekursivt | Behandl alle filer i inputmappen og dens undermapper rekursivt eller kun dem i den valgte mappe. Denne indstilling er deaktiveret, når der vælges en enkelt fil. | markér eller fjern markeringen | Nr. | Rekursive: true eller false |
Filformat | Formatet af den fil, du bruger. | <Filformat> | Ja | type (under formatSettings ):DelimitedTextRead Indstillinger |
Filtrer efter senest ændret | Filerne med tidspunkt for seneste ændring i intervallet [Starttidspunkt, Sluttidspunkt) filtreres til yderligere behandling. Klokkeslættet anvendes på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ .Denne egenskab kan springes over, hvilket betyder, at der ikke er anvendt et filattributfilter. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer. |
* Starttidspunkt * Sluttidspunkt |
Nr. | modifiedDatetimeStart modifiedDatetimeEnd |
Aktivér registrering af partition | Om partitionerne skal fortolkes fra filstien og tilføjes som ekstra kildekolonner. | Markeret eller ikke markeret | Nr. | enablePartitionDiscovery: true eller false (standard) |
Sti til partitionsrod | Den absolutte partitionsrodsti til at læse partitionerede mapper som datakolonner. | <din partitionsrodsti> | Nr. | partitionRootPath |
Maks. antal samtidige forbindelser | Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Der kræves kun en værdi, når du vil begrænse samtidige forbindelser. | <maks. antal samtidige forbindelser> | Nr. | maxConcurrent Forbind ions |
Destinationsoplysninger
Navn | Beskrivelse | Værdi | Obligatorisk | JSON-scriptegenskab |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbejdsområde | Ja | / |
Datalagertype for arbejdsområde | Sektionen til valg af datalagertype for arbejdsområdet. | Lakehouse | Ja | type |
Lakehouse | Lakehouse, som du bruger som destination. | <dit Lakehouse> | Ja | workspaceId artifactId |
Rodmappen | Rodmappens type. | * Tabeller * Filer |
Ja | rootFolder: Tabel eller filer |
Tabelnavn | Navnet på den tabel, du vil skrive data til. | <dit tabelnavn> | Ja, når du vælger Tabeller i rodmappen | Tabel (under typeProperties ->sink ->typeProperties ) |
Maks. antal rækker pr. fil | Når du skriver data til en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. | <maks. antal rækker pr.> | Nr. | maxRowsPerFile |
Tabelhandling | Føj nye værdier til en eksisterende tabel, eller overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. | * Tilføj * Overskrive |
Nr. | tableActionOption: Tilføj eller overskriv |
Maks. antal samtidige forbindelser | Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser. | <maks. antal samtidige forbindelser> | Nr. | maxConcurrent Forbind ions |
Filsti | Skriv data til stien til en mappe/fil under destinationsdatalageret. | <filsti> | Nr. | * folderPath *Filnavn |
Filformat | Formatet af den fil, du bruger. | <Filformat> | Ja | type (under formatSettings ):DelimitedTextWrite Indstillinger |
Funktionsmåde for kopiering | Den funktionsmåde for kopiering, der er defineret, når kilden er filer fra et filbaseret datalager. | * Tilføj dynamisk indhold * Ingen * Fladgør hierarki * Bevar hierarki |
Nr. | copyBehavior: * Fladt hierarki * PreserveHierarchy |
Blokstørrelse (MB) | Blokstørrelsen i MB, der bruges til at skrive data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB. | <blokstørrelse> | Nr. | blockSizeInMB |
Metadata | De brugerdefinerede metadata, der angives ved kopiering til en destination. | * $$LASTMODIFIED *Udtryk * Statisk værdi |
Nr. | Metadata |
Relateret indhold
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: I hele 2024 udfaser vi GitHub-problemer som feedbackmekanisme for indhold og erstatter det med et nyt feedbacksystem. Du kan få flere oplysninger under:Indsend og få vist feedback om