Sådan konfigurerer du Lakehouse i en kopiaktivitet
I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i en datapipeline til at kopiere data fra og til Fabric Lakehouse.
Vigtigt
Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her. Se Azure Data Factory dokumentation for tjenesten i Azure.
Understøttet format
Lakehouse understøtter følgende filformater. Se hver artikel for formatbaserede indstillinger.
- Avro-format
- Binært format
- Afgrænset tekstformat
- Excel-format
- JSON-format
- ORC-format
- Parquetformat
- XML-format
Understøttet konfiguration
Hvis du vil have konfigurationen af hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.
Generelt
Gå til Generelt for konfigurationen af fanen Generelt.
Kilde
Følgende egenskaber understøttes for Lakehouse under fanen Kilde for en kopiaktivitet.
Følgende egenskaber er påkrævet:
- Datalagertype: Vælg Arbejdsområde.
- Datalagertype for arbejdsområde: Vælg Lakehouse på listen over datalagertyper.
- Lakehouse: Vælg et eksisterende Lakehouse fra arbejdsområdet. Hvis der ikke findes nogen, skal du oprette et nyt Lakehouse ved at vælge Ny.
- Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i søen. Du kan finde flere oplysninger i Introduktion til Lakehouse.
- Hvis du vælger Tabeller:
- Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som kilde.
- Under Avanceret kan du angive følgende felter:
- Tidsstempel: Angiv, at et ældre snapshot skal forespørge efter tidsstempel.
- Version: Angiv, at der skal forespørge om et ældre snapshot efter version.
- Yderligere kolonner: Føj yderligere datakolonner til lagringskildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.
- Hvis du vælger Filer:
Filtype: Du kan vælge Filsti, Sti til jokertegnfil eller Liste over filer som filtype. På følgende liste beskrives konfigurationen af hver indstilling:
Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.
Sti til jokertegnfil: Angiv mappen eller filstien med jokertegn under det angivne lakehouse-ikke-administrerede område (under Filer) for at filtrere kildemapperne eller -filerne. Tilladte jokertegn er:
*
(svarer til nul eller flere tegn) og?
(svarer til nul eller enkelt tegn). Bruges^
til at flygte, hvis mappen eller filnavnet har jokertegn eller dette escape-tegn i.Sti til jokertegnmappe: Stien til mappen under den angivne objektbeholder. Hvis du vil bruge et jokertegn til at filtrere mappen, skal du springe denne indstilling over og angive disse oplysninger i indstillingerne for aktivitetskilden.
Jokertegnfilnavn: Filnavnet under det angivne lakehouse-ikke-administrerede område (under Filer) og mappestien.
Liste over filer: Angiver, at du vil kopiere et bestemt filsæt.
- Mappesti: Peger på en mappe, der indeholder de filer, du vil kopiere.
- Sti til filliste: Peger på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede filsti.
Rekursivt: Angiver, om dataene læses rekursivt fra undermapperne eller kun fra den angivne mappe. Hvis indstillingen er aktiveret, behandles alle filer i inputmappen og dens undermapper rekursivt. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
Filformat: Vælg filformatet på rullelisten. Vælg knappen Indstillinger for at konfigurere filformatet. Hvis du vil have oplysninger om indstillinger for forskellige filformater, skal du se artikler i Understøttet format for at få detaljerede oplysninger.
Under Avanceret kan du angive følgende felter:
- Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
- Starttidspunkt: Filerne vælges, hvis deres seneste ændrede klokkeslæt er større end eller lig med det konfigurerede klokkeslæt.
- Sluttidspunkt: Filerne vælges, hvis deres seneste ændringstidspunkt er mindre end det konfigurerede tidspunkt.
- Aktivér partitionsregistrering: For filer, der er partitioneret, skal du angive, om partitionerne skal fortolkes fra filstien, og tilføje dem som ekstra kildekolonner.
- Partitionsrodsti: Når partitionsregistrering er aktiveret, skal du angive den absolutte rodsti for at læse partitionerede mapper som datakolonner.
- Maksimalt antal samtidige forbindelser: Angiver den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
- Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
- Hvis du vælger Tabeller:
Destination
Følgende egenskaber understøttes for Lakehouse under fanen Destination for en kopiaktivitet.
Følgende egenskaber er påkrævet:
- Datalagertype: Vælg Arbejdsområde.
- Datalagertype for arbejdsområde: Vælg Lakehouse på listen over datalagertyper.
- Lakehouse: Vælg et eksisterende Lakehouse fra arbejdsområdet. Hvis der ikke findes nogen, skal du oprette et nyt Lakehouse ved at vælge Ny.
- Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i søen. Du kan finde flere oplysninger i Introduktion til Lakehouse.
Hvis du vælger Tabeller:
Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som destination.
Under Avanceret kan du angive følgende felter:
- Maksimalt antal rækker pr. fil: Angiv det maksimale antal rækker pr. fil, når der skrives data til Lakehouse.
- Tabelhandlinger: Angiv handlingen i forhold til den valgte tabel.
- Tilføj: Føj nye værdier til eksisterende tabel.
- Overskriv: Overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. Hvis denne handling er valgt, kan du aktivere partition i destinationstabellen:
- Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur, der er baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. F.eks. "year=2000/month=01/file". Dette valg understøtter kun indsættelsestilstand og kræver en tom mappe i destinationen.
- Navn på partitionskolonne: Vælg mellem destinationskolonnerne i skematilknytningen. Understøttede datatyper er streng, heltal, boolesk og datetime. Format respekterer indstillingerne for typekonvertering under fanen Tilknytning .
- Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur, der er baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. F.eks. "year=2000/month=01/file". Dette valg understøtter kun indsættelsestilstand og kræver en tom mappe i destinationen.
- Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
Hvis du vælger Filer:
Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.
Filformat: Vælg filformatet på rullelisten. Vælg Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttede formater for at få flere oplysninger om indstillinger for forskellige filformater.
Under Avanceret kan du angive følgende felter:
Funktionsmåde for kopiering: Definerer funktionsmåden for kopiering, når kilden er filer fra et filbaseret datalager. Du kan vælge Tilføj dynamisk indhold, Ingen, Fladt hierarki eller Bevar hierarki som din kopifunktion. Konfigurationen af hver indstilling er:
Tilføj dynamisk indhold: Hvis du vil angive et udtryk for en egenskabsværdi, skal du vælge Tilføj dynamisk indhold. Dette felt åbner udtryksgeneratoren, hvor du kan oprette udtryk ud fra understøttede systemvariabler, aktivitetsoutput, funktioner og brugerdefinerede variabler eller parametre. Du kan finde flere oplysninger om udtrykssproget i Udtryk og funktioner.
Ingen: Vælg denne markering for ikke at bruge kopiering.
Fladgør hierarki: Alle filer fra kildemappen er på det første niveau i destinationsmappen. Destinationsfilerne har automatisk genererede navne.
Bevar hierarki: Bevarer filhierarkiet i destinationsmappen. Den relative sti for en kildefil til kildemappen er identisk med den relative sti for en destinationsfil til destinationsmappen.
Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
Blokstørrelse (MB): Angiv blokstørrelsen i MB, når du skriver data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB.
Metadata: Angiv brugerdefinerede metadata, når der kopieres til destinationsdatalageret. Hvert objekt under matrixen
metadata
repræsenterer en ekstra kolonne.name
definerer navnet på metadatanøglen ogvalue
angiver dataværdien for den pågældende nøgle. Hvis funktionen preserve attributes bruges, vil de angivne metadata forene/overskrive med kildefilens metadata. De tilladte dataværdier er:
Kortlægning
Gå til Tilknytning for konfigurationen af fanen Tilknytning. Hvis du vælger Binær som filformat, understøttes tilknytning ikke.
Indstillinger
Gå til Indstillinger under fanen Indstillinger.
Tabeloversigt
Følgende tabeller indeholder flere oplysninger om en kopiaktivitet i Lakehouse.
Kildeoplysninger
Navn | Beskrivelse | Værdi | Påkrævet | JSON-scriptegenskab |
---|---|---|---|---|
Datalagertype | Typen af datalager. | Arbejdsområde | Yes | / |
Datalagertype for arbejdsområde | Afsnittet, hvor du kan vælge datalagertypen for dit arbejdsområde. | Lakehouse | Yes | type |
Lakehouse | Lakehouse, som du bruger som kilde. | <dit lakehouse> | Yes | workspaceId artifactId |
Rodmappen | Rodmappens type. | * Tabeller * Filer |
No | rootFolder: Tabel eller filer |
Tabelnavn | Navnet på den tabel, der skal læse data. | <tabelnavn> | Ja, når du vælger Tabeller i rodmappen | tabel (under typeProperties ->source ->typeProperties ) |
Tidsstempel | Tidsstemplet til at forespørge om et ældre snapshot. | <tidsstempel> | No | timestampAsOf |
Version | Den version, der skal forespørge om et ældre snapshot. | <Version> | No | versionAsOf |
Flere kolonner | Yderligere datakolonner til lagring af kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte. | *Navn *Værdi |
No | additionalColumns: *Navn *Værdi |
Filtype | Den filtype, du bruger. | * Filsti * Sti til jokertegnfil * Liste over filer |
Yes | / |
Filsti | Kopiér fra stien til en mappe/fil under kildedatalageret. Anvend, når du vælger Filsti i Filtype. | <filsti> | Ja, når du vælger Filsti | * folderPath *Filnavn |
Jokertegnstier | Mappestien med jokertegn under kildedatalageret, der er konfigureret til at filtrere kildemapper. Anvend, når du vælger Sti til jokertegnfil i Filtype. | <jokertegnstier> | Ja, når filstien med jokertegn vælges | * jokertegnFolderPath * jokertegnFileName |
Mappesti | Peger på en mappe, der indeholder filer, du vil kopiere. Anvend, når du vælger Liste over filer i Filtype. | <mappesti> | No | folderPath |
Sti til filliste | Angiver, at et givent filsæt skal kopieres. Peg på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede sti. Anvend, når du vælger Liste over filer i Filtype. | <sti til filliste> | No | fileListPath |
Rekursivt | Behandl alle filer i inputmappen og dens undermapper rekursivt eller kun dem i den valgte mappe. Denne indstilling er deaktiveret, når der vælges en enkelt fil. | vælg eller fjern markeringen | No | Rekursive: Sand eller Falsk |
Filformat | Formatet af den fil, du bruger. | <Filformat> | Yes | type (under formatSettings ):DelimitedTextReadSettings |
Filtrer efter senest ændret | Filerne med tidspunkt for seneste ændring i intervallet [Starttidspunkt, Sluttidspunkt) filtreres til yderligere behandling. Klokkeslættet anvendes på UTC-tidszonen i formatet 'yyyy-mm-ddThh:mm:ss.fffZ'. Denne egenskab kan springes over, hvilket betyder, at der ikke anvendes et filattributfilter. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer. |
* Starttidspunkt * Sluttidspunkt |
No | modifiedDatetimeStart modifiedDatetimeEnd |
Aktivér partitionsregistrering | Om partitionerne skal analyseres fra filstien og tilføjes som ekstra kildekolonner. | Markeret eller ikke markeret | No | enablePartitionDiscovery: true eller false (standard) |
Partitionsrodsti | Den absolutte partitionsrodsti til at læse partitionerede mapper som datakolonner. | <partitionens rodsti> | No | partitionRootPath |
Maks. antal samtidige forbindelser | Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Der kræves kun en værdi, når du vil begrænse samtidige forbindelser. | <maks. antal samtidige forbindelser> | No | maxConcurrentConnections |
Destinationsoplysninger
Navn | Beskrivelse | Værdi | Påkrævet | JSON-scriptegenskab |
---|---|---|---|---|
Datalagertype | Typen af datalager. | Arbejdsområde | Yes | / |
Datalagertype for arbejdsområde | Afsnittet, hvor du kan vælge datalagertypen for dit arbejdsområde. | Lakehouse | Yes | type |
Lakehouse | Lakehouse, som du bruger som destination. | <dit lakehouse> | Yes | workspaceId artifactId |
Rodmappen | Rodmappens type. | * Tabeller * Filer |
Yes | rootFolder: Tabel eller filer |
Tabelnavn | Navnet på den tabel, du vil skrive data til. | <tabelnavnet> | Ja, når du vælger Tabeller i rodmappen | tabel (under typeProperties ->sink ->typeProperties ) |
Maks. antal rækker pr. fil | Når du skriver data i en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. | <maks. antal rækker pr. kolonne> | No | maxRowsPerFile |
Tabelhandling | Føj nye værdier til en eksisterende tabel, eller overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. | * Tilføje * Overskrive |
No | tableActionOption: Tilføj eller overskriv |
Maks. antal samtidige forbindelser | Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser. | <maks. antal samtidige forbindelser> | No | maxConcurrentConnections |
Filsti | Skriv data til stien til en mappe/fil under destinationsdatalageret. | <filsti> | No | * folderPath *Filnavn |
Filformat | Formatet af den fil, du bruger. | <Filformat> | Yes | type (under formatSettings ):DelimitedTextWriteSettings |
Funktionsmåde for kopiering | Den funktionsmåde for kopiering, der er defineret, når kilden er filer fra et filbaseret datalager. | * Tilføj dynamisk indhold * Ingen * Fladgør hierarki * Bevar hierarki |
No | copyBehavior: * Fladt hierarki * PreserveHierarchy |
Blokstørrelse (MB) | Blokstørrelsen i MB, der bruges til at skrive data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB. | <blokstørrelse> | No | blockSizeInMB |
Metadata | De brugerdefinerede metadata, der angives ved kopiering til en destination. | * $$LASTMODIFIED *Udtryk * Statisk værdi |
No | Metadata |