Sådan konfigurerer du Lakehouse i en kopiaktivitet

I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i en datapipeline til at kopiere data fra og til Fabric Lakehouse.

Vigtigt

Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her. Se Azure Data Factory dokumentation for tjenesten i Azure.

Understøttet format

Lakehouse understøtter følgende filformater. Se hver artikel for formatbaserede indstillinger.

Understøttet konfiguration

Hvis du vil have konfigurationen af hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.

Generelt

Gå til Generelt for konfigurationen af fanen Generelt.

Kilde

Følgende egenskaber understøttes for Lakehouse under fanen Kilde for en kopiaktivitet.

Skærmbillede, der viser kildefanen og listen over egenskaber.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg Arbejdsområde.
  • Datalagertype for arbejdsområde: Vælg Lakehouse på listen over datalagertyper.
  • Lakehouse: Vælg et eksisterende Lakehouse fra arbejdsområdet. Hvis der ikke findes nogen, skal du oprette et nyt Lakehouse ved at vælge Ny.
  • Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i søen. Du kan finde flere oplysninger i Introduktion til Lakehouse.
    • Hvis du vælger Tabeller:
      • Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som kilde.
      • Under Avanceret kan du angive følgende felter:
        • Tidsstempel: Angiv, at et ældre snapshot skal forespørge efter tidsstempel.
        • Version: Angiv, at der skal forespørge om et ældre snapshot efter version.
        • Yderligere kolonner: Føj yderligere datakolonner til lagringskildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.
    • Hvis du vælger Filer:
      • Filtype: Du kan vælge Filsti, Sti til jokertegnfil eller Liste over filer som filtype. På følgende liste beskrives konfigurationen af hver indstilling:

        Skærmbillede, der viser filstien.

        • Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.

        • Sti til jokertegnfil: Angiv mappen eller filstien med jokertegn under det angivne lakehouse-ikke-administrerede område (under Filer) for at filtrere kildemapperne eller -filerne. Tilladte jokertegn er: * (svarer til nul eller flere tegn) og ? (svarer til nul eller enkelt tegn). Bruges ^ til at flygte, hvis mappen eller filnavnet har jokertegn eller dette escape-tegn i.

          • Sti til jokertegnmappe: Stien til mappen under den angivne objektbeholder. Hvis du vil bruge et jokertegn til at filtrere mappen, skal du springe denne indstilling over og angive disse oplysninger i indstillingerne for aktivitetskilden.

          • Jokertegnfilnavn: Filnavnet under det angivne lakehouse-ikke-administrerede område (under Filer) og mappestien.

            Skærmbillede, der viser stien til jokertegnfilen.

        • Liste over filer: Angiver, at du vil kopiere et bestemt filsæt.

          • Mappesti: Peger på en mappe, der indeholder de filer, du vil kopiere.
          • Sti til filliste: Peger på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede filsti.

          Skærmbillede, der viser stien til fillisten.

      • Rekursivt: Angiver, om dataene læses rekursivt fra undermapperne eller kun fra den angivne mappe. Hvis indstillingen er aktiveret, behandles alle filer i inputmappen og dens undermapper rekursivt. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.

      • Filformat: Vælg filformatet på rullelisten. Vælg knappen Indstillinger for at konfigurere filformatet. Hvis du vil have oplysninger om indstillinger for forskellige filformater, skal du se artikler i Understøttet format for at få detaljerede oplysninger.

      • Under Avanceret kan du angive følgende felter:

        • Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
          • Starttidspunkt: Filerne vælges, hvis deres seneste ændrede klokkeslæt er større end eller lig med det konfigurerede klokkeslæt.
          • Sluttidspunkt: Filerne vælges, hvis deres seneste ændringstidspunkt er mindre end det konfigurerede tidspunkt.
        • Aktivér partitionsregistrering: For filer, der er partitioneret, skal du angive, om partitionerne skal fortolkes fra filstien, og tilføje dem som ekstra kildekolonner.
          • Partitionsrodsti: Når partitionsregistrering er aktiveret, skal du angive den absolutte rodsti for at læse partitionerede mapper som datakolonner.
        • Maksimalt antal samtidige forbindelser: Angiver den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.

Destination

Følgende egenskaber understøttes for Lakehouse under fanen Destination for en kopiaktivitet.

Skærmbillede, der viser destinationsfanen.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg Arbejdsområde.
  • Datalagertype for arbejdsområde: Vælg Lakehouse på listen over datalagertyper.
  • Lakehouse: Vælg et eksisterende Lakehouse fra arbejdsområdet. Hvis der ikke findes nogen, skal du oprette et nyt Lakehouse ved at vælge Ny.
  • Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i søen. Du kan finde flere oplysninger i Introduktion til Lakehouse.
    • Hvis du vælger Tabeller:

      • Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som destination.

        Skærmbillede, der viser tabelnavnet.

      • Under Avanceret kan du angive følgende felter:

        • Maksimalt antal rækker pr. fil: Angiv det maksimale antal rækker pr. fil, når der skrives data til Lakehouse.
        • Tabelhandlinger: Angiv handlingen i forhold til den valgte tabel.
          • Tilføj: Føj nye værdier til eksisterende tabel.
          • Overskriv: Overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. Hvis denne handling er valgt, kan du aktivere partition i destinationstabellen:
            • Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur, der er baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. F.eks. "year=2000/month=01/file". Dette valg understøtter kun indsættelsestilstand og kræver en tom mappe i destinationen.
              • Navn på partitionskolonne: Vælg mellem destinationskolonnerne i skematilknytningen. Understøttede datatyper er streng, heltal, boolesk og datetime. Format respekterer indstillingerne for typekonvertering under fanen Tilknytning .
        • Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
    • Hvis du vælger Filer:

      • Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.

        Skærmbillede, der viser filstien i destinationen.

      • Filformat: Vælg filformatet på rullelisten. Vælg Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttede formater for at få flere oplysninger om indstillinger for forskellige filformater.

      • Under Avanceret kan du angive følgende felter:

        • Funktionsmåde for kopiering: Definerer funktionsmåden for kopiering, når kilden er filer fra et filbaseret datalager. Du kan vælge Tilføj dynamisk indhold, Ingen, Fladt hierarki eller Bevar hierarki som din kopifunktion. Konfigurationen af hver indstilling er:

          • Tilføj dynamisk indhold: Hvis du vil angive et udtryk for en egenskabsværdi, skal du vælge Tilføj dynamisk indhold. Dette felt åbner udtryksgeneratoren, hvor du kan oprette udtryk ud fra understøttede systemvariabler, aktivitetsoutput, funktioner og brugerdefinerede variabler eller parametre. Du kan finde flere oplysninger om udtrykssproget i Udtryk og funktioner.

          • Ingen: Vælg denne markering for ikke at bruge kopiering.

          • Fladgør hierarki: Alle filer fra kildemappen er på det første niveau i destinationsmappen. Destinationsfilerne har automatisk genererede navne.

          • Bevar hierarki: Bevarer filhierarkiet i destinationsmappen. Den relative sti for en kildefil til kildemappen er identisk med den relative sti for en destinationsfil til destinationsmappen.

            Skærmbillede, der viser funktionsmåden for kopiering.

        • Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.

        • Blokstørrelse (MB): Angiv blokstørrelsen i MB, når du skriver data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB.

        • Metadata: Angiv brugerdefinerede metadata, når der kopieres til destinationsdatalageret. Hvert objekt under matrixen metadata repræsenterer en ekstra kolonne. name definerer navnet på metadatanøglen og value angiver dataværdien for den pågældende nøgle. Hvis funktionen preserve attributes bruges, vil de angivne metadata forene/overskrive med kildefilens metadata. De tilladte dataværdier er:

          • $$LASTMODIFIED: En reserveret variabel angiver, at kildefilerne senest blev ændret. Anvend kun på en filbaseret kilde med binært format.

          • Udtryk

          • Statisk værdi

            Skærmbillede, der viser metadata.

Kortlægning

Gå til Tilknytning for konfigurationen af fanen Tilknytning. Hvis du vælger Binær som filformat, understøttes tilknytning ikke.

Indstillinger

Gå til Indstillinger under fanen Indstillinger.

Tabeloversigt

Følgende tabeller indeholder flere oplysninger om en kopiaktivitet i Lakehouse.

Kildeoplysninger

Navn Beskrivelse Værdi Påkrævet JSON-scriptegenskab
Datalagertype Typen af datalager. Arbejdsområde Yes /
Datalagertype for arbejdsområde Afsnittet, hvor du kan vælge datalagertypen for dit arbejdsområde. Lakehouse Yes type
Lakehouse Lakehouse, som du bruger som kilde. <dit lakehouse> Yes workspaceId
artifactId
Rodmappen Rodmappens type. * Tabeller
* Filer
No rootFolder:
Tabel eller filer
Tabelnavn Navnet på den tabel, der skal læse data. <tabelnavn> Ja, når du vælger Tabeller i rodmappen tabel
(under typeProperties ->source ->typeProperties)
Tidsstempel Tidsstemplet til at forespørge om et ældre snapshot. <tidsstempel> No timestampAsOf
Version Den version, der skal forespørge om et ældre snapshot. <Version> No versionAsOf
Flere kolonner Yderligere datakolonner til lagring af kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte. *Navn
*Værdi
No additionalColumns:
*Navn
*Værdi
Filtype Den filtype, du bruger. * Filsti
* Sti til jokertegnfil
* Liste over filer
Yes /
Filsti Kopiér fra stien til en mappe/fil under kildedatalageret. Anvend, når du vælger Filsti i Filtype. <filsti> Ja, når du vælger Filsti * folderPath
*Filnavn
Jokertegnstier Mappestien med jokertegn under kildedatalageret, der er konfigureret til at filtrere kildemapper. Anvend, når du vælger Sti til jokertegnfil i Filtype. <jokertegnstier> Ja, når filstien med jokertegn vælges * jokertegnFolderPath
* jokertegnFileName
Mappesti Peger på en mappe, der indeholder filer, du vil kopiere. Anvend, når du vælger Liste over filer i Filtype. <mappesti> No folderPath
Sti til filliste Angiver, at et givent filsæt skal kopieres. Peg på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede sti. Anvend, når du vælger Liste over filer i Filtype. <sti til filliste> No fileListPath
Rekursivt Behandl alle filer i inputmappen og dens undermapper rekursivt eller kun dem i den valgte mappe. Denne indstilling er deaktiveret, når der vælges en enkelt fil. vælg eller fjern markeringen No Rekursive:
Sand eller Falsk
Filformat Formatet af den fil, du bruger. <Filformat> Yes type (under formatSettings):
DelimitedTextReadSettings
Filtrer efter senest ændret Filerne med tidspunkt for seneste ændring i intervallet [Starttidspunkt, Sluttidspunkt) filtreres til yderligere behandling.

Klokkeslættet anvendes på UTC-tidszonen i formatet 'yyyy-mm-ddThh:mm:ss.fffZ'.

Denne egenskab kan springes over, hvilket betyder, at der ikke anvendes et filattributfilter. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
* Starttidspunkt
* Sluttidspunkt
No modifiedDatetimeStart
modifiedDatetimeEnd
Aktivér partitionsregistrering Om partitionerne skal analyseres fra filstien og tilføjes som ekstra kildekolonner. Markeret eller ikke markeret No enablePartitionDiscovery:
true eller false (standard)
Partitionsrodsti Den absolutte partitionsrodsti til at læse partitionerede mapper som datakolonner. <partitionens rodsti> No partitionRootPath
Maks. antal samtidige forbindelser Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Der kræves kun en værdi, når du vil begrænse samtidige forbindelser. <maks. antal samtidige forbindelser> No maxConcurrentConnections

Destinationsoplysninger

Navn Beskrivelse Værdi Påkrævet JSON-scriptegenskab
Datalagertype Typen af datalager. Arbejdsområde Yes /
Datalagertype for arbejdsområde Afsnittet, hvor du kan vælge datalagertypen for dit arbejdsområde. Lakehouse Yes type
Lakehouse Lakehouse, som du bruger som destination. <dit lakehouse> Yes workspaceId
artifactId
Rodmappen Rodmappens type. * Tabeller
* Filer
Yes rootFolder:
Tabel eller filer
Tabelnavn Navnet på den tabel, du vil skrive data til. <tabelnavnet> Ja, når du vælger Tabeller i rodmappen tabel
(under typeProperties ->sink ->typeProperties)
Maks. antal rækker pr. fil Når du skriver data i en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. <maks. antal rækker pr. kolonne> No maxRowsPerFile
Tabelhandling Føj nye værdier til en eksisterende tabel, eller overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. * Tilføje
* Overskrive
No tableActionOption:
Tilføj eller overskriv
Maks. antal samtidige forbindelser Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser. <maks. antal samtidige forbindelser> No maxConcurrentConnections
Filsti Skriv data til stien til en mappe/fil under destinationsdatalageret. <filsti> No * folderPath
*Filnavn
Filformat Formatet af den fil, du bruger. <Filformat> Yes type (under formatSettings):
DelimitedTextWriteSettings
Funktionsmåde for kopiering Den funktionsmåde for kopiering, der er defineret, når kilden er filer fra et filbaseret datalager. * Tilføj dynamisk indhold
* Ingen
* Fladgør hierarki
* Bevar hierarki
No copyBehavior:


* Fladt hierarki
* PreserveHierarchy
Blokstørrelse (MB) Blokstørrelsen i MB, der bruges til at skrive data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB. <blokstørrelse> No blockSizeInMB
Metadata De brugerdefinerede metadata, der angives ved kopiering til en destination. * $$LASTMODIFIED
*Udtryk
* Statisk værdi
No Metadata

Næste trin