Konfigurer Lakehouse i en kopiaktivitet

I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i en datapipeline til at kopiere data fra og til Fabric Lakehouse. Som standard skrives data til Lakehouse Table i V-Order, og du kan gå til Tabeloptimering af Delta Lake og V-Order for at få flere oplysninger.

Understøttet format

Lakehouse understøtter følgende filformater. Se hver artikel for at få formatbaserede indstillinger.

Understøttet konfiguration

Hvis du vil konfigurere hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.

Generelt

Gå til Generelt for at se konfigurationen af fanen Generelt.

Kilde

Følgende egenskaber understøttes for Lakehouse under fanen Kilde for en kopiaktivitet.

Skærmbillede, der viser kildefanen og listen over egenskaber.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg arbejdsområde.

  • Datalagertype for arbejdsområde: Vælg Lakehouse på listen over datalagertyper.

  • Lakehouse: Vælg et eksisterende Lakehouse fra arbejdsområdet. Hvis der ikke findes nogen, skal du oprette et nyt Lakehouse ved at vælge Ny. Hvis du bruger Tilføj dynamisk indhold til at angive dit Lakehouse, skal du tilføje en parameter og angive Lakehouse-objekt-id'et som parameterværdi. Hvis du vil hente dit Lakehouse-objekt-id, skal du åbne lakehouse'et i dit arbejdsområde, hvorefter id'et er efter /lakehouses/i din URL-adresse.

    Skærmbillede, der viser Lakehouse-objekt-id'et.

  • Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i din sø. Du kan finde flere oplysninger i Introduktion til Lakehouse.

    • Hvis du vælger Tabeller:
      • Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som kilde.
      • Under Avanceret kan du angive følgende felter:
        • Tidsstempel: Angiv, at et ældre snapshot skal forespørge efter tidsstempel.
        • Version: Angiv, om der skal forespørgs om et ældre snapshot efter version.
        • Flere kolonner: Føj yderligere datakolonner til lagringskildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.
    • Hvis du vælger Filer:
      • Filtype: Du kan vælge Filsti, Sti til jokertegn eller Liste over filer som filtype. På følgende liste beskrives konfigurationen af hver indstilling:

        Skærmbillede, der viser filstien.

        • Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.

        • Sti til jokertegnfil: Angiv mappen eller filstien med jokertegn under det angivne ikke-administrerede Lakehouse-område (under Filer) for at filtrere kildemapperne eller -filerne. Tilladte jokertegn er: * (svarer til nul eller flere tegn) og ? (svarer til nul eller enkelt tegn). Bruges ^ til at undslippe, hvis mappen eller filnavnet har jokertegn eller dette escape-tegn.

          • Sti til jokertegnmappe: Stien til mappen under den angivne objektbeholder. Hvis du vil bruge et jokertegn til at filtrere mappen, skal du springe denne indstilling over og angive disse oplysninger i indstillingerne for aktivitetskilden.

          • Jokertegnfilnavn: Filnavnet under det angivne Lakehouse-ikke-administrerede område (under Filer) og mappestien.

            Skærmbillede, der viser stien til jokertegnfilen.

        • Liste over filer: Angiver, at et givent filsæt skal kopieres.

          • Mappesti: Peger på en mappe, der indeholder filer, du vil kopiere.
          • Sti til filliste: Peger på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede filsti.

          Skærmbillede, der viser stien til fillisten.

      • Rekursivt: Angiver, om dataene læses rekursivt fra undermapperne eller kun fra den angivne mappe. Hvis indstillingen er aktiveret, behandles alle filer i inputmappen og dens undermapper rekursivt. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.

      • Filformat: Vælg filformatet på rullelisten. Vælg knappen Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.

      • Under Avanceret kan du angive følgende felter:

        • Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
          • Starttidspunkt: Filerne vælges, hvis deres seneste ændringstid er større end eller lig med det konfigurerede klokkeslæt.
          • Sluttidspunkt: Filerne vælges, hvis deres seneste ændringstid er mindre end det konfigurerede tidspunkt.
        • Aktivér registrering af partition: For filer, der er partitioneret, skal du angive, om partitionerne skal fortolkes fra filstien, og tilføje dem som ekstra kildekolonner.
          • Partitionsrodsti: Når registrering af partition er aktiveret, skal du angive den absolutte rodsti for at læse partitionerede mapper som datakolonner.
        • Maksimalt antal samtidige forbindelser: Angiver den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.

Destination

Følgende egenskaber understøttes for Lakehouse under fanen Destination for en kopiaktivitet.

Skærmbillede, der viser destinationsfanen.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg arbejdsområde.

  • Datalagertype for arbejdsområde: Vælg Lakehouse på listen over datalagertyper.

  • Lakehouse: Vælg et eksisterende Lakehouse fra arbejdsområdet. Hvis der ikke findes nogen, skal du oprette et nyt Lakehouse ved at vælge Ny. Hvis du bruger Tilføj dynamisk indhold til at angive dit Lakehouse, skal du tilføje en parameter og angive Lakehouse-objekt-id'et som parameterværdi. Hvis du vil hente dit Lakehouse-objekt-id, skal du åbne lakehouse'et i dit arbejdsområde, hvorefter id'et er efter /lakehouses/i din URL-adresse.

    Skærmbillede, der viser Lakehouse-objekt-id'et.

  • Rodmappe: Vælg tabeller eller filer, som angiver den virtuelle visning af det administrerede eller ikke-administrerede område i din sø. Du kan finde flere oplysninger i Introduktion til Lakehouse.

    • Hvis du vælger Tabeller:

      • Tabelnavn: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som destination.

        Skærmbillede, der viser tabelnavnet.

      • Under Avanceret kan du angive følgende felter:

        • Maks. antal rækker pr. fil: Angiv det maksimale antal rækker pr. fil, når der skrives data til Lakehouse.
        • Tabelhandlinger: Angiv handlingen i forhold til den valgte tabel.
          • Tilføj: Føj nye værdier til eksisterende tabel.
            • Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
              • Navn på partitionskolonne: Vælg mellem destinationskolonnerne i skematilknytningen, når du føjer data til en ny tabel. Når du føjer data til en eksisterende tabel, der allerede har partitioner, afledes partitionskolonnerne automatisk fra den eksisterende tabel. Understøttede datatyper er streng, heltal, boolesk og datetime. Format respekterer indstillinger for typekonvertering under fanen Tilknytning .
          • Overskriv: Overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. Hvis denne handling er valgt, kan du aktivere partition i destinationstabellen:
            • Aktivér partition: Med dette valg kan du oprette partitioner i en mappestruktur baseret på en eller flere kolonner. Hver enkelt kolonneværdi (par) er en ny partition. For eksempel "year=2000/month=01/file".
              • Navn på partitionskolonne: Vælg mellem destinationskolonnerne i skematilknytningen. Understøttede datatyper er streng, heltal, boolesk og datetime. Format respekterer indstillinger for typekonvertering under fanen Tilknytning .
        • Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.
    • Hvis du vælger Filer:

      • Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere, eller udfyld stien manuelt.

        Skærmbillede, der viser filstien i destinationen.

      • Filformat: Vælg filformatet på rullelisten. Vælg Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.

      • Under Avanceret kan du angive følgende felter:

        • Funktionsmåde for kopiering: Definerer kopifunktionsmåden, når kilden er filer fra et filbaseret datalager. Du kan vælge Tilføj dynamisk indhold, Ingen, Fladt hierarki eller Bevar hierarki som din kopifunktion. Konfigurationen af hver indstilling er:

          • Tilføj dynamisk indhold: Hvis du vil angive et udtryk for en egenskabsværdi, skal du vælge Tilføj dynamisk indhold. Dette felt åbner udtryksgeneratoren, hvor du kan oprette udtryk fra understøttede systemvariabler, aktivitetsoutput, funktioner og brugerdefinerede variabler eller parametre. Du kan få flere oplysninger om udtrykssproget under Udtryk og funktioner.

          • Ingen: Vælg dette valg for ikke at bruge kopiering.

          • Fladgør hierarki: Alle filer fra kildemappen er på det første niveau i destinationsmappen. Destinationsfilerne har automatisk genererede navne.

          • Bevar hierarki: Bevarer filhierarkiet i destinationsmappen. Den relative sti for en kildefil til kildemappen er identisk med den relative sti for en destinationsfil til destinationsmappen.

            Skærmbillede, der viser funktionsmåden for kopiering.

        • Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.

        • Blokstørrelse (MB): Angiv blokstørrelsen i MB, når du skriver data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB.

        • Metadata: Angiv brugerdefinerede metadata, når der kopieres til destinationsdatalageret. Hvert objekt under matrixen metadata repræsenterer en ekstra kolonne. name definerer navnet på metadatanøglen og value angiver dataværdien for den pågældende nøgle. Hvis funktionen bevar attributter bruges, vil de angivne metadata blive forenings-/overskrive med kildefilens metadata. De tilladte dataværdier er:

          • $$LASTMODIFIED: en reserveret variabel angiver, at kildefilerne senest blev ændret. Anvend kun på en filbaseret kilde med binært format.

          • Udtryk

          • Statisk værdi

            Skærmbillede, der viser metadata.

Tilknytning

Hvis du ikke anvender Tabellen Lakehouse som destinationsdatalager under fanen Tilknytning, skal du gå til Tilknytning.

Hvis du anvender tabellen Lakehouse som dit destinationsdatalager, bortset fra konfigurationen i Tilknytning, kan du redigere typen for dine destinationskolonner. Når du har valgt Importér skemaer, kan du angive kolonnetypen i destinationen.

Typen for kolonnen PersonID i kilden er f.eks. int, og du kan ændre den til strengtype, når du tilknytter til destinationskolonnen.

Skærmbillede af tilknytning af destinationskolonnetype.

Bemærk

Redigering af destinationstypen understøttes i øjeblikket ikke, når kilden er decimaltype.

Hvis du vælger Binær som filformat, understøttes tilknytning ikke.

Indstillinger

Gå til Indstillinger for at få Indstillinger fanekonfiguration.

Tabeloversigt

Følgende tabeller indeholder flere oplysninger om en kopiaktivitet i Lakehouse.

Kildeoplysninger

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Datalagertype Datalagertypen. Arbejdsområde Ja /
Datalagertype for arbejdsområde Sektionen til valg af datalagertype for arbejdsområdet. Lakehouse Ja type
Lakehouse Lakehouse, som du bruger som kilde. <dit Lakehouse> Ja workspaceId
artifactId
Rodmappen Rodmappens type. * Tabeller
* Filer
Nr. rootFolder:
Tabel eller filer
Tabelnavn Navnet på den tabel, der skal læse data. <tabelnavn> Ja, når du vælger Tabeller i rodmappen Tabel
(under typeProperties ->source ->typeProperties)
Timestamp Tidsstemplet til at forespørge om et ældre snapshot. <Tidsstempel> Nr. timestampAsOf
Version Den version, der skal forespørge om et ældre snapshot. <Version> Nr. versionAsOf
Flere kolonner Yderligere datakolonner til lagring af kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte. *Navn
*Værdi
Nr. additionalColumns:
*Navn
*Værdi
Filtype Den filtype, du bruger. * Filsti
* Sti til jokertegnfil
* Liste over filer
Ja /
Filsti Kopiér fra stien til en mappe/fil under kildedatalageret. Anvend, når du vælger Filsti i Filtype. <filsti> Ja, når du vælger Filsti * folderPath
*Filnavn
Jokertegnstier Mappestien med jokertegn under kildedataene, der er konfigureret til at filtrere kildemapper. Anvend, når du vælger Sti til jokertegnfil i Filtype. <jokertegnstier> Ja, når du vælger sti til jokertegnfil * jokertegnFolderPath
* jokertegnFileName
Mappesti Peger på en mappe, der indeholder filer, du vil kopiere. Anvend, når du vælger Liste over filer i Filtype. <mappesti> Nr. folderPath
Sti til filliste Angiver, at et givent filsæt skal kopieres. Peg på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede sti. Anvend, når du vælger Liste over filer i Filtype. <sti til filliste> Nr. fileListPath
Rekursivt Behandl alle filer i inputmappen og dens undermapper rekursivt eller kun dem i den valgte mappe. Denne indstilling er deaktiveret, når der vælges en enkelt fil. markér eller fjern markeringen Nr. Rekursive:
true eller false
Filformat Formatet af den fil, du bruger. <Filformat> Ja type (under formatSettings):
DelimitedTextRead Indstillinger
Filtrer efter senest ændret Filerne med tidspunkt for seneste ændring i intervallet [Starttidspunkt, Sluttidspunkt) filtreres til yderligere behandling.

Klokkeslættet anvendes på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ.

Denne egenskab kan springes over, hvilket betyder, at der ikke er anvendt et filattributfilter. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.
* Starttidspunkt
* Sluttidspunkt
Nr. modifiedDatetimeStart
modifiedDatetimeEnd
Aktivér registrering af partition Om partitionerne skal fortolkes fra filstien og tilføjes som ekstra kildekolonner. Markeret eller ikke markeret Nr. enablePartitionDiscovery:
true eller false (standard)
Sti til partitionsrod Den absolutte partitionsrodsti til at læse partitionerede mapper som datakolonner. <din partitionsrodsti> Nr. partitionRootPath
Maks. antal samtidige forbindelser Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Der kræves kun en værdi, når du vil begrænse samtidige forbindelser. <maks. antal samtidige forbindelser> Nr. maxConcurrent Forbind ions

Destinationsoplysninger

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Datalagertype Datalagertypen. Arbejdsområde Ja /
Datalagertype for arbejdsområde Sektionen til valg af datalagertype for arbejdsområdet. Lakehouse Ja type
Lakehouse Lakehouse, som du bruger som destination. <dit Lakehouse> Ja workspaceId
artifactId
Rodmappen Rodmappens type. * Tabeller
* Filer
Ja rootFolder:
Tabel eller filer
Tabelnavn Navnet på den tabel, du vil skrive data til. <dit tabelnavn> Ja, når du vælger Tabeller i rodmappen Tabel
(under typeProperties ->sink ->typeProperties)
Maks. antal rækker pr. fil Når du skriver data til en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. <maks. antal rækker pr.> Nr. maxRowsPerFile
Tabelhandling Føj nye værdier til en eksisterende tabel, eller overskriv de eksisterende data og skemaer i tabellen ved hjælp af de nye værdier. * Tilføj
* Overskrive
Nr. tableActionOption:
Tilføj eller overskriv
Maks. antal samtidige forbindelser Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser. <maks. antal samtidige forbindelser> Nr. maxConcurrent Forbind ions
Filsti Skriv data til stien til en mappe/fil under destinationsdatalageret. <filsti> Nr. * folderPath
*Filnavn
Filformat Formatet af den fil, du bruger. <Filformat> Ja type (under formatSettings):
DelimitedTextWrite Indstillinger
Funktionsmåde for kopiering Den funktionsmåde for kopiering, der er defineret, når kilden er filer fra et filbaseret datalager. * Tilføj dynamisk indhold
* Ingen
* Fladgør hierarki
* Bevar hierarki
Nr. copyBehavior:


* Fladt hierarki
* PreserveHierarchy
Blokstørrelse (MB) Blokstørrelsen i MB, der bruges til at skrive data til Lakehouse. Den tilladte værdi er mellem 4 MB og 100 MB. <blokstørrelse> Nr. blockSizeInMB
Metadata De brugerdefinerede metadata, der angives ved kopiering til en destination. * $$LASTMODIFIED
*Udtryk
* Statisk værdi
Nr. Metadata