Del via


Konfigurere Lakehouse i en kopiaktivitet

Denne artikkelen beskriver hvordan du bruker kopieringsaktiviteten i et datasamlebånd til å kopiere data fra og til Fabric Lakehouse. Som standard er data skrevet til Lakehouse Table i V-Order, og du kan gå til Tabelloptimalisering for Delta Lake og V-Order for mer informasjon.

Støttet format

Lakehouse støtter følgende filformater. Se hver artikkel for formatbaserte innstillinger.

Støttet konfigurasjon

Hvis du vil ha konfigurasjonen av hver fane under kopieringsaktivitet, kan du gå til følgende inndelinger.

Generelt

Gå til Generelt for fanekonfigurasjonen Generelt.

Kilde

Følgende egenskaper støttes for Lakehouse under Kilde-fanen for en kopiaktivitet.

Skjermbilde som viser kildefanen og listen over egenskaper.

Følgende egenskaper er nødvendige:

  • Tilkobling: Velg en Lakehouse-tilkobling fra tilkoblingslisten. Hvis det ikke finnes noen tilkobling, oppretter du en ny Lakehouse-tilkobling ved å velge Mer nederst i tilkoblingslisten. Hvis du bruker Bruk dynamisk innhold til å angi Lakehouse, legger du til en parameter og angir Lakehouse-objekt-ID-en som parameterverdi. Hvis du vil ha objekt-ID-en for Lakehouse, åpner du Lakehouse i arbeidsområdet, og ID-en er etter /lakehouses/i nettadressen.

    Skjermbilde som viser Objekt-ID-en for Lakehouse.

  • Rotmappe: Velg tabeller eller filer, som angir den virtuelle visningen av det administrerte eller uadministrerte området i innsjøen. Hvis du vil ha mer informasjon, kan du se Lakehouse-introduksjon.

    • Hvis du velger Tabeller:

      • Tabellnavn: Velg en eksisterende tabell fra tabelllisten, eller angi et tabellnavn som kilde. Eller du kan velge Ny for å opprette en ny tabell.

        Skjermbilde som viser tabellnavn.

      • Tabell: Når du bruker Lakehouse med skjemaer i tilkoblingen, velger du en eksisterende tabell med et skjema fra tabelllisten eller angir en tabell med et skjema som kilde. Du kan også velge Ny for å opprette en ny tabell med et skjema. Hvis du ikke angir et skjemanavn, vil tjenesten bruke dbo som standardskjema.

        Skjermbilde som viser tabellnavn med skjema.

      • Under Avansert kan du angi følgende felt:

        • Tidsstempel: Angi for å spørre et eldre øyeblikksbilde etter tidsstempel.
        • Versjon: Angi for å spørre etter et eldre øyeblikksbilde etter versjon.
        • Flere kolonner: Legg til flere datakolonner i lagerkildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte.

      Leserversjon 1 støttes. Du finner tilsvarende støttede Delta Lake-funksjoner i denne artikkelen.

    • Hvis du velger Filer:

      • Filtype: Du kan velge Filbane, Jokertegnfilbane eller Liste over filer som filtype. Listen nedenfor beskriver konfigurasjonen av hver innstilling:

        Skjermbilde som viser filbanen.

        • Filbane: Velg Bla gjennom for å velge filen du vil kopiere, eller fyll ut banen manuelt.

        • Jokertegnfilbane: Angi mappen eller filbanen med jokertegn under det angitte uadministrerte Lakehouse-området (under Filer) for å filtrere kildemappene eller filene. Tillatte jokertegn er: * (samsvarer med null eller flere tegn) og ? (samsvarer med null eller enkelttegn). Brukes ^ til å unnslippe hvis mappen eller filnavnet har jokertegn eller dette escape-tegnet inni.

          • Jokertegnmappebane: Banen til mappen under den angitte beholderen. Hvis du vil bruke et jokertegn til å filtrere mappen, hopper du over denne innstillingen og angir denne informasjonen i innstillingene for aktivitetskilden.

          • Jokertegnfilnavn: Filnavnet under det angitte uadministrerte lakehouse-området (under Filer) og mappebane.

            Skjermbilde som viser jokertegnfilbanen.

        • Liste over filer: Angir å kopiere et gitt filsett.

          • Mappebane: Peker til en mappe som inneholder filer du vil kopiere.
          • Bane til filliste: Peker til en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til filbanen som er konfigurert.

          Skjermbilde som viser banen til fillisten.

      • Rekursivt: Angir om dataene leses rekursivt fra undermappene eller bare fra den angitte mappen. Hvis aktivert, behandles alle filer i inndatamappen og undermappene rekursivt. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.

      • Filformat: Velg filformatet fra rullegardinlisten. Velg Innstillinger-knappen for å konfigurere filformatet. Hvis du vil ha innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.

      • Under Avansert kan du angi følgende felt:

        • Filtrer etter sist endret: Filer filtreres basert på de siste endrede datoene. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
          • Starttidspunkt: Filene velges hvis den siste endrede tiden er større enn eller lik den konfigurerte tiden.
          • Sluttidspunkt: Filene velges hvis siste endringstidspunkt er mindre enn det konfigurerte tidspunktet.
        • Aktiver partisjonsgjenkjenning: For filer som er partisjonert, angir du om du vil analysere partisjonene fra filbanen og legge dem til som ekstra kildekolonner.
          • Partisjonsrotbane: Når partisjonsgjenkjenning er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner.
        • Maksimalt antall samtidige tilkoblinger: Angir den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.

Mål

Følgende egenskaper støttes for Lakehouse under Mål-fanen for en kopiaktivitet.

Skjermbilde som viser målfanen.

Følgende egenskaper er nødvendige:

  • Tilkobling: Velg en Lakehouse-tilkobling fra tilkoblingslisten. Hvis det ikke finnes noen tilkobling, oppretter du en ny Lakehouse-tilkobling ved å velge Mer nederst i tilkoblingslisten. Hvis du bruker Bruk dynamisk innhold til å angi Lakehouse, legger du til en parameter og angir Lakehouse-objekt-ID-en som parameterverdi. Hvis du vil ha objekt-ID-en for Lakehouse, åpner du Lakehouse i arbeidsområdet, og ID-en er etter /lakehouses/i nettadressen.

    Skjermbilde som viser Objekt-ID-en for Lakehouse.

  • Rotmappe: Velg tabeller eller filer, som angir den virtuelle visningen av det administrerte eller uadministrerte området i innsjøen. Hvis du vil ha mer informasjon, kan du se Lakehouse-introduksjon.

    • Hvis du velger Tabeller:

      • Tabellnavn: Velg en eksisterende tabell fra tabelllisten, eller angi et tabellnavn som mål. Eller du kan velge Ny for å opprette en ny tabell.

        Skjermbilde som viser tabellnavn.

      • Tabell: Når du bruker Lakehouse med skjemaer i tilkoblingen, velger du en eksisterende tabell med et skjema fra tabelllisten eller angir en tabell med et skjema som mål. Du kan også velge Ny for å opprette en ny tabell med et skjema. Hvis du ikke angir et skjemanavn, vil tjenesten bruke dbo som standardskjema.

        Skjermbilde som viser tabellnavn med skjema.

      • Under Avansert kan du angi følgende felt:

        • Tabellhandlinger: Angi operasjonen mot den valgte tabellen.

          • Tilføy: Tilføy nye verdier i eksisterende tabell.

            • Aktiver partisjon: Med dette valget kan du opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «year=2000/month=01/file».
              • Partisjonskolonnenavn: Velg fra målkolonnene i skjematilordning når du tilføyer data til en ny tabell. Når du tilføyer data til en eksisterende tabell som allerede har partisjoner, hentes partisjonskolonnene automatisk fra den eksisterende tabellen. Støttede datatyper er streng, heltall, boolsk og datetime. Format respekterer innstillingene for typekonvertering under Tilordning-fanen .
          • Overskriv: Overskriv eksisterende data og skjema i tabellen ved hjelp av de nye verdiene. Hvis denne operasjonen er valgt, kan du aktivere partisjon i måltabellen:

            • Aktiver partisjon: Med dette valget kan du opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «year=2000/month=01/file».
              • Partisjonskolonnenavn: Velg fra målkolonnene i skjematilordning. Støttede datatyper er streng, heltall, boolsk og datetime. Format respekterer innstillingene for typekonvertering under Tilordning-fanen .

            Det støtter Delta Lake tidsreiser. Den overskrevne tabellen har deltalogger for de tidligere versjonene, som du har tilgang til i Lakehouse. Du kan også kopiere den forrige versjonstabellen fra Lakehouse ved å angi Versjon i kopiaktivitetskilden.

        • Maks samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.

      Skriverversjon 2 støttes. Du finner tilsvarende støttede Delta Lake-funksjoner i denne artikkelen.

    • Hvis du velger Filer:

      • Filbane: Velg Bla gjennom for å velge filen du vil kopiere, eller fyll ut banen manuelt.

        Skjermbilde som viser filbanen i mål.

      • Filformat: Velg filformatet fra rullegardinlisten. Velg Innstillinger for å konfigurere filformatet. Hvis du vil ha innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.

      • Under Avansert kan du angi følgende felt:

        • Kopier virkemåte: Definerer kopieringsvirkemåten når kilden er filer fra et filbasert datalager. Du kan velge Flate ut hierarki, Slå sammen filer, Behold hierarki eller Legg til dynamisk innhold som kopieringsvirkemåte. Konfigurasjonen av hver innstilling er:

          • Flate ut hierarki: Alle filer fra kildemappen er på det første nivået i målmappen. Målfilene har automatisk genererte navn.

          • Flette filer: Slår sammen alle filer fra kildemappen til én fil. Hvis filnavnet er angitt, er det flettede filnavnet det angitte navnet. Ellers er det et automatisk generert filnavn.

          • Behold hierarki: Bevarer filhierarkiet i målmappen. Den relative banen til en kildefil til kildemappen er identisk med den relative banen til en målfil til målmappen.

          • Legg til dynamisk innhold: Hvis du vil angi et uttrykk for en egenskapsverdi, velger du Legg til dynamisk innhold. Dette feltet åpner uttrykksverktøyet der du kan bygge uttrykk fra støttede systemvariabler, aktivitetsutdata, funksjoner og brukerangitte variabler eller parametere. Hvis du vil ha mer informasjon om uttrykksspråket, kan du gå til Uttrykk og funksjoner.

            Skjermbilde som viser kopieringsvirkemåte.

        • Maks samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.

        • Blokkstørrelse (MB): Angi blokkstørrelsen i MB når du skriver data til Lakehouse. Tillatt verdi er mellom 4 MB og 100 MB.

        • Metadata: Angi egendefinerte metadata når du kopierer til måldatalageret. Hvert objekt under matrisen metadata representerer en ekstra kolonne. Definerer name nøkkelnavnet for metadata, og value angir dataverdien for nøkkelen. Hvis funksjonen behold attributter brukes, vil de angitte metadataene union/overskrive med kildefilmetadataene. De tillatte dataverdiene er:

          • $$LASTMODIFIED: en reservert variabel angir at kildefilenes siste endringstidspunkt skal lagres. Bruk bare på en filbasert kilde med binærformat.

          • Expression

          • Statisk verdi

            Skjermbilde som viser metadata.

Tilordning

Hvis du ikke bruker Lakehouse-tabellen som måldatalager, går du til Tilordning for fanekonfigurasjonen Tilordning.

Hvis du bruker Lakehouse-tabellen som måldatalager, bortsett fra konfigurasjonen i Tilordning, kan du redigere typen for målkolonnene. Når du har valgt Importer skjemaer, kan du angi kolonnetypen i målet.

Typen for PersonID-kolonne i kilde er for eksempel int, og du kan endre den til strengtype når du tilordner til målkolonnen.

Skjermbilde av kolonnetype for tilordningsmål.

Merk

Redigering av måltypen støttes for øyeblikket ikke når kilden er desimaltype.

Hvis du velger Binær som filformat, støttes ikke tilordning.

Innstillinger

Gå til Innstillinger for konfigurasjon av innstillinger-fanen.

Tabellsammendrag

Tabellene nedenfor inneholder mer informasjon om en kopiaktivitet i Lakehouse.

Kildeinformasjon

Name Beskrivelse Verdi Kreves JSON-skriptegenskap
Forbindelse Inndelingen for å velge tilkoblingen. < Lakehouse-tilkoblingen> Ja workspaceId
artifactId
Rotmappen Typen rotmappe. Tabeller
Filer
No rootFolder:
Tabell eller filer
Tabellnavn Navnet på tabellen du vil lese data for. <tabellnavnet> Ja når du velger Tabeller i rotmappen tabellen
Tabell Navnet på tabellen med et skjema som du vil lese data når du bruker Lakehouse med skjemaer som tilkobling. <tabellen med et skjema> Ja når du velger Tabeller i rotmappen /
For tabell
skjemanavn Navnet på skjemaet. <skjemanavnet>
(standardverdien er dbo)
No (under source ->datasetSettings ->typeProperties)
schema
tabellnavn Navnet på tabellen. <tabellnavnet> Ja tabellen
Tidsstempel Tidsstempelet for å spørre etter et eldre øyeblikksbilde. <Tidsstempel> No timestampAsOf
Versjon Versjonen som skal spørres etter et eldre øyeblikksbilde. <versjon> No versionAsOf
Flere kolonner Flere datakolonner for å lagre kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte. • Navn
•Verdi
No additionalColumns:
•navn
•verdi
Filtype Filtypen du bruker. Filbane
Jokertegnfilbane
Liste over filer
Ja når du velger Filer i rotmappen /
Filbane Kopier fra banen til en mappe/fil under kildedatalageret. <filbane> Ja når du velger Filbane • folderPath
•Filnavn
Jokertegnbaner Mappebanen med jokertegn under kildedatalageret som er konfigurert til å filtrere kildemapper. <jokertegnbaner> Ja når du velger jokertegnfilbane • wildcardFolderPath
• wildcardFileName
Mappebane Peker til en mappe som inneholder filer du vil kopiere. <mappebane> No folderPath
Bane til filliste Angir å kopiere et gitt filsett. Pek på en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til banen som er konfigurert. <bane til filliste> No fileListPath
Rekursivt Behandle alle filer i inndatamappen og undermappene rekursivt eller bare de i den valgte mappen. Denne innstillingen deaktiveres når én enkelt fil er valgt. merke eller fjerne merkingen No Rekursiv:
sann eller usann
Filformat Filformatet for kildedataene. Hvis du vil ha informasjon om ulike filformater, kan du se artikler i støttet format for detaljert informasjon. / Ja når du velger Filer i rotmappen /
Filtrer etter sist endret Filene med siste endringstidspunkt i området [Starttidspunkt, Sluttidspunkt) filtreres for videre behandling.

Tiden brukes på UTC-tidssone i formatet yyyy-mm-ddThh:mm:ss.fffZ.

Denne egenskapen kan hoppes over, noe som betyr at det ikke brukes noe filattributtfilter. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
Starttidspunkt
Sluttidspunkt
No modifiedDatetimeStart
modifiedDatetimeEnd
Aktiver partisjonsoppdagelse Om du vil analysere partisjonene fra filbanen og legge dem til som ekstra kildekolonner. Merket eller umerket No enablePartitionDiscovery:
sann eller usann (standard)
Partisjonsrotbane Den absolutte partisjonsrotbanen for å lese partisjonerte mapper som datakolonner. <partisjonsrotbanen> No partitionRootPath
Maksimalt antall samtidige tilkoblinger Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. En verdi er bare nødvendig når du vil begrense samtidige tilkoblinger. <maks samtidige tilkoblinger> No maxConcurrentConnections

Målinformasjon

Name Beskrivelse Verdi Kreves JSON-skriptegenskap
Forbindelse Inndelingen for å velge tilkoblingen. < Lakehouse-tilkoblingen> Ja workspaceId
artifactId
Rotmappen Typen rotmappe. Tabeller
Filer
Ja rootFolder:
Tabell eller filer
Tabellnavn Navnet på tabellen du vil skrive data til. <tabellnavnet> Ja når du velger Tabeller i rotmappen tabellen
Tabell Navnet på tabellen med et skjema du vil skrive data til når du bruker Lakehouse med skjemaer som tilkobling. <tabellen med et skjema> Ja når du velger Tabeller i rotmappen /
For tabell
skjemanavn Navnet på skjemaet. <skjemanavnet>
(standardverdien er dbo)
No (under sink ->datasetSettings ->typeProperties)
schema
tabellnavn Navnet på tabellen. <tabellnavnet> Ja tabellen
Tabellhandling Tilføy nye verdier i en eksisterende tabell eller overskriv eksisterende data og skjema i tabellen ved hjelp av de nye verdiene. Tilføye
Overskrive
No tableActionOption:
Tilføye eller skrive overSchema
Aktiver partisjoner Dette valget lar deg opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «year=2000/month=01/file». Merket eller umerket No partitionOption:
PartitionByKey eller Ingen
Partisjonskolonner Målkolonnene i skjematilordning. <partisjonskolonnene> No partitionNameList
Filbane Skriv data til banen til en mappe/fil under måldatalageret. <filbane> No • folderPath
•Filnavn
Filformat Filformatet for måldataene. Hvis du vil ha informasjon om ulike filformater, kan du se artikler i støttet format for detaljert informasjon. / Ja når du velger Filer i rotmappen /
Kopier virkemåte Kopieringsvirkemåten som er definert når kilden er filer fra et filbasert datalager. Flate ut hierarki
Slå sammen filer
Bevare hierarki
Legge til dynamisk innhold
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maksimalt antall samtidige tilkoblinger Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger. <maks samtidige tilkoblinger> No maxConcurrentConnections
Blokkstørrelse (MB) Blokkstørrelsen i MB brukes til å skrive data til Lakehouse. Tillatt verdi er mellom 4 MB og 100 MB. <blokkstørrelse> No blockSizeInMB
Metadata Det egendefinerte metadatasettet når du kopierer til et mål. $$LASTMODIFIED
•Uttrykk
• Statisk verdi
No metadata