Konfigurere Lakehouse i en kopiaktivitet
Denne artikkelen beskriver hvordan du bruker kopieringsaktiviteten i et datasamlebånd til å kopiere data fra og til Fabric Lakehouse. Som standard er data skrevet til Lakehouse Table i V-Order, og du kan gå til Tabelloptimalisering for Delta Lake og V-Order for mer informasjon.
Støttet format
Lakehouse støtter følgende filformater. Se hver artikkel for formatbaserte innstillinger.
- Avro-format
- Binærformat
- Tekstformat med skilletegn
- Excel-format
- JSON-format
- ORC-format
- Parquet-format
- XML-format
Støttet konfigurasjon
Hvis du vil ha konfigurasjonen av hver fane under kopieringsaktivitet, kan du gå til følgende inndelinger.
Generelt
Gå til Generelt for fanekonfigurasjonen Generelt.
Kilde
Følgende egenskaper støttes for Lakehouse under Kilde-fanen for en kopiaktivitet.
Følgende egenskaper er nødvendige:
Tilkobling: Velg en Lakehouse-tilkobling fra tilkoblingslisten. Hvis det ikke finnes noen tilkobling, oppretter du en ny Lakehouse-tilkobling ved å velge Mer nederst i tilkoblingslisten. Hvis du bruker Bruk dynamisk innhold til å angi Lakehouse, legger du til en parameter og angir Lakehouse-objekt-ID-en som parameterverdi. Hvis du vil ha objekt-ID-en for Lakehouse, åpner du Lakehouse i arbeidsområdet, og ID-en er etter
/lakehouses/
i nettadressen.Rotmappe: Velg tabeller eller filer, som angir den virtuelle visningen av det administrerte eller uadministrerte området i innsjøen. Hvis du vil ha mer informasjon, kan du se Lakehouse-introduksjon.
Hvis du velger Tabeller:
Tabellnavn: Velg en eksisterende tabell fra tabelllisten, eller angi et tabellnavn som kilde. Eller du kan velge Ny for å opprette en ny tabell.
Tabell: Når du bruker Lakehouse med skjemaer i tilkoblingen, velger du en eksisterende tabell med et skjema fra tabelllisten eller angir en tabell med et skjema som kilde. Du kan også velge Ny for å opprette en ny tabell med et skjema. Hvis du ikke angir et skjemanavn, vil tjenesten bruke dbo som standardskjema.
Under Avansert kan du angi følgende felt:
- Tidsstempel: Angi for å spørre et eldre øyeblikksbilde etter tidsstempel.
- Versjon: Angi for å spørre etter et eldre øyeblikksbilde etter versjon.
- Flere kolonner: Legg til flere datakolonner i lagerkildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte.
Leserversjon 1 støttes. Du finner tilsvarende støttede Delta Lake-funksjoner i denne artikkelen.
Hvis du velger Filer:
Filtype: Du kan velge Filbane, Jokertegnfilbane eller Liste over filer som filtype. Listen nedenfor beskriver konfigurasjonen av hver innstilling:
Filbane: Velg Bla gjennom for å velge filen du vil kopiere, eller fyll ut banen manuelt.
Jokertegnfilbane: Angi mappen eller filbanen med jokertegn under det angitte uadministrerte Lakehouse-området (under Filer) for å filtrere kildemappene eller filene. Tillatte jokertegn er:
*
(samsvarer med null eller flere tegn) og?
(samsvarer med null eller enkelttegn). Brukes^
til å unnslippe hvis mappen eller filnavnet har jokertegn eller dette escape-tegnet inni.Jokertegnmappebane: Banen til mappen under den angitte beholderen. Hvis du vil bruke et jokertegn til å filtrere mappen, hopper du over denne innstillingen og angir denne informasjonen i innstillingene for aktivitetskilden.
Jokertegnfilnavn: Filnavnet under det angitte uadministrerte lakehouse-området (under Filer) og mappebane.
Liste over filer: Angir å kopiere et gitt filsett.
- Mappebane: Peker til en mappe som inneholder filer du vil kopiere.
- Bane til filliste: Peker til en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til filbanen som er konfigurert.
Rekursivt: Angir om dataene leses rekursivt fra undermappene eller bare fra den angitte mappen. Hvis aktivert, behandles alle filer i inndatamappen og undermappene rekursivt. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
Filformat: Velg filformatet fra rullegardinlisten. Velg Innstillinger-knappen for å konfigurere filformatet. Hvis du vil ha innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.
Under Avansert kan du angi følgende felt:
- Filtrer etter sist endret: Filer filtreres basert på de siste endrede datoene. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
- Starttidspunkt: Filene velges hvis den siste endrede tiden er større enn eller lik den konfigurerte tiden.
- Sluttidspunkt: Filene velges hvis siste endringstidspunkt er mindre enn det konfigurerte tidspunktet.
- Aktiver partisjonsgjenkjenning: For filer som er partisjonert, angir du om du vil analysere partisjonene fra filbanen og legge dem til som ekstra kildekolonner.
- Partisjonsrotbane: Når partisjonsgjenkjenning er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner.
- Maksimalt antall samtidige tilkoblinger: Angir den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.
- Filtrer etter sist endret: Filer filtreres basert på de siste endrede datoene. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
Mål
Følgende egenskaper støttes for Lakehouse under Mål-fanen for en kopiaktivitet.
Følgende egenskaper er nødvendige:
Tilkobling: Velg en Lakehouse-tilkobling fra tilkoblingslisten. Hvis det ikke finnes noen tilkobling, oppretter du en ny Lakehouse-tilkobling ved å velge Mer nederst i tilkoblingslisten. Hvis du bruker Bruk dynamisk innhold til å angi Lakehouse, legger du til en parameter og angir Lakehouse-objekt-ID-en som parameterverdi. Hvis du vil ha objekt-ID-en for Lakehouse, åpner du Lakehouse i arbeidsområdet, og ID-en er etter
/lakehouses/
i nettadressen.Rotmappe: Velg tabeller eller filer, som angir den virtuelle visningen av det administrerte eller uadministrerte området i innsjøen. Hvis du vil ha mer informasjon, kan du se Lakehouse-introduksjon.
Hvis du velger Tabeller:
Tabellnavn: Velg en eksisterende tabell fra tabelllisten, eller angi et tabellnavn som mål. Eller du kan velge Ny for å opprette en ny tabell.
Tabell: Når du bruker Lakehouse med skjemaer i tilkoblingen, velger du en eksisterende tabell med et skjema fra tabelllisten eller angir en tabell med et skjema som mål. Du kan også velge Ny for å opprette en ny tabell med et skjema. Hvis du ikke angir et skjemanavn, vil tjenesten bruke dbo som standardskjema.
Under Avansert kan du angi følgende felt:
Tabellhandlinger: Angi operasjonen mot den valgte tabellen.
Tilføy: Tilføy nye verdier i eksisterende tabell.
- Aktiver partisjon: Med dette valget kan du opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «year=2000/month=01/file».
- Partisjonskolonnenavn: Velg fra målkolonnene i skjematilordning når du tilføyer data til en ny tabell. Når du tilføyer data til en eksisterende tabell som allerede har partisjoner, hentes partisjonskolonnene automatisk fra den eksisterende tabellen. Støttede datatyper er streng, heltall, boolsk og datetime. Format respekterer innstillingene for typekonvertering under Tilordning-fanen .
- Aktiver partisjon: Med dette valget kan du opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «year=2000/month=01/file».
Overskriv: Overskriv eksisterende data og skjema i tabellen ved hjelp av de nye verdiene. Hvis denne operasjonen er valgt, kan du aktivere partisjon i måltabellen:
- Aktiver partisjon: Med dette valget kan du opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «year=2000/month=01/file».
- Partisjonskolonnenavn: Velg fra målkolonnene i skjematilordning. Støttede datatyper er streng, heltall, boolsk og datetime. Format respekterer innstillingene for typekonvertering under Tilordning-fanen .
Det støtter Delta Lake tidsreiser. Den overskrevne tabellen har deltalogger for de tidligere versjonene, som du har tilgang til i Lakehouse. Du kan også kopiere den forrige versjonstabellen fra Lakehouse ved å angi Versjon i kopiaktivitetskilden.
- Aktiver partisjon: Med dette valget kan du opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «year=2000/month=01/file».
Maks samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.
Skriverversjon 2 støttes. Du finner tilsvarende støttede Delta Lake-funksjoner i denne artikkelen.
Hvis du velger Filer:
Filbane: Velg Bla gjennom for å velge filen du vil kopiere, eller fyll ut banen manuelt.
Filformat: Velg filformatet fra rullegardinlisten. Velg Innstillinger for å konfigurere filformatet. Hvis du vil ha innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.
Under Avansert kan du angi følgende felt:
Kopier virkemåte: Definerer kopieringsvirkemåten når kilden er filer fra et filbasert datalager. Du kan velge Flate ut hierarki, Slå sammen filer, Behold hierarki eller Legg til dynamisk innhold som kopieringsvirkemåte. Konfigurasjonen av hver innstilling er:
Flate ut hierarki: Alle filer fra kildemappen er på det første nivået i målmappen. Målfilene har automatisk genererte navn.
Flette filer: Slår sammen alle filer fra kildemappen til én fil. Hvis filnavnet er angitt, er det flettede filnavnet det angitte navnet. Ellers er det et automatisk generert filnavn.
Behold hierarki: Bevarer filhierarkiet i målmappen. Den relative banen til en kildefil til kildemappen er identisk med den relative banen til en målfil til målmappen.
Legg til dynamisk innhold: Hvis du vil angi et uttrykk for en egenskapsverdi, velger du Legg til dynamisk innhold. Dette feltet åpner uttrykksverktøyet der du kan bygge uttrykk fra støttede systemvariabler, aktivitetsutdata, funksjoner og brukerangitte variabler eller parametere. Hvis du vil ha mer informasjon om uttrykksspråket, kan du gå til Uttrykk og funksjoner.
Maks samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.
Blokkstørrelse (MB): Angi blokkstørrelsen i MB når du skriver data til Lakehouse. Tillatt verdi er mellom 4 MB og 100 MB.
Metadata: Angi egendefinerte metadata når du kopierer til måldatalageret. Hvert objekt under matrisen
metadata
representerer en ekstra kolonne. Definerername
nøkkelnavnet for metadata, ogvalue
angir dataverdien for nøkkelen. Hvis funksjonen behold attributter brukes, vil de angitte metadataene union/overskrive med kildefilmetadataene. De tillatte dataverdiene er:
Tilordning
Hvis du ikke bruker Lakehouse-tabellen som måldatalager, går du til Tilordning for fanekonfigurasjonen Tilordning.
Hvis du bruker Lakehouse-tabellen som måldatalager, bortsett fra konfigurasjonen i Tilordning, kan du redigere typen for målkolonnene. Når du har valgt Importer skjemaer, kan du angi kolonnetypen i målet.
Typen for PersonID-kolonne i kilde er for eksempel int, og du kan endre den til strengtype når du tilordner til målkolonnen.
Merk
Redigering av måltypen støttes for øyeblikket ikke når kilden er desimaltype.
Hvis du velger Binær som filformat, støttes ikke tilordning.
Innstillinger
Gå til Innstillinger for konfigurasjon av innstillinger-fanen.
Tabellsammendrag
Tabellene nedenfor inneholder mer informasjon om en kopiaktivitet i Lakehouse.
Kildeinformasjon
Name | Beskrivelse | Verdi | Kreves | JSON-skriptegenskap |
---|---|---|---|---|
Forbindelse | Inndelingen for å velge tilkoblingen. | < Lakehouse-tilkoblingen> | Ja | workspaceId artifactId |
Rotmappen | Typen rotmappe. | • Tabeller • Filer |
No | rootFolder: Tabell eller filer |
Tabellnavn | Navnet på tabellen du vil lese data for. | <tabellnavnet> | Ja når du velger Tabeller i rotmappen | tabellen |
Tabell | Navnet på tabellen med et skjema som du vil lese data når du bruker Lakehouse med skjemaer som tilkobling. | <tabellen med et skjema> | Ja når du velger Tabeller i rotmappen | / |
For tabell | ||||
skjemanavn | Navnet på skjemaet. | <skjemanavnet> (standardverdien er dbo) |
No | (under source ->datasetSettings ->typeProperties )schema |
tabellnavn | Navnet på tabellen. | <tabellnavnet> | Ja | tabellen |
Tidsstempel | Tidsstempelet for å spørre etter et eldre øyeblikksbilde. | <Tidsstempel> | No | timestampAsOf |
Versjon | Versjonen som skal spørres etter et eldre øyeblikksbilde. | <versjon> | No | versionAsOf |
Flere kolonner | Flere datakolonner for å lagre kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte. | • Navn •Verdi |
No | additionalColumns: •navn •verdi |
Filtype | Filtypen du bruker. | • Filbane • Jokertegnfilbane • Liste over filer |
Ja når du velger Filer i rotmappen | / |
Filbane | Kopier fra banen til en mappe/fil under kildedatalageret. | <filbane> | Ja når du velger Filbane | • folderPath •Filnavn |
Jokertegnbaner | Mappebanen med jokertegn under kildedatalageret som er konfigurert til å filtrere kildemapper. | <jokertegnbaner> | Ja når du velger jokertegnfilbane | • wildcardFolderPath • wildcardFileName |
Mappebane | Peker til en mappe som inneholder filer du vil kopiere. | <mappebane> | No | folderPath |
Bane til filliste | Angir å kopiere et gitt filsett. Pek på en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til banen som er konfigurert. | <bane til filliste> | No | fileListPath |
Rekursivt | Behandle alle filer i inndatamappen og undermappene rekursivt eller bare de i den valgte mappen. Denne innstillingen deaktiveres når én enkelt fil er valgt. | merke eller fjerne merkingen | No | Rekursiv: sann eller usann |
Filformat | Filformatet for kildedataene. Hvis du vil ha informasjon om ulike filformater, kan du se artikler i støttet format for detaljert informasjon. | / | Ja når du velger Filer i rotmappen | / |
Filtrer etter sist endret | Filene med siste endringstidspunkt i området [Starttidspunkt, Sluttidspunkt) filtreres for videre behandling. Tiden brukes på UTC-tidssone i formatet yyyy-mm-ddThh:mm:ss.fffZ .Denne egenskapen kan hoppes over, noe som betyr at det ikke brukes noe filattributtfilter. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer. |
• Starttidspunkt • Sluttidspunkt |
No | modifiedDatetimeStart modifiedDatetimeEnd |
Aktiver partisjonsoppdagelse | Om du vil analysere partisjonene fra filbanen og legge dem til som ekstra kildekolonner. | Merket eller umerket | No | enablePartitionDiscovery: sann eller usann (standard) |
Partisjonsrotbane | Den absolutte partisjonsrotbanen for å lese partisjonerte mapper som datakolonner. | <partisjonsrotbanen> | No | partitionRootPath |
Maksimalt antall samtidige tilkoblinger | Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. En verdi er bare nødvendig når du vil begrense samtidige tilkoblinger. | <maks samtidige tilkoblinger> | No | maxConcurrentConnections |
Målinformasjon
Name | Beskrivelse | Verdi | Kreves | JSON-skriptegenskap |
---|---|---|---|---|
Forbindelse | Inndelingen for å velge tilkoblingen. | < Lakehouse-tilkoblingen> | Ja | workspaceId artifactId |
Rotmappen | Typen rotmappe. | • Tabeller • Filer |
Ja | rootFolder: Tabell eller filer |
Tabellnavn | Navnet på tabellen du vil skrive data til. | <tabellnavnet> | Ja når du velger Tabeller i rotmappen | tabellen |
Tabell | Navnet på tabellen med et skjema du vil skrive data til når du bruker Lakehouse med skjemaer som tilkobling. | <tabellen med et skjema> | Ja når du velger Tabeller i rotmappen | / |
For tabell | ||||
skjemanavn | Navnet på skjemaet. | <skjemanavnet> (standardverdien er dbo) |
No | (under sink ->datasetSettings ->typeProperties )schema |
tabellnavn | Navnet på tabellen. | <tabellnavnet> | Ja | tabellen |
Tabellhandling | Tilføy nye verdier i en eksisterende tabell eller overskriv eksisterende data og skjema i tabellen ved hjelp av de nye verdiene. | • Tilføye • Overskrive |
No | tableActionOption: Tilføye eller skrive overSchema |
Aktiver partisjoner | Dette valget lar deg opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «year=2000/month=01/file». | Merket eller umerket | No | partitionOption: PartitionByKey eller Ingen |
Partisjonskolonner | Målkolonnene i skjematilordning. | <partisjonskolonnene> | No | partitionNameList |
Filbane | Skriv data til banen til en mappe/fil under måldatalageret. | <filbane> | No | • folderPath •Filnavn |
Filformat | Filformatet for måldataene. Hvis du vil ha informasjon om ulike filformater, kan du se artikler i støttet format for detaljert informasjon. | / | Ja når du velger Filer i rotmappen | / |
Kopier virkemåte | Kopieringsvirkemåten som er definert når kilden er filer fra et filbasert datalager. | • Flate ut hierarki • Slå sammen filer • Bevare hierarki • Legge til dynamisk innhold |
No | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Maksimalt antall samtidige tilkoblinger | Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger. | <maks samtidige tilkoblinger> | No | maxConcurrentConnections |
Blokkstørrelse (MB) | Blokkstørrelsen i MB brukes til å skrive data til Lakehouse. Tillatt verdi er mellom 4 MB og 100 MB. | <blokkstørrelse> | No | blockSizeInMB |
Metadata | Det egendefinerte metadatasettet når du kopierer til et mål. | • $$LASTMODIFIED •Uttrykk • Statisk verdi |
No | metadata |