Slik konfigurerer du Lakehouse i en kopiaktivitet
Denne artikkelen beskriver hvordan du bruker kopieringsaktiviteten i et datasamlebånd til å kopiere data fra og til Fabric Lakehouse.
Viktig
Microsoft Fabric er for øyeblikket i PREVIEW. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her. Se Azure Data Factory dokumentasjon for tjenesten i Azure.
Støttet format
Lakehouse støtter følgende filformater. Se hver artikkel for formatbaserte innstillinger.
- Avro-format
- Binærformat
- Tekstformat med skilletegn
- Excel-format
- JSON-format
- ORC-format
- Parquet-format
- XML-format
Støttet konfigurasjon
Hvis du vil ha konfigurasjonen av hver fane under kopieringsaktivitet, kan du gå til de følgende inndelingene.
Generelt
Gå til Generelt for konfigurasjon av Generelt-fanen.
Kilde
Følgende egenskaper støttes for Lakehouse under Kilde-fanen for en kopiaktivitet.
Følgende egenskaper er nødvendige:
- Datalagertype: Velg arbeidsområde.
- Datalagertype for arbeidsområde: Velg Lakehouse fra datalagertypelisten.
- Lakehouse: Velg et eksisterende Lakehouse fra arbeidsområdet. Hvis det ikke finnes noen, kan du opprette et nytt Lakehouse ved å velge Ny.
- Rotmappe: Velg tabeller eller filer, som angir den virtuelle visningen av det administrerte eller uadministrerte området i innsjøen. Hvis du vil ha mer informasjon, kan du se Lakehouse introduksjon.
- Hvis du velger Tabeller:
- Tabellnavn: Velg en eksisterende tabell fra tabelllisten, eller angi et tabellnavn som kilde.
- Under Avansert kan du angi følgende felt:
- Tidsstempel: Angi for å spørre etter et eldre øyeblikksbilde etter tidsstempel.
- Versjon: Angi for å spørre etter et eldre øyeblikksbilde etter versjon.
- Flere kolonner: Legg til flere datakolonner i lagerkildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte.
- Hvis du velger Filer:
Filtype: Du kan velge Filbane, Jokertegn-filbane eller Liste over filer som filtype. Listen nedenfor beskriver konfigurasjonen av hver innstilling:
Filbane: Velg Bla gjennom for å velge filen du vil kopiere, eller fyll ut banen manuelt.
Bane til jokertegnfil: Angi mappe- eller filbanen med jokertegn under det angitte uadministrerte Området i Lakehouse (under Filer) for å filtrere kildemappene eller filene. Tillatte jokertegn er:
*
(samsvarer med null eller flere tegn) og?
(samsvarer med null eller enkelttegn). Brukes^
til å unngå dette hvis mappen eller filnavnet har jokertegn eller escape-tegn inni.Bane til jokertegnmappe: Banen til mappen under den angitte beholderen. Hvis du vil bruke et jokertegn til å filtrere mappen, hopper du over denne innstillingen og angir denne informasjonen i innstillingene for aktivitetskilden.
Filnavn med jokertegn: Filnavnet under det angitte uadministrerte Lakehouse-området (under Filer) og mappebanen.
Liste over filer: Angir å kopiere et gitt filsett.
- Mappebane: Peker til en mappe som inneholder filer du vil kopiere.
- Bane til filliste: Peker til en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til filbanen som er konfigurert.
Rekursivt: Angir om dataene leses rekursivt fra undermappene eller bare fra den angitte mappen. Hvis aktivert, behandles alle filene i inndatamappen og undermappene rekursivt. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
Filformat: Velg filformatet fra rullegardinlisten. Velg Innstillinger-knappen for å konfigurere filformatet. Hvis du vil ha informasjon om innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.
Under Avansert kan du angi følgende felt:
- Filtrer etter sist endret: Filer filtreres basert på datoene som ble endret sist. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
- Starttidspunkt: Filene velges hvis det siste endringstidspunktet er større enn eller lik det konfigurerte tidspunktet.
- Sluttidspunkt: Filene velges hvis det siste endringstidspunktet er mindre enn det konfigurerte tidspunktet.
- Aktiver partisjonsoppdagelse: For filer som er partisjonert, angir du om du vil analysere partisjonene fra filbanen og legge dem til som ekstra kildekolonner.
- Partisjonsrotbane: Når partisjonssøk er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner.
- Maksimalt antall samtidige tilkoblinger: Angir den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.
- Filtrer etter sist endret: Filer filtreres basert på datoene som ble endret sist. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
- Hvis du velger Tabeller:
Mål
Følgende egenskaper støttes for Lakehouse under Mål-fanen for en kopiaktivitet.
Følgende egenskaper er nødvendige:
- Datalagertype: Velg arbeidsområde.
- Datalagertype for arbeidsområde: Velg Lakehouse fra datalagertypelisten.
- Lakehouse: Velg et eksisterende Lakehouse fra arbeidsområdet. Hvis det ikke finnes noen, kan du opprette et nytt Lakehouse ved å velge Ny.
- Rotmappe: Velg tabeller eller filer, som angir den virtuelle visningen av det administrerte eller uadministrerte området i innsjøen. Hvis du vil ha mer informasjon, kan du se Lakehouse introduksjon.
Hvis du velger Tabeller:
Tabellnavn: Velg en eksisterende tabell fra tabelllisten, eller angi et tabellnavn som mål.
Under Avansert kan du angi følgende felt:
- Maksimalt antall rader per fil: Angi maksimalt antall rader per fil når du skriver data til Lakehouse.
- Tabellhandlinger: Angi operasjonen mot den valgte tabellen.
- Tilføy: Tilføy nye verdier i eksisterende tabell.
- Overskriv: Overskriv eksisterende data og skjema i tabellen ved hjelp av de nye verdiene. Hvis denne operasjonen er valgt, kan du aktivere partisjonen i måltabellen:
- Aktiver partisjon: Med dette valget kan du opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «år=2000/måned=01/fil». Dette valget støtter modus som bare er satt inn, og krever en tom katalog i målet.
- Partisjonskolonnenavn: Velg fra målkolonnene i skjematilordning. Datatyper som støttes er streng, heltall, boolsk og datetime. Formatet respekterer typekonverteringsinnstillinger under Tilordning-fanen .
- Aktiver partisjon: Med dette valget kan du opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «år=2000/måned=01/fil». Dette valget støtter modus som bare er satt inn, og krever en tom katalog i målet.
- Maksimalt antall samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.
Hvis du velger Filer:
Filbane: Velg Bla gjennom for å velge filen du vil kopiere, eller fyll ut banen manuelt.
Filformat: Velg filformatet fra rullegardinlisten. Velg Innstillinger for å konfigurere filformatet. Hvis du vil ha informasjon om innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.
Under Avansert kan du angi følgende felt:
Kopieringsvirkemåte: Definerer kopieringsvirkemåten når kilden er filer fra et filbasert datalager. Du kan velge Legg til dynamisk innhold, Ingen, Flatt hierarki eller Behold hierarki som kopieringsvirkemåte. Konfigurasjonen av hver innstilling er:
Legg til dynamisk innhold: Hvis du vil angi et uttrykk for en egenskapsverdi, velger du Legg til dynamisk innhold. Dette feltet åpner uttrykksverktøyet der du kan bygge uttrykk fra støttede systemvariabler, aktivitetsutdata, funksjoner og brukerangitte variabler eller parametere. Hvis du vil ha mer informasjon om uttrykksspråket, kan du gå til Uttrykk og funksjoner.
Ingen: Velg dette valget hvis du ikke vil bruke kopieringsvirkemåte.
Flate ut hierarki: Alle filer fra kildemappen er på det første nivået i målmappen. Målfilene har automatisk genererte navn.
Behold hierarki: Bevarer filhierarkiet i målmappen. Den relative banen til en kildefil til kildemappen er identisk med den relative banen til en målfil til målmappen.
Maksimalt antall samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.
Blokkstørrelse (MB): Angi blokkstørrelsen i MB når du skriver data til Lakehouse. Tillatt verdi er mellom 4 MB og 100 MB.
Metadata: Angi egendefinerte metadata ved kopiering til måldatalageret. Hvert objekt under matrisen
metadata
representerer en ekstra kolonne. Definerername
nøkkelnavnet for metadata, ogvalue
angir dataverdien for nøkkelen. Hvis funksjonen behold attributter brukes, vil de angitte metadataene union/overskrive med kildefilmetadataene. De tillatte dataverdiene er:
Kartlegging
Gå til Tilordning for konfigurasjon av tilordning-fanen. Hvis du velger Binær som filformat, støttes ikke tilordning.
Innstillinger
Gå til Innstillinger for konfigurasjon av Innstillinger-fanen.
Tabellsammendrag
Tabellene nedenfor inneholder mer informasjon om en kopiaktivitet i Lakehouse.
Kildeinformasjon
Navn | Beskrivelse | Verdi | Obligatorisk | JSON-skriptegenskap |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbeidsområde | Ja | / |
Datalagertype for arbeidsområde | Delen for å velge datalagertypen for arbeidsområdet. | Lakehouse | Ja | type |
Lakehouse | Lakehouse som du bruker som kilde. | <lakehouse> | Ja | workspaceId artifactId |
Rotmappen | Typen rotmappe. | * Tabeller * Filer |
Nei | rootFolder: Tabell eller filer |
Tabellnavn | Navnet på tabellen for å lese data. | <tabellnavn> | Ja når du velger Tabeller i rotmappen | tabell (under typeProperties ->source ->typeProperties ) |
Tidsstempel | Tidsstempelet for å spørre etter et eldre øyeblikksbilde. | <Tidsstempel> | Nei | timestampAsOf |
Versjon | Versjonen som skal spørres etter et eldre øyeblikksbilde. | <Versjon> | Nei | versionAsOf |
Flere kolonner | Flere datakolonner for lagring av kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte. | *Navn *Verdi |
Nei | additionalColumns: *navn *Verdi |
Filtype | Filtypen du bruker. | * Filbane * Bane til jokertegnfil * Liste over filer |
Ja | / |
Filbane | Kopier fra banen til en mappe/fil under kildedatalageret. Bruk når du velger Filbane i filtypen. | <filbane> | Ja når du velger Filbane | * folderPath *Filnavn |
Jokertegnbaner | Mappebanen med jokertegn under kildedatalageret som er konfigurert til å filtrere kildemapper. Bruk når du velger Banen til jokertegnfilen i filtypen. | <jokertegnbaner> | Ja når du velger jokertegnfilbane | * wildcardFolderPath * wildcardFileName |
Mappebane | Peker til en mappe som inneholder filer du vil kopiere. Bruk når du velger Liste over filer i filtypen. | <mappebane> | Nei | folderPath |
Bane til filliste | Angir at et gitt filsett skal kopieres. Pek på en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til banen som er konfigurert. Bruk når du velger Liste over filer i filtypen. | <bane til filliste> | Nei | fileListPath |
Rekursivt | Behandle alle filene i inndatamappen og undermappene rekursivt eller bare de i den valgte mappen. Denne innstillingen er deaktivert når én enkelt fil er valgt. | merke eller fjerne merkingen | Nei | Rekursiv: sann eller usann |
Filformat | Formatet på filen du bruker. | <filformat> | Ja | type (under formatSettings ):SkilletegntextReadSettings |
Filtrer etter sist endret | Filene med siste endringstidspunkt i området [Starttidspunkt, sluttidspunkt) filtreres for videre behandling. Klokkeslettet brukes på UTC-tidssone i formatet yyyy-mm-ddTt:mm:ss.fffZ. Denne egenskapen kan hoppes over, noe som betyr at det ikke brukes noe filattributtfilter. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer. |
* Starttidspunkt * Sluttidspunkt |
Nei | modifiedDatetimeStart modifiedDatetimeEnd |
Aktiver partisjonsoppdagelse | Om du vil analysere partisjonene fra filbanen og legge dem til som ekstra kildekolonner. | Merket eller umerket | Nei | enablePartitionDiscovery: sann eller usann (standard) |
Partisjonsrotbane | Den absolutte partisjonsrotbanen for å lese partisjonerte mapper som datakolonner. | <partisjonsrotbanen> | Nei | partitionRootPath |
Maksimalt antall samtidige tilkoblinger | Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. En verdi kreves bare når du vil begrense samtidige tilkoblinger. | <maksimalt antall samtidige tilkoblinger> | Nei | maxConcurrentConnections |
Målinformasjon
Navn | Beskrivelse | Verdi | Obligatorisk | JSON-skriptegenskap |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbeidsområde | Ja | / |
Datalagertype for arbeidsområde | Delen for å velge datalagertypen for arbeidsområdet. | Lakehouse | Ja | type |
Lakehouse | Lakehouse som du bruker som destinasjon. | <lakehouse> | Ja | workspaceId artifactId |
Rotmappen | Typen rotmappe. | * Tabeller * Filer |
Ja | rootFolder: Tabell eller filer |
Tabellnavn | Navnet på tabellen du vil skrive data til. | <tabellnavnet> | Ja når du velger Tabeller i rotmappen | tabell (under typeProperties ->sink ->typeProperties ) |
Maksimalt antall rader per fil | Når du skriver data til en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil. | <maksimalt antall rader per flie> | Nei | maxRowsPerFile |
Tabellhandling | Tilføy nye verdier i en eksisterende tabell eller overskriv de eksisterende dataene og skjemaet i tabellen ved hjelp av de nye verdiene. | * Tilføye * Overskrive |
Nei | tableActionOption: Tilføye eller overskrive |
Maksimalt antall samtidige tilkoblinger | Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger. | <maks samtidige tilkoblinger> | Nei | maxConcurrentConnections |
Filbane | Skriv data til banen til en mappe/fil under måldatalageret. | <filbane> | Nei | * folderPath *Filnavn |
Filformat | Formatet på filen du bruker. | <filformat> | Ja | type (under formatSettings ):Skilletegntekstskrivinger |
Kopier virkemåte | Kopieringsvirkemåten som er definert når kilden er filer fra et filbasert datalager. | * Legg til dynamisk innhold * Ingen * Flate ut hierarki * Behold hierarki |
Nei | copyBehavior: * FlattenHierarchy * PreserveHierarchy |
Blokkstørrelse (MB) | Blokkstørrelsen i MB brukes til å skrive data til Lakehouse. Tillatt verdi er mellom 4 MB og 100 MB. | <blokkstørrelse> | Nei | blockSizeInMB |
Metadata | Det egendefinerte metadatasettet når du kopierer til et mål. | * $$LASTMODIFIED *Uttrykk * Statisk verdi |
Nei | Metadata |