Slik konfigurerer du Lakehouse i en kopiaktivitet

Denne artikkelen beskriver hvordan du bruker kopieringsaktiviteten i et datasamlebånd til å kopiere data fra og til Fabric Lakehouse.

Viktig

Microsoft Fabric er for øyeblikket i PREVIEW. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her. Se Azure Data Factory dokumentasjon for tjenesten i Azure.

Støttet format

Lakehouse støtter følgende filformater. Se hver artikkel for formatbaserte innstillinger.

Støttet konfigurasjon

Hvis du vil ha konfigurasjonen av hver fane under kopieringsaktivitet, kan du gå til de følgende inndelingene.

Generelt

Gå til Generelt for konfigurasjon av Generelt-fanen.

Kilde

Følgende egenskaper støttes for Lakehouse under Kilde-fanen for en kopiaktivitet.

Skjermbilde som viser kildefanen og listen over egenskaper.

Følgende egenskaper er nødvendige:

  • Datalagertype: Velg arbeidsområde.
  • Datalagertype for arbeidsområde: Velg Lakehouse fra datalagertypelisten.
  • Lakehouse: Velg et eksisterende Lakehouse fra arbeidsområdet. Hvis det ikke finnes noen, kan du opprette et nytt Lakehouse ved å velge Ny.
  • Rotmappe: Velg tabeller eller filer, som angir den virtuelle visningen av det administrerte eller uadministrerte området i innsjøen. Hvis du vil ha mer informasjon, kan du se Lakehouse introduksjon.
    • Hvis du velger Tabeller:
      • Tabellnavn: Velg en eksisterende tabell fra tabelllisten, eller angi et tabellnavn som kilde.
      • Under Avansert kan du angi følgende felt:
        • Tidsstempel: Angi for å spørre etter et eldre øyeblikksbilde etter tidsstempel.
        • Versjon: Angi for å spørre etter et eldre øyeblikksbilde etter versjon.
        • Flere kolonner: Legg til flere datakolonner i lagerkildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte.
    • Hvis du velger Filer:
      • Filtype: Du kan velge Filbane, Jokertegn-filbane eller Liste over filer som filtype. Listen nedenfor beskriver konfigurasjonen av hver innstilling:

        Skjermbilde som viser filbanen.

        • Filbane: Velg Bla gjennom for å velge filen du vil kopiere, eller fyll ut banen manuelt.

        • Bane til jokertegnfil: Angi mappe- eller filbanen med jokertegn under det angitte uadministrerte Området i Lakehouse (under Filer) for å filtrere kildemappene eller filene. Tillatte jokertegn er: * (samsvarer med null eller flere tegn) og ? (samsvarer med null eller enkelttegn). Brukes ^ til å unngå dette hvis mappen eller filnavnet har jokertegn eller escape-tegn inni.

          • Bane til jokertegnmappe: Banen til mappen under den angitte beholderen. Hvis du vil bruke et jokertegn til å filtrere mappen, hopper du over denne innstillingen og angir denne informasjonen i innstillingene for aktivitetskilden.

          • Filnavn med jokertegn: Filnavnet under det angitte uadministrerte Lakehouse-området (under Filer) og mappebanen.

            Skjermbilde som viser banen til jokertegnfilen.

        • Liste over filer: Angir å kopiere et gitt filsett.

          • Mappebane: Peker til en mappe som inneholder filer du vil kopiere.
          • Bane til filliste: Peker til en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til filbanen som er konfigurert.

          Skjermbilde som viser banen til fillisten.

      • Rekursivt: Angir om dataene leses rekursivt fra undermappene eller bare fra den angitte mappen. Hvis aktivert, behandles alle filene i inndatamappen og undermappene rekursivt. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.

      • Filformat: Velg filformatet fra rullegardinlisten. Velg Innstillinger-knappen for å konfigurere filformatet. Hvis du vil ha informasjon om innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.

      • Under Avansert kan du angi følgende felt:

        • Filtrer etter sist endret: Filer filtreres basert på datoene som ble endret sist. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
          • Starttidspunkt: Filene velges hvis det siste endringstidspunktet er større enn eller lik det konfigurerte tidspunktet.
          • Sluttidspunkt: Filene velges hvis det siste endringstidspunktet er mindre enn det konfigurerte tidspunktet.
        • Aktiver partisjonsoppdagelse: For filer som er partisjonert, angir du om du vil analysere partisjonene fra filbanen og legge dem til som ekstra kildekolonner.
          • Partisjonsrotbane: Når partisjonssøk er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner.
        • Maksimalt antall samtidige tilkoblinger: Angir den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.

Mål

Følgende egenskaper støttes for Lakehouse under Mål-fanen for en kopiaktivitet.

Skjermbilde som viser målfanen.

Følgende egenskaper er nødvendige:

  • Datalagertype: Velg arbeidsområde.
  • Datalagertype for arbeidsområde: Velg Lakehouse fra datalagertypelisten.
  • Lakehouse: Velg et eksisterende Lakehouse fra arbeidsområdet. Hvis det ikke finnes noen, kan du opprette et nytt Lakehouse ved å velge Ny.
  • Rotmappe: Velg tabeller eller filer, som angir den virtuelle visningen av det administrerte eller uadministrerte området i innsjøen. Hvis du vil ha mer informasjon, kan du se Lakehouse introduksjon.
    • Hvis du velger Tabeller:

      • Tabellnavn: Velg en eksisterende tabell fra tabelllisten, eller angi et tabellnavn som mål.

        Skjermbilde som viser tabellnavn.

      • Under Avansert kan du angi følgende felt:

        • Maksimalt antall rader per fil: Angi maksimalt antall rader per fil når du skriver data til Lakehouse.
        • Tabellhandlinger: Angi operasjonen mot den valgte tabellen.
          • Tilføy: Tilføy nye verdier i eksisterende tabell.
          • Overskriv: Overskriv eksisterende data og skjema i tabellen ved hjelp av de nye verdiene. Hvis denne operasjonen er valgt, kan du aktivere partisjonen i måltabellen:
            • Aktiver partisjon: Med dette valget kan du opprette partisjoner i en mappestruktur basert på én eller flere kolonner. Hver distinkte kolonneverdi (par) er en ny partisjon. For eksempel «år=2000/måned=01/fil». Dette valget støtter modus som bare er satt inn, og krever en tom katalog i målet.
              • Partisjonskolonnenavn: Velg fra målkolonnene i skjematilordning. Datatyper som støttes er streng, heltall, boolsk og datetime. Formatet respekterer typekonverteringsinnstillinger under Tilordning-fanen .
        • Maksimalt antall samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.
    • Hvis du velger Filer:

      • Filbane: Velg Bla gjennom for å velge filen du vil kopiere, eller fyll ut banen manuelt.

        Skjermbilde som viser filbanen i målet.

      • Filformat: Velg filformatet fra rullegardinlisten. Velg Innstillinger for å konfigurere filformatet. Hvis du vil ha informasjon om innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.

      • Under Avansert kan du angi følgende felt:

        • Kopieringsvirkemåte: Definerer kopieringsvirkemåten når kilden er filer fra et filbasert datalager. Du kan velge Legg til dynamisk innhold, Ingen, Flatt hierarki eller Behold hierarki som kopieringsvirkemåte. Konfigurasjonen av hver innstilling er:

          • Legg til dynamisk innhold: Hvis du vil angi et uttrykk for en egenskapsverdi, velger du Legg til dynamisk innhold. Dette feltet åpner uttrykksverktøyet der du kan bygge uttrykk fra støttede systemvariabler, aktivitetsutdata, funksjoner og brukerangitte variabler eller parametere. Hvis du vil ha mer informasjon om uttrykksspråket, kan du gå til Uttrykk og funksjoner.

          • Ingen: Velg dette valget hvis du ikke vil bruke kopieringsvirkemåte.

          • Flate ut hierarki: Alle filer fra kildemappen er på det første nivået i målmappen. Målfilene har automatisk genererte navn.

          • Behold hierarki: Bevarer filhierarkiet i målmappen. Den relative banen til en kildefil til kildemappen er identisk med den relative banen til en målfil til målmappen.

            Skjermbilde som viser kopieringsvirkemåte.

        • Maksimalt antall samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.

        • Blokkstørrelse (MB): Angi blokkstørrelsen i MB når du skriver data til Lakehouse. Tillatt verdi er mellom 4 MB og 100 MB.

        • Metadata: Angi egendefinerte metadata ved kopiering til måldatalageret. Hvert objekt under matrisen metadata representerer en ekstra kolonne. Definerer name nøkkelnavnet for metadata, og value angir dataverdien for nøkkelen. Hvis funksjonen behold attributter brukes, vil de angitte metadataene union/overskrive med kildefilmetadataene. De tillatte dataverdiene er:

          • $$LASTMODIFIED: en reservert variabel angir at kildefilenes siste endringstidspunkt skal lagres. Bruk bare på en filbasert kilde med binærformat.

          • Expression

          • Statisk verdi

            Skjermbilde som viser metadata.

Kartlegging

Gå til Tilordning for konfigurasjon av tilordning-fanen. Hvis du velger Binær som filformat, støttes ikke tilordning.

Innstillinger

Gå til Innstillinger for konfigurasjon av Innstillinger-fanen.

Tabellsammendrag

Tabellene nedenfor inneholder mer informasjon om en kopiaktivitet i Lakehouse.

Kildeinformasjon

Navn Beskrivelse Verdi Obligatorisk JSON-skriptegenskap
Datalagertype Datalagertypen. Arbeidsområde Ja /
Datalagertype for arbeidsområde Delen for å velge datalagertypen for arbeidsområdet. Lakehouse Ja type
Lakehouse Lakehouse som du bruker som kilde. <lakehouse> Ja workspaceId
artifactId
Rotmappen Typen rotmappe. * Tabeller
* Filer
Nei rootFolder:
Tabell eller filer
Tabellnavn Navnet på tabellen for å lese data. <tabellnavn> Ja når du velger Tabeller i rotmappen tabell
(under typeProperties ->source ->typeProperties)
Tidsstempel Tidsstempelet for å spørre etter et eldre øyeblikksbilde. <Tidsstempel> Nei timestampAsOf
Versjon Versjonen som skal spørres etter et eldre øyeblikksbilde. <Versjon> Nei versionAsOf
Flere kolonner Flere datakolonner for lagring av kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte. *Navn
*Verdi
Nei additionalColumns:
*navn
*Verdi
Filtype Filtypen du bruker. * Filbane
* Bane til jokertegnfil
* Liste over filer
Ja /
Filbane Kopier fra banen til en mappe/fil under kildedatalageret. Bruk når du velger Filbane i filtypen. <filbane> Ja når du velger Filbane * folderPath
*Filnavn
Jokertegnbaner Mappebanen med jokertegn under kildedatalageret som er konfigurert til å filtrere kildemapper. Bruk når du velger Banen til jokertegnfilen i filtypen. <jokertegnbaner> Ja når du velger jokertegnfilbane * wildcardFolderPath
* wildcardFileName
Mappebane Peker til en mappe som inneholder filer du vil kopiere. Bruk når du velger Liste over filer i filtypen. <mappebane> Nei folderPath
Bane til filliste Angir at et gitt filsett skal kopieres. Pek på en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til banen som er konfigurert. Bruk når du velger Liste over filer i filtypen. <bane til filliste> Nei fileListPath
Rekursivt Behandle alle filene i inndatamappen og undermappene rekursivt eller bare de i den valgte mappen. Denne innstillingen er deaktivert når én enkelt fil er valgt. merke eller fjerne merkingen Nei Rekursiv:
sann eller usann
Filformat Formatet på filen du bruker. <filformat> Ja type (under formatSettings):
SkilletegntextReadSettings
Filtrer etter sist endret Filene med siste endringstidspunkt i området [Starttidspunkt, sluttidspunkt) filtreres for videre behandling.

Klokkeslettet brukes på UTC-tidssone i formatet yyyy-mm-ddTt:mm:ss.fffZ.

Denne egenskapen kan hoppes over, noe som betyr at det ikke brukes noe filattributtfilter. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.
* Starttidspunkt
* Sluttidspunkt
Nei modifiedDatetimeStart
modifiedDatetimeEnd
Aktiver partisjonsoppdagelse Om du vil analysere partisjonene fra filbanen og legge dem til som ekstra kildekolonner. Merket eller umerket Nei enablePartitionDiscovery:
sann eller usann (standard)
Partisjonsrotbane Den absolutte partisjonsrotbanen for å lese partisjonerte mapper som datakolonner. <partisjonsrotbanen> Nei partitionRootPath
Maksimalt antall samtidige tilkoblinger Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. En verdi kreves bare når du vil begrense samtidige tilkoblinger. <maksimalt antall samtidige tilkoblinger> Nei maxConcurrentConnections

Målinformasjon

Navn Beskrivelse Verdi Obligatorisk JSON-skriptegenskap
Datalagertype Datalagertypen. Arbeidsområde Ja /
Datalagertype for arbeidsområde Delen for å velge datalagertypen for arbeidsområdet. Lakehouse Ja type
Lakehouse Lakehouse som du bruker som destinasjon. <lakehouse> Ja workspaceId
artifactId
Rotmappen Typen rotmappe. * Tabeller
* Filer
Ja rootFolder:
Tabell eller filer
Tabellnavn Navnet på tabellen du vil skrive data til. <tabellnavnet> Ja når du velger Tabeller i rotmappen tabell
(under typeProperties ->sink ->typeProperties)
Maksimalt antall rader per fil Når du skriver data til en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil. <maksimalt antall rader per flie> Nei maxRowsPerFile
Tabellhandling Tilføy nye verdier i en eksisterende tabell eller overskriv de eksisterende dataene og skjemaet i tabellen ved hjelp av de nye verdiene. * Tilføye
* Overskrive
Nei tableActionOption:
Tilføye eller overskrive
Maksimalt antall samtidige tilkoblinger Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger. <maks samtidige tilkoblinger> Nei maxConcurrentConnections
Filbane Skriv data til banen til en mappe/fil under måldatalageret. <filbane> Nei * folderPath
*Filnavn
Filformat Formatet på filen du bruker. <filformat> Ja type (under formatSettings):
Skilletegntekstskrivinger
Kopier virkemåte Kopieringsvirkemåten som er definert når kilden er filer fra et filbasert datalager. * Legg til dynamisk innhold
* Ingen
* Flate ut hierarki
* Behold hierarki
Nei copyBehavior:


* FlattenHierarchy
* PreserveHierarchy
Blokkstørrelse (MB) Blokkstørrelsen i MB brukes til å skrive data til Lakehouse. Tillatt verdi er mellom 4 MB og 100 MB. <blokkstørrelse> Nei blockSizeInMB
Metadata Det egendefinerte metadatasettet når du kopierer til et mål. * $$LASTMODIFIED
*Uttrykk
* Statisk verdi
Nei Metadata

Neste trinn