Konfigurer Azure Data Lake Storage Gen2 i en kopiaktivitet

Denne artikkelen beskriver hvordan du bruker kopieringsaktiviteten i datasamlebåndet til å kopiere data fra og til Azure Data Lake Storage Gen2.

Støttet format

Azure Data Lake Storage Gen2 støtter følgende filformater. Se hver artikkel for formatbaserte innstillinger.

Støttet konfigurasjon

Hvis du vil ha konfigurasjonen av hver fane under kopieringsaktivitet, kan du gå til følgende inndelinger.

Generelt

Se veiledningen for generelle innstillinger for å konfigurere fanen Generelle innstillinger.

Source

Følgende egenskaper støttes for Azure Data Lake Storage Gen2 under Kilde-fanen for en kopiaktivitet.

Screenshot showing source tab.

Følgende egenskaper er nødvendige:

  • Datalagertype: Velg ekstern.

  • Koble til ion: Velg en Azure Data Lake Storage Gen2-tilkobling fra tilkoblingslisten. Hvis det ikke finnes noen tilkobling, oppretter du en ny Azure Data Lake Storage Gen2-tilkobling ved å velge Ny.

  • Koble til iontype: Velg Azure Data Lake Storage Gen2.

  • Filtype: Du kan velge Filbane, Jokertegnfilbane eller Liste over filer som filtype. Konfigurasjonen av hver av disse innstillingene er:

    • Filbane: Hvis du velger denne typen, kan dataene kopieres fra det angitte filsystemet eller mappe-/filbanen som er angitt tidligere.

    • Jokertegnfilbane: Hvis du velger denne typen, angir du Fil-systemet og Jokertegnbaner.

      • Filsystem: Navnet på Azure Data Lake Storage Gen2-filsystemet.

      • Jokertegnbaner: Angi mappen eller filbanen med jokertegn under det angitte filsystemet for å filtrere kildemapper eller filer.

        Tillatte jokertegn er: * (samsvarer med null eller flere tegn) og ? (samsvarer med null eller enkelttegn). Brukes ^ til å unnslippe hvis mappenavnet har jokertegn eller dette escape-tegnet inni. Hvis du vil ha flere eksempler, kan du gå til eksempler på mappe- og filfilter.

        Screenshot showing wildcard file path.

        • Banen til jokertegnmappen: Angi mappebanen med jokertegn under det angitte filsystemet for å filtrere kildemapper.

        • Jokertegnfilnavn: Angi filnavnet med jokertegn under det angitte filsystemet + mappebanen (eller jokertegnmappebanen) for å filtrere kildefiler.

    • Liste over filer: Angir at du vil kopiere et gitt filsett. Angi mappebane og Bane til fil-listen for å peke til en tekstfil som inneholder en liste over filer du vil kopiere, én fil per linje, som er den relative banen til banen. Hvis du vil ha flere eksempler, kan du gå til Eksempler på filliste.

      Screenshot showing path to file list.

      • Mappebane: Angi banen til en mappe under det angitte filsystemet. Det kreves.

      • Bane til filliste: Angi banen til tekstfilen som inneholder en liste over filer du vil kopiere.

  • Rekursivt: Angi om dataene skal leses rekursivt fra undermappene eller bare fra den angitte mappen. Vær oppmerksom på at når Rekursivt er valgt og målet er et filbasert lager, kopieres ikke en tom mappe eller undermappe på målet. Denne egenskapen er valgt som standard og gjelder ikke når du konfigurerer Bane til fil-listen.

  • Filformat: Velg filformatet som brukes fra rullegardinlisten. Velg Innstillinger for å konfigurere filformatet. Hvis du vil ha innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.

Under Avansert kan du angi følgende felt:

  • Filtrer etter sist endret: Filer filtreres basert på de siste endrede datoene. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer.

    • Starttidspunkt (UTC): Filene velges hvis den siste endrede tiden er større enn eller lik det konfigurerte tidspunktet.

    • Sluttidspunkt (UTC): Filene velges hvis siste endringstidspunkt er mindre enn det konfigurerte tidspunktet.

    Når Starttidspunkt (UTC) har datetime-verdi, men sluttidspunkt (UTC) er NULL, betyr det at filene som sist endret attributtet er større enn eller lik datetime-verdien, velges. Når sluttidspunkt (UTC) har datetime-verdi, men Starttidspunkt (UTC) er NULL, betyr det at filene som sist endret attributtet er mindre enn datetime-verdien, blir valgt. Egenskapene kan være NULL, noe som betyr at ingen filattributtfilter vil bli brukt på dataene.

  • Aktiver partisjonsgjenkjenning: Angi om du vil analysere partisjonene fra filbanen og legge dem til som flere kildekolonner. Det er ikke merket av som standard og støttes ikke når du bruker binært filformat.

    • Partisjonsrotbane: Når partisjonsgjenkjenning er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner.

      Hvis det ikke er angitt, som standard,

      • Når du bruker filbanen eller listen over filer på kilden, er partisjonsrotbanen banen du konfigurerte.
      • Når du bruker jokertegnmappefilter, er partisjonsrotbanen underbanen før det første jokertegnet.

      Hvis du for eksempel konfigurerer banen som root/folder/year=2020/month=08/day=27:

      • Hvis du angir partisjonsrotbane som root/folder/year=2020, vil kopieringsaktivitet generere to kolonner måned og dag med henholdsvis verdien 08 og 27, i tillegg til kolonnene i filene.
      • Hvis partisjonsrotbanen ikke er angitt, genereres ingen ekstra kolonne.

    Screenshot showing partition discovery.

  • Maksimalt antall samtidige tilkoblinger: Denne egenskapen angir den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.

  • Flere kolonner: Legg til flere datakolonner for å lagre kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte.

Mål

Følgende egenskaper støttes for Azure Data Lake Storage Gen2 under Mål-fanen for en kopiaktivitet.

Screenshot showing destination tab.

Følgende egenskaper er nødvendige:

  • Datalagertype: Velg ekstern.
  • Koble til ion: Velg en Azure Data Lake Storage Gen2-tilkobling fra tilkoblingslisten. Hvis det ikke finnes noen tilkobling, oppretter du en ny Azure Data Lake Storage Gen2-tilkobling ved å velge Ny.
  • Koble til iontype: Velg Azure Data Lake Storage Gen2.
  • Filbane: Velg Bla gjennom for å velge filen du vil kopiere eller fylle ut banen manuelt.
  • Filformat: Velg filformatet som brukes fra rullegardinlisten. Velg Innstillinger for å konfigurere filformatet. Hvis du vil ha innstillinger for ulike filformater, kan du se artikler i støttet format for detaljert informasjon.

Under Avansert kan du angi følgende felt:

  • Kopier virkemåte: Definerer kopieringsvirkemåten når kilden er filer fra et filbasert datalager. Du kan velge en virkemåte fra rullegardinlisten.

    Screenshot showing copy behavior.

    • Flate ut hierarki: Alle filer fra kildemappen er på det første nivået i målmappen. Målfilene har automatisk genererte navn.
    • Flette filer: Slår sammen alle filer fra kildemappen til én fil. Hvis filnavnet er angitt, er det flettede filnavnet det angitte navnet. Ellers er det et automatisk generert filnavn.
    • Behold hierarki: Bevarer filhierarkiet i målmappen. Den relative banen til kildefilen til kildemappen er identisk med den relative banen til målfilen til målmappen.
  • Maks samtidige tilkoblinger: Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger.

  • Blokkstørrelse (MB): Angi blokkstørrelsen i MB som brukes til å skrive data til Azure Data Lake Storage Gen2. Hvis du vil ha mer informasjon, kan du se Blokkere blober. Tillatt verdi er mellom 4 MB og 100 MB.

    Blokkstørrelsen bestemmes som standard automatisk basert på kildelagertypen og -dataene. For ikke-binær kopi i Azure Data Lake Storage Gen2 er standard blokkstørrelse 100 MB, slik at den passer inn på maksimalt omtrent 4,75 TB data. Det er kanskje ikke optimalt når dataene ikke er store. Du kan eksplisitt angi en blokkstørrelse, mens du sikrer at blokkstørrelse (MB)*50000 er stor nok til å lagre dataene, ellers vil kjøring av kopiering av aktivitet mislykkes.

  • Metadata: Angi egendefinerte metadata når du kopierer til et mål. Hvert objekt under matrisen metadata representerer en ekstra kolonne. Definerer name nøkkelnavnet for metadata, og value angir dataverdien for nøkkelen. Hvis funksjonen behold attributter brukes, vil de angitte metadataene union/overskrive med metadataene for kildefilen.

    Tillatte dataverdier er:

    • $$LASTMODIFIED: En reservert variabel angir at kildefilenes siste endringstidspunkt skal lagres. Bruk bare på en filbasert kilde med et binært format.
    • Expression
    • Statisk verdi

    Screenshot showing metadata.

Tilordning

For tilordningsfanekonfigurasjon går du til Konfigurer tilordningene under tilordningsfanen. Hvis du velger Binær som filformat, støttes ikke tilordning.

Innstillinger

Gå til Konfigurer de andre innstillingene under innstillinger-fanen for konfigurasjon av Innstillinger-fanen.

Tabellsammendrag

Tabellene nedenfor inneholder mer informasjon om kopieringsaktiviteten i Azure Data Lake Storage Gen2.

Kildeinformasjon

Name Beskrivelse Verdi Kreves JSON-skriptegenskap
Datalagertype Datalagertypen. Ekstern Ja /
Koble til ion Tilkoblingen til kildedatalageret. <Azure Data Lake Storage Gen2-tilkoblingen> Ja Tilkobling
Koble til iontype Tilkoblingstypen. Velg Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Ja /
Filtype Filtypen du vil bruke. • Filbane
• Jokertegnmappebane, jokertegnfilnavn
•Liste over filer
Ja • folderPath, fileName, fileSystem
• wildcardFolderPath, wildcardFileName, fileSystem
• folderPath, fileName, fileListPath
Rekursivt Angir om dataene leses rekursivt fra undermappene eller bare fra den angitte mappen. Vær oppmerksom på at når Rekursivt er valgt og målet er et filbasert lager, kopieres ikke en tom mappe eller undermappe på målet. Denne egenskapen gjelder ikke når du konfigurerer Bane til fil-listen. valgt (standard) eller fjern merking No Rekursiv
Filtrer etter sist endret Filene med siste endringstidspunkt i området [Starttidspunkt, Sluttidspunkt) filtreres for videre behandling. Tiden brukes på UTC-tidssone i formatet yyyy-mm-ddThh:mm:ss.fffZ. Disse egenskapene kan hoppes over, noe som betyr at ingen filattributtfilter vil bli brukt. Denne egenskapen gjelder ikke når du konfigurerer filtypen som liste over filer. datetime No modifiedDatetimeStart
modifiedDatetimeEnd
Aktiver partisjonsoppdagelse Angir om du vil analysere partisjonene fra filbanen og legge dem til som flere kildekolonner. merket eller umerket (standard) No enablePartitionDiscovery:
sann eller usann (standard)
Partisjonsrotbane Når partisjonsgjenkjenning er aktivert, angir du den absolutte rotbanen for å lese partisjonerte mapper som datakolonner. < partisjonsrotbanen > No partitionRootPath
Maksimalt antall samtidige tilkoblinger Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger. <maks samtidige tilkoblinger> No maxConcurrent Koble til ions
Flere kolonner Legg til flere datakolonner for å lagre kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte. • Navn
•Verdi
No additionalColumns:
•navn
•Verdi

Målinformasjon

Name Beskrivelse Verdi Kreves JSON-skriptegenskap
Datalagertype Datalagertypen. Ekstern Ja /
Koble til ion Tilkoblingen til måldatalageret. <Azure Data Lake Storage Gen2-tilkoblingen> Ja Tilkobling
Koble til iontype Tilkoblingstypen. Velg Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Ja /
Filbane Filbanen til måldataene. < filbanen > Ja folderPath, fileName, fileSystem
Kopier virkemåte Definerer kopieringsvirkemåten når kilden er filer fra et filbasert datalager. • Flate ut hierarki
• Slå sammen filer
• Bevare hierarki
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maksimalt antall samtidige tilkoblinger Den øvre grensen for samtidige tilkoblinger som ble opprettet i datalageret under aktivitetskjøringen. Angi en verdi bare når du vil begrense samtidige tilkoblinger. <maks samtidige tilkoblinger> No maxConcurrent Koble til ions
Blokkstørrelse (MB) Angi blokkstørrelsen i MB når du skriver data til Azure Data Lake Storage Gen2. Tillatt verdi er mellom 4 MB og 100 MB. <blokkstørrelse> No blockSizeInMB
Metadata Angi egendefinerte metadata når du kopierer til mål. $$LASTMODIFIED
•Uttrykk
• Statisk verdi
No Metadata