Konfigurer Azure Data Lake Storage Gen2 i en kopiaktivitet

I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i datapipeline til at kopiere data fra og til Azure Data Lake Storage Gen2.

Understøttet format

Azure Data Lake Storage Gen2 understøtter følgende filformater. Se hver artikel for at få formatbaserede indstillinger.

Understøttet konfiguration

Hvis du vil konfigurere hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.

Generelt

Se vejledningen til generelle indstillinger for at konfigurere fanen Generelle indstillinger.

Kilde

Følgende egenskaber understøttes for Azure Data Lake Storage Gen2 under fanen Kilde i en kopiaktivitet.

Screenshot showing source tab.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg ekstern.

  • Forbind ion: Vælg en Azure Data Lake Storage Gen2-forbindelse på forbindelseslisten. Hvis der ikke findes nogen forbindelse, skal du oprette en ny Azure Data Lake Storage Gen2-forbindelse ved at vælge Ny.

  • Forbind ionstype: Vælg Azure Data Lake Storage Gen2.

  • Filtype: Du kan vælge Filsti, Sti til jokertegn eller Liste over filer som filtype. Konfigurationen af hver af disse indstillinger er:

    • Filsti: Hvis du vælger denne type, kan dataene kopieres fra det angivne filsystem eller den mappe/filsti, der er angivet tidligere.

    • Sti til jokertegnfil: Hvis du vælger denne type, skal du angive stierne Filsystem og Jokertegn.

      • Filsystem: Navnet på Azure Data Lake Storage Gen2-filsystemet.

      • Jokertegnstier: Angiv mappen eller filstien med jokertegn under det angivne filsystem for at filtrere kildemapper eller filer.

        Tilladte jokertegn er: * (svarer til nul eller flere tegn) og ? (svarer til nul eller enkelt tegn). Bruges ^ til at escape, hvis mappenavnet har jokertegn eller dette escape-tegn. Du kan få flere eksempler ved at gå til Eksempler på mappe- og filfilter.

        Screenshot showing wildcard file path.

        • Sti til jokertegnmappe: Angiv mappestien med jokertegn under det angivne filsystem for at filtrere kildemapper.

        • Filnavn med jokertegn: Angiv filnavnet med jokertegn under det angivne filsystem + mappesti (eller sti til jokertegnmappen) for at filtrere kildefiler.

    • Liste over filer: Angiver, at du vil kopiere et bestemt filsæt. Angiv Mappesti og Sti til filliste for at pege på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til stien. Du kan få flere eksempler ved at gå til Eksempler på fillister.

      Screenshot showing path to file list.

      • Mappesti: Angiv stien til en mappe under det angivne filsystem. Det er påkrævet.

      • Sti til filliste: Angiv stien til den tekstfil, der indeholder en liste over filer, du vil kopiere.

  • Rekursivt: Angiv, om dataene skal læses rekursivt fra undermapperne eller kun fra den angivne mappe. Bemærk, at når Rekursivt vælges, og destinationen er et filbaseret lager, kopieres eller oprettes der ikke en tom mappe eller undermappe på destinationen. Denne egenskab er valgt som standard og gælder ikke, når du konfigurerer sti til filliste.

  • Filformat: Vælg det filformat, der anvendes på rullelisten. Vælg Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.

Under Avanceret kan du angive følgende felter:

  • Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.

    • Starttidspunkt (UTC):Filerne vælges, hvis deres seneste ændringstid er større end eller lig med det konfigurerede tidspunkt.

    • Sluttidspunkt (UTC):Filerne vælges, hvis deres seneste ændringstidspunkt er mindre end det konfigurerede tidspunkt.

    Når Starttidspunkt (UTC) har datetime-værdi, men Sluttidspunkt (UTC) er NULL, betyder det, at de filer, hvis senest ændrede attribut er større end eller lig med datetime-værdien, vælges. Når Sluttidspunkt (UTC) har datetime-værdi, men Starttidspunkt (UTC) er NULL, betyder det, at de filer, hvis senest ændrede attribut er mindre end datetime-værdien, vælges. Egenskaberne kan være NULL, hvilket betyder, at der ikke anvendes et filattributfilter på dataene.

  • Aktivér registrering af partition: Angiv, om partitionerne skal fortolkes fra filstien, og tilføj dem som yderligere kildekolonner. Den er som standard ikke markeret og understøttes ikke, når du bruger binært filformat.

    • Partitionsrodsti: Når registrering af partition er aktiveret, skal du angive den absolutte rodsti for at læse partitionerede mapper som datakolonner.

      Hvis den ikke er angivet som standard,

      • Når du bruger filstien eller listen over filer på kilden, er partitionsrodstien den sti, du har konfigureret.
      • Når du bruger jokertegnmappefilteret, er partitionsrodstien understien før det første jokertegn.

      Hvis du f.eks. konfigurerer stien som root/folder/year=2020/month=08/day=27:

      • Hvis du angiver rodstien for partitionen som root/folder/year=2020, genererer kopiaktivitet to kolonner mere måned og dag med værdien "08" og "27" ud over kolonnerne i filerne.
      • Hvis der ikke er angivet en partitionsrodsti, oprettes der ingen ekstra kolonne.

    Screenshot showing partition discovery.

  • Maks. antal samtidige forbindelser: Denne egenskab angiver den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.

  • Flere kolonner: Tilføj flere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.

Destination

Følgende egenskaber understøttes for Azure Data Lake Storage Gen2 under fanen Destination for en kopiaktivitet.

Screenshot showing destination tab.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg ekstern.
  • Forbind ion: Vælg en Azure Data Lake Storage Gen2-forbindelse på forbindelseslisten. Hvis der ikke findes nogen forbindelse, skal du oprette en ny Azure Data Lake Storage Gen2-forbindelse ved at vælge Ny.
  • Forbind ionstype: Vælg Azure Data Lake Storage Gen2.
  • Filsti: Vælg Gennemse for at vælge den fil, du vil kopiere eller udfylde stien manuelt.
  • Filformat: Vælg det filformat, der anvendes på rullelisten. Vælg Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.

Under Avanceret kan du angive følgende felter:

  • Funktionsmåde for kopiering: Definerer kopifunktionsmåden, når kilden er filer fra et filbaseret datalager. Du kan vælge en funktionsmåde på rullelisten.

    Screenshot showing copy behavior.

    • Fladgør hierarki: Alle filer fra kildemappen er på det første niveau i destinationsmappen. Destinationsfilerne har automatisk genererede navne.
    • Flet filer: Fletter alle filer fra kildemappen til én fil. Hvis filnavnet er angivet, er det flettede filnavn det angivne navn. Ellers er det et automatisk genereret filnavn.
    • Bevar hierarki: Bevarer filhierarkiet i destinationsmappen. Den relative sti for kildefilen til kildemappen er identisk med den relative sti for destinationsfilen til destinationsmappen.
  • Maksimalt antal samtidige forbindelser: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.

  • Blokstørrelse (MB): Angiv blokstørrelsen i MB, der bruges til at skrive data til Azure Data Lake Storage Gen2. Du kan få flere oplysninger under Bloker blobs. Den tilladte værdi er mellem 4 MB og 100 MB.

    Blokstørrelsen bestemmes som standard automatisk på baggrund af typen og dataene i kildelageret. For ikke-binær kopi til Azure Data Lake Storage Gen2 er standardblokstørrelsen 100 MB, så der højst kan være plads til ca. 4,75-TB-data. Det er muligvis ikke optimalt, når dine data ikke er store. Du kan eksplicit angive en blokstørrelse, mens du sikrer, at Blokstørrelse (MB)*50000 er stor nok til at gemme dataene, ellers mislykkes kørslen af kopiaktiviteten.

  • Metadata: Angiv brugerdefinerede metadata, når der kopieres til en destination. Hvert objekt under matrixen metadata repræsenterer en ekstra kolonne. name definerer navnet på metadatanøglen og value angiver dataværdien for den pågældende nøgle. Hvis funktionen til bevarelse af attributter bruges, vil de angivne metadata blive forenings-/overskrive med kildefilens metadata.

    Tilladte dataværdier er:

    • $$LASTMODIFIED: En reserveret variabel angiver, at kildefilerne senest blev ændret. Anvend kun på en filbaseret kilde med et binært format.
    • Expression
    • Statisk værdi

    Screenshot showing metadata.

Tilknytning

For Konfiguration af fanen Tilknytning skal du gå til Konfigurer dine tilknytninger under fanen Tilknytning. Hvis du vælger Binær som filformat, understøttes tilknytning ikke.

Indstillinger

For konfigurationen af fanen Indstillinger skal du gå til Konfigurer dine andre indstillinger under fanen Indstillinger.

Tabeloversigt

Følgende tabeller indeholder flere oplysninger om kopiaktiviteten i Azure Data Lake Storage Gen2.

Kildeoplysninger

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Datalagertype Datalagertypen. Eksternt Ja /
Forbind ion Din forbindelse til kildedatalageret. <din Azure Data Lake Storage Gen2-forbindelse> Ja Forbindelse
Forbind ionstype Din forbindelsestype. Vælg Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Ja /
Filtype Den filtype, du vil bruge. • Filsti
• Sti til jokertegnmappe, navn på jokertegnfil
•Liste over filer
Ja • folderPath, fileName, fileSystem
• jokertegnFolderPath, jokertegnFileName, fileSystem
• folderPath, fileName, fileListPath
Rekursivt Angiver, om dataene læses rekursivt fra undermapperne eller kun fra den angivne mappe. Bemærk, at når Rekursivt vælges, og destinationen er et filbaseret lager, kopieres eller oprettes der ikke en tom mappe eller undermappe på destinationen. Denne egenskab gælder ikke, når du konfigurerer Sti til filliste. valgt (standard) eller fravælg Nr. Rekursive
Filtrer efter senest ændret Filerne med tidspunkt for seneste ændring i intervallet [Starttidspunkt, Sluttidspunkt) filtreres til yderligere behandling. Klokkeslættet anvendes på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ. Disse egenskaber kan springes over, hvilket betyder, at der ikke anvendes et filattributfilter. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer. dato/klokkeslæt Nr. modifiedDatetimeStart
modifiedDatetimeEnd
Aktivér registrering af partition Angiver, om partitionerne fra filstien skal fortolkes og tilføjes som yderligere kildekolonner. markeret eller ikke markeret (standard) Nr. enablePartitionDiscovery:
true eller false (standard)
Sti til partitionsrod Når registrering af partition er aktiveret, skal du angive den absolutte rodsti for at læse partitionerede mapper som datakolonner. < din partitionsrodsti > Nr. partitionRootPath
Maks. antal samtidige forbindelser Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser. <maks. antal samtidige forbindelser> Nr. maxConcurrent Forbind ions
Flere kolonner Tilføj yderligere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte. • Navn
•Værdi
Nr. additionalColumns:
•Navn
•Værdi

Destinationsoplysninger

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Datalagertype Datalagertypen. Eksternt Ja /
Forbind ion Din forbindelse til destinationsdatalageret. <din Azure Data Lake Storage Gen2-forbindelse> Ja Forbindelse
Forbind ionstype Din forbindelsestype. Vælg Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Ja /
Filsti Filstien til dine destinationsdata. < filstien > Ja folderPath, fileName, fileSystem
Funktionsmåde for kopiering Definerer funktionsmåden for kopiering, når kilden er filer fra et filbaseret datalager. • Fladgør hierarki
• Flet filer
• Bevar hierarki
Nr. copyBehavior:
• Fladt hierarki
• Fletfiler
• PreserveHierarchy
Maks. antal samtidige forbindelser Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser. <maks. antal samtidige forbindelser> Nr. maxConcurrent Forbind ions
Blokstørrelse (MB) Angiv blokstørrelsen i MB, når du skriver data til Azure Data Lake Storage Gen2. Den tilladte værdi er mellem 4 MB og 100 MB. <blokstørrelse> Nr. blockSizeInMB
Metadata Angiv brugerdefinerede metadata, når der kopieres til destinationen. $$LASTMODIFIED
•Udtryk
• Statisk værdi
Nr. Metadata