Share via


Azure Data Lake Storage Gen2 configureren in een kopieeractiviteit

In dit artikel wordt beschreven hoe u de kopieeractiviteit in de gegevenspijplijn gebruikt om gegevens van en naar Azure Data Lake Storage Gen2 te kopiëren.

Ondersteunde indeling

Azure Data Lake Storage Gen2 ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

Ondersteunde configuratie

Voor de configuratie van elk tabblad onder kopieeractiviteit gaat u respectievelijk naar de volgende secties.

Algemeen

Raadpleeg de richtlijnen voor algemene instellingen voor het configureren van het tabblad Algemene instellingen.

Bron

De volgende eigenschappen worden ondersteund voor Azure Data Lake Storage Gen2 op het tabblad Bron van een kopieeractiviteit.

Screenshot showing source tab.

De volgende eigenschappen zijn vereist:

  • Gegevensarchieftype: Selecteer Extern.

  • Verbinding maken ion: Selecteer een Azure Data Lake Storage Gen2-verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Azure Data Lake Storage Gen2-verbinding door Nieuw te selecteren.

  • Verbinding maken iontype: Selecteer Azure Data Lake Storage Gen2.

  • Bestandstype: U kunt het bestandspad, het pad naar het jokerteken of de lijst met bestanden kiezen als bestandspadtype. De configuratie van elk van deze instellingen is:

    • Bestandspad: Als u dit type kiest, kunnen de gegevens worden gekopieerd uit het opgegeven bestandssysteem of map/bestandspad dat u eerder hebt opgegeven.

    • Pad naar jokertekens: als u dit type kiest, geeft u het bestandssysteem en jokertekenpaden op.

      • Bestandssysteem: de naam van het Azure Data Lake Storage Gen2-bestandssysteem.

      • Jokertekenpaden: geef de map of het bestandspad op met jokertekens onder het opgegeven bestandssysteem om bronmappen of bestanden te filteren.

        Toegestane jokertekens zijn: * (komt overeen met nul of meer tekens) en ? (komt overeen met nul of één teken). Gebruik ^ deze optie om te escapen als uw mapnaam jokerteken of dit escape-teken bevat. Ga voor meer voorbeelden naar voorbeelden van mappen en bestandsfilters.

        Screenshot showing wildcard file path.

        • Pad naar jokertekens: geef het pad naar de map op met jokertekens onder het opgegeven bestandssysteem om bronmappen te filteren.

        • Bestandsnaam met jokertekens: geef de bestandsnaam op met jokertekens onder het opgegeven bestandssysteem + mappad (of pad naar de map met jokertekens) om bronbestanden te filteren.

    • Lijst met bestanden: Geeft aan dat u een bepaalde bestandsset wilt kopiëren. Geef mappad en pad naar bestandslijst op om te verwijzen naar een tekstbestand met een lijst met bestanden die u wilt kopiëren, één bestand per regel. Dit is het relatieve pad naar het pad. Ga naar Voorbeelden van bestandslijsten voor meer voorbeelden.

      Screenshot showing path to file list.

      • Mappad: Geef het pad op naar een map onder het opgegeven bestandssysteem. Het is vereist.

      • Pad naar bestandslijst: geef het pad op van het tekstbestand dat een lijst met bestanden bevat die u wilt kopiëren.

  • Recursief: geef aan of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Wanneer Recursief is geselecteerd en het doel een archief op basis van bestanden is, wordt een lege map of submap niet gekopieerd of gemaakt op het doel. Deze eigenschap is standaard geselecteerd en is niet van toepassing wanneer u Pad naar bestandslijst configureert.

  • Bestandsindeling: Selecteer de bestandsindeling die is toegepast in de vervolgkeuzelijst. Selecteer Instellingen om de bestandsindeling te configureren. Raadpleeg voor instellingen van verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie.

Onder Geavanceerd kunt u de volgende velden opgeven:

  • Filteren op laatst gewijzigd: Bestanden worden gefilterd op basis van de datums van de laatste wijziging. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden.

    • Begintijd (UTC): de bestanden worden geselecteerd als de laatste wijzigingstijd groter is dan of gelijk is aan de geconfigureerde tijd.

    • Eindtijd (UTC): de bestanden worden geselecteerd als de laatste wijzigingstijd kleiner is dan de geconfigureerde tijd.

    Wanneer de begintijd (UTC) datum/tijd heeft, maar de eindtijd (UTC) NULL is, betekent dit dat de bestanden waarvan het kenmerk voor het laatst is gewijzigd groter is dan of gelijk is aan de datum/tijd-waarde wordt geselecteerd. Wanneer de eindtijd (UTC) datum/tijd heeft, maar de begintijd (UTC) NULL is, betekent dit dat de bestanden waarvan het kenmerk voor het laatst is gewijzigd kleiner is dan de datum/tijd-waarde wordt geselecteerd. De eigenschappen kunnen NULL zijn, wat betekent dat er geen bestandskenmerkfilter wordt toegepast op de gegevens.

  • Partitiedetectie inschakelen: geef op of de partities van het bestandspad moeten worden geparseerd en als extra bronkolommen moeten worden toegevoegd. Deze optie wordt standaard niet geselecteerd en wordt niet ondersteund wanneer u binaire bestandsindeling gebruikt.

    • Hoofdpad partitie: wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen.

      Als deze niet is opgegeven, is dit standaard het volgende:

      • Wanneer u het bestandspad of de lijst met bestanden op de bron gebruikt, is het pad naar de partitiehoofdmap dat u hebt geconfigureerd.
      • Wanneer u het filter voor jokertekens gebruikt, is het hoofdpad van de partitie het subpad vóór het eerste jokerteken.

      Stel dat u het pad configureert als root/folder/year=2020/month=08/day=27:

      • Als u het hoofdpad van de partitie opgeeft als root/folder/year=2020, genereert de kopieeractiviteit twee kolommen maand en dag met respectievelijk de waarde 08 en 27, naast de kolommen in de bestanden.
      • Als het pad naar de partitiehoofdmap niet is opgegeven, wordt er geen extra kolom gegenereerd.

    Screenshot showing partition discovery.

  • Maximum aantal gelijktijdige verbindingen: deze eigenschap geeft de bovengrens aan van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.

  • Aanvullende kolommen: voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste.

Doel

De volgende eigenschappen worden ondersteund voor Azure Data Lake Storage Gen2 op het tabblad Bestemming van een kopieeractiviteit.

Screenshot showing destination tab.

De volgende eigenschappen zijn vereist:

  • Gegevensarchieftype: Selecteer Extern.
  • Verbinding maken ion: Selecteer een Azure Data Lake Storage Gen2-verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Azure Data Lake Storage Gen2-verbinding door Nieuw te selecteren.
  • Verbinding maken iontype: Selecteer Azure Data Lake Storage Gen2.
  • Bestandspad: Selecteer Bladeren om het bestand te kiezen dat u handmatig wilt kopiëren of invullen.
  • Bestandsindeling: Selecteer de bestandsindeling die is toegepast in de vervolgkeuzelijst. Selecteer Instellingen om de bestandsindeling te configureren. Raadpleeg voor instellingen van verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie.

Onder Geavanceerd kunt u de volgende velden opgeven:

  • Kopieergedrag: Definieert het kopieergedrag wanneer de bron bestanden uit een bestandsgegevensarchief is. U kunt een gedrag kiezen in de vervolgkeuzelijst.

    Screenshot showing copy behavior.

    • Platgemaakte hiërarchie: alle bestanden uit de bronmap bevinden zich op het eerste niveau van de doelmap. De doelbestanden hebben automatisch gegenereerde namen.
    • Bestanden samenvoegen: hiermee worden alle bestanden uit de bronmap samengevoegd tot één bestand. Als de bestandsnaam is opgegeven, is de naam van het samengevoegde bestand de opgegeven naam. Anders is het een automatisch gegenereerde bestandsnaam.
    • Hiërarchie behouden: behoudt de bestandshiërarchie in de doelmap. Het relatieve pad van het bronbestand naar de bronmap is identiek aan het relatieve pad van het doelbestand naar de doelmap.
  • Maximum aantal gelijktijdige verbindingen: de bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.

  • Blokgrootte (MB): geef de blokgrootte op die wordt gebruikt voor het schrijven van gegevens naar Azure Data Lake Storage Gen2. Zie Blok-blobs voor meer informatie. De toegestane waarde ligt tussen 4 MB en 100 MB.

    Standaard wordt de blokgrootte automatisch bepaald op basis van het type bronarchief en de gegevens. Voor niet-binaire kopie naar Azure Data Lake Storage Gen2 is de standaardblokgrootte 100 MB, zodat deze maximaal ongeveer 4,75 TB aan gegevens past. Het is mogelijk niet optimaal wanneer uw gegevens niet groot zijn. U kunt expliciet een blokgrootte opgeven, terwijl blokgrootte (MB)*50000 groot genoeg is om de gegevens op te slaan, anders mislukt de kopieeractiviteit.

  • Metagegevens: aangepaste metagegevens instellen bij het kopiëren naar een bestemming. Elk object onder de metadata matrix vertegenwoordigt een extra kolom. De name naam van de metagegevenssleutel wordt gedefinieerd en de value gegevenswaarde van die sleutel wordt aangegeven. Als de functie kenmerken behouden wordt gebruikt, worden de opgegeven metagegevens samengevoegd/overschreven met de metagegevens van het bronbestand.

    Toegestane gegevenswaarden zijn:

    • $$LASTMODIFIED: Een gereserveerde variabele geeft aan dat de laatste wijzigingstijd van de bronbestanden moet worden opgeslagen. Alleen van toepassing op een bron op basis van bestanden met een binaire indeling.
    • Expression
    • Statische waarde

    Screenshot showing metadata.

Toewijzing

Voor de configuratie van het tabblad Toewijzing gaat u naar De toewijzingen configureren onder het tabblad Toewijzing. Als u Binair als bestandsindeling kiest, wordt toewijzing niet ondersteund.

Instellingen

Ga voor de configuratie van het tabblad Instellingen naar De andere instellingen configureren op het tabblad Instellingen.

Tabelsamenvatting

De volgende tabellen bevatten meer informatie over de kopieeractiviteit in Azure Data Lake Storage Gen2.

Brongegevens

Name Beschrijving Waarde Vereist JSON-scripteigenschap
Gegevensarchieftype Het gegevensarchieftype. Extern Ja /
Verbinding Uw verbinding met het brongegevensarchief. <uw Azure Data Lake Storage Gen2-verbinding> Ja verbinding
Verbindingstype Uw verbindingstype. Selecteer Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Ja /
Bestandstype Het bestandstype dat u wilt gebruiken. • Bestandspad
• Pad naar jokerteken, bestandsnaam van jokerteken
•Lijst met bestanden
Ja • folderPath, fileName, fileSystem
• wildcardFolderPath, wildcardFileName, bestandssysteem
• folderPath, fileName, fileListPath
Recursief Hiermee wordt aangegeven of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Wanneer Recursief is geselecteerd en het doel een archief op basis van bestanden is, wordt een lege map of submap niet gekopieerd of gemaakt op het doel. Deze eigenschap is niet van toepassing wanneer u Pad naar bestandslijst configureert. geselecteerd (standaard) of selectie opheffen Nee Recursieve
Filteren op laatst gewijzigd De bestanden met de laatst gewijzigde tijd in het bereik [Begintijd, Eindtijd) worden gefilterd op verdere verwerking. De tijd wordt toegepast op de UTC-tijdzone in de notatie van yyyy-mm-ddThh:mm:ss.fffZ. Deze eigenschappen kunnen worden overgeslagen. Dit betekent dat er geen filter voor bestandskenmerken wordt toegepast. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden. datetime Nee modifiedDatetimeStart
modifiedDatetimeEnd
Partitiedetectie inschakelen Geeft aan of de partities van het bestandspad moeten worden geparseerd en als extra bronkolommen moeten worden toegevoegd. geselecteerd of niet geselecteerd (standaard) Nee enablePartitionDiscovery:
waar of onwaar (standaard)
Hoofdpad van partitie Wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen. < uw partitiehoofdpad > Nee partitionRootPath
Maximum aantal gelijktijdige verbindingen De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. <maximum aantal gelijktijdige verbindingen> Nee maxConcurrent Verbinding maken ions
Aanvullende kolommen Voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste. • Naam
•Waarde
Nee additionalColumns:
•Naam
•Waarde

Doelgegevens

Name Beschrijving Waarde Vereist JSON-scripteigenschap
Gegevensarchieftype Het gegevensarchieftype. Extern Ja /
Verbinding Uw verbinding met het doelgegevensarchief. <uw Azure Data Lake Storage Gen2-verbinding> Ja verbinding
Verbindingstype Uw verbindingstype. Selecteer Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Ja /
Bestandspad Het bestandspad van uw doelgegevens. < uw bestandspad > Ja folderPath, fileName, fileSystem
Gedrag van kopiëren Definieert het kopieergedrag wanneer de bron bestanden is uit een gegevensarchief op basis van bestanden. • Platgemaakte hiërarchie
• Bestanden samenvoegen
• Hiërarchie behouden
Nee copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maximum aantal gelijktijdige verbindingen De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. <maximum aantal gelijktijdige verbindingen> Nee maxConcurrent Verbinding maken ions
Blokgrootte (MB) Geef de blokgrootte in MB op bij het schrijven van gegevens naar Azure Data Lake Storage Gen2. De toegestane waarde ligt tussen 4 MB en 100 MB. <blokgrootte> Nee blockSizeInMB
Metagegevens Stel aangepaste metagegevens in wanneer deze naar de bestemming worden gekopieerd. $$LASTMODIFIED
•Expressie
• Statische waarde
Nee metagegevens