Delen via


Gegevens laden in Azure Data Lake Storage Gen1 met behulp van Azure Data Factory

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Azure Data Lake Storage Gen1 (voorheen bekend als Azure Data Lake Store) is een hyperschaalopslagplaats voor big data-analyseworkloads in de hele onderneming. Met Data Lake Storage Gen1 kunt u gegevens van elke grootte, elk type en elke opnamesnelheid vastleggen. De gegevens worden op één plek vastgelegd voor operationele en verkennende analyses.

Azure Data Factory is een volledig beheerde cloudservice voor gegevensintegratie. U kunt de service gebruiken om het meer te vullen met gegevens van uw bestaande systeem en tijd besparen bij het bouwen van uw analyseoplossingen.

Azure Data Factory biedt de volgende voordelen voor het laden van gegevens in Data Lake Storage Gen1:

  • Eenvoudig in te stellen: een intuïtieve wizard met vijf stappen zonder scripting vereist.
  • Uitgebreide ondersteuning voor gegevensopslag: ingebouwde ondersteuning voor een uitgebreide set on-premises en cloudgegevensarchieven. Zie de tabel met ondersteunde gegevensarchieven voor een gedetailleerde lijst.
  • Veilig en compatibel: gegevens worden overgedragen via HTTPS of ExpressRoute. De aanwezigheid van de wereldwijde service zorgt ervoor dat uw gegevens nooit de geografische grens verlaten.
  • Hoge prestaties: tot 1 GB/s gegevens laden snelheid in Data Lake Storage Gen1. Zie Copy-activiteit prestaties voor meer informatie.

In dit artikel leest u hoe u het hulpprogramma Data Factory Copy Data gebruikt om gegevens van Amazon S3 te laden in Data Lake Storage Gen1. U kunt vergelijkbare stappen volgen om gegevens te kopiëren vanuit andere typen gegevensarchieven.

Vereisten

  • Azure-abonnement: als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.
  • Data Lake Storage Gen1-account: Als u geen Data Lake Storage Gen1-account hebt, raadpleegt u de instructies in Een Data Lake Storage Gen1-account maken.
  • Amazon S3: Dit artikel laat zien hoe u gegevens kopieert uit Amazon S3. U kunt andere gegevensarchieven gebruiken door vergelijkbare stappen uit te voeren.

Een data factory maken

  1. Als u uw data factory nog niet hebt gemaakt, volgt u de stappen in quickstart: Een gegevensfactory maken met behulp van Azure Portal en Azure Data Factory Studio om er een te maken. Nadat u deze hebt gemaakt, bladert u naar de data factory in Azure Portal.

    Startpagina voor Azure Data Factory, met de tegel Azure Data Factory Studio openen.

  2. Selecteer Openen op de tegel Azure Data Factory Studio openen om de Data-Integratie toepassing op een afzonderlijk tabblad te starten.

Gegevens laden in Data Lake Storage Gen1

  1. Selecteer op de startpagina de tegel Opnemen om het hulpprogramma Copy Data te starten:

    Schermopname van de startpagina van ADF.

  2. Geef op de pagina Eigenschappen CopyFromAmazonS3ToADLS op voor het veld Taaknaam en selecteer Volgende:

    De pagina Eigenschappen

  3. Selecteer + Nieuwe verbinding maken op de pagina Brongegevensarchief:

    De pagina Brongegevensarchief

    Selecteer Amazon S3 en selecteer Doorgaan

    S3-pagina brongegevensarchief

  4. Voer op de pagina Amazon S3-verbinding opgeven de volgende stappen uit:

    1. Geef de waarde voor de toegangssleutel-id op.

    2. Geef de waarde van de geheime toegangssleutel op.

    3. Selecteer Voltooien.

      Schermopname van het deelvenster Nieuwe gekoppelde service, waar u waarden kunt invoeren.

    4. U ziet een nieuwe verbinding. Selecteer Volgende.

    Schermopname van uw nieuwe verbinding.

  5. Blader op de pagina Het invoerbestand of de invoermap kiezen naar de map en het bestand dat u wilt kopiëren. Selecteer de map/het bestand, selecteer Kiezen en selecteer vervolgens Volgende:

    Het invoerbestand of de invoermap kiezen

  6. Kies het kopieergedrag door recursief en binaire kopie (bestanden als zodanig te kopiëren) te selecteren. Selecteer Volgende:

    Schermopname van het invoerbestand of de invoermap kiezen waarin u Recursief en Binair kopiëren kunt selecteren.

  7. Selecteer op de pagina Doelgegevensarchief de optie + Nieuwe verbinding maken en selecteer vervolgens Azure Data Lake Storage Gen1 en selecteer Doorgaan:

    De pagina Doelgegevensarchief

  8. Voer op de pagina Nieuwe gekoppelde service (Azure Data Lake Storage Gen1) de volgende stappen uit:

    1. Selecteer uw Data Lake Storage Gen1-account voor de naam van het Data Lake Store-account.
    2. Geef de tenant op en selecteer Voltooien.
    3. Selecteer Volgende.

    Belangrijk

    In dit scenario gebruikt u een beheerde identiteit voor Azure-resources om uw Data Lake Storage Gen1-account te verifiëren. Zorg ervoor dat u de MSI de juiste machtigingen verleent in Data Lake Storage Gen1 door deze instructies te volgen.

    Data Lake Storage Gen1-account opgeven

  9. Voer op de pagina Het uitvoerbestand of de uitvoermap kiezen copyfroms3 in als de naam van de uitvoermap en selecteer Volgende:

    Schermopname van het mappad dat u invoert.

  10. Selecteer Volgende op de pagina Instellingen:

    Instellingenpagina

  11. Controleer de instellingen op de pagina Samenvatting en selecteer Volgende:

    De pagina Overzicht

  12. Selecteer Controleren op de pagina Implementatie om de pijplijn (taak) te bewaken:

    De pagina Implementatie

  13. U ziet dat het tabblad Controleren aan de linkerkant automatisch wordt geselecteerd. De kolom Acties bevat koppelingen om details van de activiteitsuitvoering weer te geven en om de pijplijn opnieuw uit te voeren:

    Pijplijnuitvoeringen controleren

  14. Als u activiteitsuitvoeringen wilt weergeven die zijn gekoppeld aan de pijplijnuitvoering, selecteert u de koppeling Uitvoeringen van activiteit weergeven in de kolom Acties . Omdat er slechts één activiteit (kopieeractiviteit) in de pijplijn is, ziet u slechts één vermelding in de lijst. Als u wilt teruggaan naar de weergave pijplijnuitvoeringen, selecteert u de koppeling Pijplijnen bovenaan. Selecteer Vernieuwen om de lijst te vernieuwen.

    Uitvoering van activiteiten controleren

  15. Als u de uitvoeringsdetails voor elke kopieeractiviteit wilt bewaken, selecteert u de koppeling Details onder Acties in de weergave activiteitscontrole. U kunt details bewaken, zoals het volume van de gegevens die zijn gekopieerd van de bron naar de sink, gegevensdoorvoer, uitvoeringsstappen met de bijbehorende duur en gebruikte configuraties:

    Details van activiteitsuitvoering controleren

  16. Controleer of de gegevens zijn gekopieerd naar uw Data Lake Storage Gen1-account:

    Uitvoer van Data Lake Storage Gen1 controleren

Ga naar het volgende artikel voor meer informatie over ondersteuning voor Data Lake Storage Gen1: