Gegevens laden in Azure Data Lake Storage Gen1 met behulp van Azure Data Factory

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Azure Data Lake Storage Gen1 (voorheen bekend als Azure Data Lake Store) is een hyperschaalopslagplaats voor big data-analyseworkloads in de hele onderneming. Met Data Lake Storage Gen1 kunt u gegevens van elke grootte, elk type en elke opnamesnelheid vastleggen. De gegevens worden op één plek vastgelegd voor operationele en verkennende analyses.

Azure Data Factory is een volledig beheerde cloudservice voor gegevensintegratie. U kunt de service gebruiken om het meer te vullen met gegevens van uw bestaande systeem en tijd besparen bij het bouwen van uw analyseoplossingen.

Azure Data Factory biedt de volgende voordelen voor het laden van gegevens in Data Lake Storage Gen1:

  • Eenvoudig in te stellen: een intuïtieve wizard met vijf stappen zonder scripting vereist.
  • Uitgebreide ondersteuning voor gegevensopslag: ingebouwde ondersteuning voor een uitgebreide set on-premises en cloudgegevensarchieven. Zie de tabel met ondersteunde gegevensarchieven voor een gedetailleerde lijst.
  • Veilig en compatibel: gegevens worden overgedragen via HTTPS of ExpressRoute. De aanwezigheid van de wereldwijde service zorgt ervoor dat uw gegevens nooit de geografische grens verlaten.
  • Hoge prestaties: tot 1 GB/s gegevens laden snelheid in Data Lake Storage Gen1. Zie Copy-activiteit prestaties voor meer informatie.

In dit artikel leest u hoe u het hulpprogramma Data Factory Copy Data gebruikt om gegevens van Amazon S3 te laden in Data Lake Storage Gen1. U kunt vergelijkbare stappen volgen om gegevens te kopiëren vanuit andere typen gegevensarchieven.

Vereisten

  • Azure-abonnement: als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.
  • Data Lake Storage Gen1-account: Als u geen Data Lake Storage Gen1-account hebt, raadpleegt u de instructies in Een Data Lake Storage Gen1-account maken.
  • Amazon S3: Dit artikel laat zien hoe u gegevens kopieert uit Amazon S3. U kunt andere gegevensarchieven gebruiken door vergelijkbare stappen uit te voeren.

Een data factory maken

  1. Als u uw data factory nog niet hebt gemaakt, volgt u de stappen in quickstart: Een gegevensfactory maken met behulp van Azure Portal en Azure Data Factory Studio om er een te maken. Nadat u deze hebt gemaakt, bladert u naar de data factory in Azure Portal.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Selecteer Openen op de tegel Azure Data Factory Studio openen om de Data-Integratie toepassing op een afzonderlijk tabblad te starten.

Gegevens laden in Data Lake Storage Gen1

  1. Selecteer op de startpagina de tegel Opnemen om het hulpprogramma Copy Data te starten:

    Screenshot that shows the ADF home page.

  2. Geef op de pagina Eigenschappen CopyFromAmazonS3ToADLS op voor het veld Taaknaam en selecteer Volgende:

    Properties page

  3. Selecteer + Nieuwe verbinding maken op de pagina Brongegevensarchief:

    Source data store page

    Selecteer Amazon S3 en selecteer Doorgaan

    Source data store s3 page

  4. Voer op de pagina Amazon S3-verbinding opgeven de volgende stappen uit:

    1. Geef de waarde voor de toegangssleutel-id op.

    2. Geef de waarde van de geheime toegangssleutel op.

    3. Selecteer Voltooien.

      Screenshot shows the New Linked Service pane where you can enter values.

    4. U ziet een nieuwe verbinding. Selecteer Volgende.

    Screenshot shows your new connection.

  5. Blader op de pagina Het invoerbestand of de invoermap kiezen naar de map en het bestand dat u wilt kopiëren. Selecteer de map/het bestand, selecteer Kiezen en selecteer vervolgens Volgende:

    Choose input file or folder

  6. Kies het kopieergedrag door recursief en binaire kopie (bestanden als zodanig te kopiëren) te selecteren. Selecteer Volgende:

    Screenshot shows the Choose the input file or folder where you can select Copy file recursively and Binary Copy.

  7. Selecteer op de pagina Doelgegevensarchief de optie + Nieuwe verbinding maken en selecteer vervolgens Azure Data Lake Storage Gen1 en selecteer Doorgaan:

    Destination data store page

  8. Voer op de pagina Nieuwe gekoppelde service (Azure Data Lake Storage Gen1) de volgende stappen uit:

    1. Selecteer uw Data Lake Storage Gen1-account voor de naam van het Data Lake Store-account.
    2. Geef de tenant op en selecteer Voltooien.
    3. Selecteer Volgende.

    Belangrijk

    In dit scenario gebruikt u een beheerde identiteit voor Azure-resources om uw Data Lake Storage Gen1-account te verifiëren. Zorg ervoor dat u de MSI de juiste machtigingen verleent in Data Lake Storage Gen1 door deze instructies te volgen.

    Specify Data Lake Storage Gen1 account

  9. Voer op de pagina Het uitvoerbestand of de uitvoermap kiezen copyfroms3 in als de naam van de uitvoermap en selecteer Volgende:

    Screenshot shows the folder path you enter.

  10. Selecteer Volgende op de pagina Instellingen:

    Settings page

  11. Controleer de instellingen op de pagina Samenvatting en selecteer Volgende:

    Summary page

  12. Selecteer Controleren op de pagina Implementatie om de pijplijn (taak) te bewaken:

    Deployment page

  13. U ziet dat het tabblad Controleren aan de linkerkant automatisch wordt geselecteerd. De kolom Acties bevat koppelingen om details van de activiteitsuitvoering weer te geven en om de pijplijn opnieuw uit te voeren:

    Monitor pipeline runs

  14. Als u activiteitsuitvoeringen wilt weergeven die zijn gekoppeld aan de pijplijnuitvoering, selecteert u de koppeling Uitvoeringen van activiteit weergeven in de kolom Acties . Omdat er slechts één activiteit (kopieeractiviteit) in de pijplijn is, ziet u slechts één vermelding in de lijst. Als u wilt teruggaan naar de weergave pijplijnuitvoeringen, selecteert u de koppeling Pijplijnen bovenaan. Selecteer Vernieuwen om de lijst te vernieuwen.

    Monitor activity runs

  15. Als u de uitvoeringsdetails voor elke kopieeractiviteit wilt bewaken, selecteert u de koppeling Details onder Acties in de weergave activiteitscontrole. U kunt details bewaken, zoals het volume van de gegevens die zijn gekopieerd van de bron naar de sink, gegevensdoorvoer, uitvoeringsstappen met de bijbehorende duur en gebruikte configuraties:

    Monitor activity run details

  16. Controleer of de gegevens zijn gekopieerd naar uw Data Lake Storage Gen1-account:

    Verify Data Lake Storage Gen1 output

Ga naar het volgende artikel voor meer informatie over ondersteuning voor Data Lake Storage Gen1: