Gegevens laden in Azure Data Lake Storage Gen1 met behulp van Azure Data Factory
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
Azure Data Lake Storage Gen1 (voorheen bekend als Azure Data Lake Store) is een hyperschaalopslagplaats voor big data-analyseworkloads in de hele onderneming. Met Data Lake Storage Gen1 kunt u gegevens van elke grootte, elk type en elke opnamesnelheid vastleggen. De gegevens worden op één plek vastgelegd voor operationele en verkennende analyses.
Azure Data Factory is een volledig beheerde cloudservice voor gegevensintegratie. U kunt de service gebruiken om het meer te vullen met gegevens van uw bestaande systeem en tijd besparen bij het bouwen van uw analyseoplossingen.
Azure Data Factory biedt de volgende voordelen voor het laden van gegevens in Data Lake Storage Gen1:
- Eenvoudig in te stellen: een intuïtieve wizard met vijf stappen zonder scripting vereist.
- Uitgebreide ondersteuning voor gegevensopslag: ingebouwde ondersteuning voor een uitgebreide set on-premises en cloudgegevensarchieven. Zie de tabel met ondersteunde gegevensarchieven voor een gedetailleerde lijst.
- Veilig en compatibel: gegevens worden overgedragen via HTTPS of ExpressRoute. De aanwezigheid van de wereldwijde service zorgt ervoor dat uw gegevens nooit de geografische grens verlaten.
- Hoge prestaties: tot 1 GB/s gegevens laden snelheid in Data Lake Storage Gen1. Zie Copy-activiteit prestaties voor meer informatie.
In dit artikel leest u hoe u het hulpprogramma Data Factory Copy Data gebruikt om gegevens van Amazon S3 te laden in Data Lake Storage Gen1. U kunt vergelijkbare stappen volgen om gegevens te kopiëren vanuit andere typen gegevensarchieven.
Notitie
Zie Gegevens kopiëren naar of van Data Lake Storage Gen1 met behulp van Azure Data Factory voor meer informatie.
Vereisten
- Azure-abonnement: als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.
- Data Lake Storage Gen1-account: Als u geen Data Lake Storage Gen1-account hebt, raadpleegt u de instructies in Een Data Lake Storage Gen1-account maken.
- Amazon S3: Dit artikel laat zien hoe u gegevens kopieert uit Amazon S3. U kunt andere gegevensarchieven gebruiken door vergelijkbare stappen uit te voeren.
Een data factory maken
Als u uw data factory nog niet hebt gemaakt, volgt u de stappen in quickstart: Een gegevensfactory maken met behulp van Azure Portal en Azure Data Factory Studio om er een te maken. Nadat u deze hebt gemaakt, bladert u naar de data factory in Azure Portal.
Selecteer Openen op de tegel Azure Data Factory Studio openen om de Data-Integratie toepassing op een afzonderlijk tabblad te starten.
Gegevens laden in Data Lake Storage Gen1
Selecteer op de startpagina de tegel Opnemen om het hulpprogramma Copy Data te starten:
Geef op de pagina Eigenschappen CopyFromAmazonS3ToADLS op voor het veld Taaknaam en selecteer Volgende:
Selecteer + Nieuwe verbinding maken op de pagina Brongegevensarchief:
Selecteer Amazon S3 en selecteer Doorgaan
Voer op de pagina Amazon S3-verbinding opgeven de volgende stappen uit:
Geef de waarde voor de toegangssleutel-id op.
Geef de waarde van de geheime toegangssleutel op.
Selecteer Voltooien.
U ziet een nieuwe verbinding. Selecteer Volgende.
Blader op de pagina Het invoerbestand of de invoermap kiezen naar de map en het bestand dat u wilt kopiëren. Selecteer de map/het bestand, selecteer Kiezen en selecteer vervolgens Volgende:
Kies het kopieergedrag door recursief en binaire kopie (bestanden als zodanig te kopiëren) te selecteren. Selecteer Volgende:
Selecteer op de pagina Doelgegevensarchief de optie + Nieuwe verbinding maken en selecteer vervolgens Azure Data Lake Storage Gen1 en selecteer Doorgaan:
Voer op de pagina Nieuwe gekoppelde service (Azure Data Lake Storage Gen1) de volgende stappen uit:
- Selecteer uw Data Lake Storage Gen1-account voor de naam van het Data Lake Store-account.
- Geef de tenant op en selecteer Voltooien.
- Selecteer Volgende.
Belangrijk
In dit scenario gebruikt u een beheerde identiteit voor Azure-resources om uw Data Lake Storage Gen1-account te verifiëren. Zorg ervoor dat u de MSI de juiste machtigingen verleent in Data Lake Storage Gen1 door deze instructies te volgen.
Voer op de pagina Het uitvoerbestand of de uitvoermap kiezen copyfroms3 in als de naam van de uitvoermap en selecteer Volgende:
Selecteer Volgende op de pagina Instellingen:
Controleer de instellingen op de pagina Samenvatting en selecteer Volgende:
Selecteer Controleren op de pagina Implementatie om de pijplijn (taak) te bewaken:
U ziet dat het tabblad Controleren aan de linkerkant automatisch wordt geselecteerd. De kolom Acties bevat koppelingen om details van de activiteitsuitvoering weer te geven en om de pijplijn opnieuw uit te voeren:
Als u activiteitsuitvoeringen wilt weergeven die zijn gekoppeld aan de pijplijnuitvoering, selecteert u de koppeling Uitvoeringen van activiteit weergeven in de kolom Acties . Omdat er slechts één activiteit (kopieeractiviteit) in de pijplijn is, ziet u slechts één vermelding in de lijst. Als u wilt teruggaan naar de weergave pijplijnuitvoeringen, selecteert u de koppeling Pijplijnen bovenaan. Selecteer Vernieuwen om de lijst te vernieuwen.
Als u de uitvoeringsdetails voor elke kopieeractiviteit wilt bewaken, selecteert u de koppeling Details onder Acties in de weergave activiteitscontrole. U kunt details bewaken, zoals het volume van de gegevens die zijn gekopieerd van de bron naar de sink, gegevensdoorvoer, uitvoeringsstappen met de bijbehorende duur en gebruikte configuraties:
Controleer of de gegevens zijn gekopieerd naar uw Data Lake Storage Gen1-account:
Gerelateerde inhoud
Ga naar het volgende artikel voor meer informatie over ondersteuning voor Data Lake Storage Gen1: