Lakehouse-zelfstudie: Gegevens opnemen in lakehouse
In deze zelfstudie neemt u meer dimensionale en feitentabellen van de WWI (Wide World Importers) op in het lakehouse.
Vereisten
- Als u geen lakehouse hebt, moet u een lakehouse maken.
Gegevens opnemen
In deze sectie gebruikt u de kopieergegevensactiviteit van de Data Factory-pijplijn om voorbeeldgegevens van een Azure-opslagaccount op te nemen in de sectie Bestanden van het lakehouse dat u eerder hebt gemaakt.
Selecteer Werkruimten in het linkernavigatiedeelvenster en selecteer vervolgens uw nieuwe werkruimte in het menu Werkruimten . De itemsweergave van uw werkruimte wordt weergegeven.
Selecteer gegevenspijplijn in het menu-item +Nieuw op het lint van de werkruimte.
Geef in het dialoogvenster Nieuwe pijplijn de naam op als IngestDataFromSourceToLakehouse en selecteer Maken. Er wordt een nieuwe data factory-pijplijn gemaakt en geopend.
Selecteer in de zojuist gemaakte data factory-pijplijn de optie Pijplijnactiviteit om een activiteit aan de pijplijn toe te voegen en selecteer Gegevens kopiëren. Met deze actie wordt de kopieergegevensactiviteit toegevoegd aan het pijplijncanvas.
Selecteer de zojuist toegevoegde kopieergegevensactiviteit op het canvas. Activiteitseigenschappen worden weergegeven in een deelvenster onder het canvas (mogelijk moet u het deelvenster omhoog uitvouwen door de bovenrand te slepen). Typ op het tabblad Algemeen in het eigenschappenvenster Gegevens kopiëren naar Lakehouse in het veld Naam.
Selecteer op het tabblad Bron van de geselecteerde kopieergegevensactiviteit de optie Extern als gegevensarchieftype en selecteer vervolgens + Nieuw om een nieuwe verbinding met de gegevensbron te maken.
Voor deze zelfstudie zijn alle voorbeeldgegevens beschikbaar in een openbare container van Azure Blob Storage. U maakt verbinding met deze container om er gegevens uit te kopiëren. Selecteer Azure Blob Storage in het eerste scherm Nieuwe verbinding en selecteer vervolgens Doorgaan.
Voer in het scherm Verbindingsinstellingen de volgende details in en selecteer Maken om de verbinding met de gegevensbron te maken.
Eigenschappen Weergegeven als Accountnaam of URL https://azuresynapsestorage.blob.core.windows.net/sampledata
Connection Nieuwe verbinding maken Verbindingsnaam wwisampledata Soort verificatie Anoniem Zodra de nieuwe verbinding is gemaakt, gaat u terug naar het tabblad Bron van de kopieergegevensactiviteit en wordt de zojuist gemaakte verbinding standaard geselecteerd. Geef de volgende eigenschappen op voordat u naar de doelinstellingen gaat.
Eigenschappen Weergegeven als Gegevensarchieftype External Connection wwisampledata Bestandstype Bestandspad Bestandspad Containernaam (eerste tekstvak): sampledata
Mapnaam (tweede tekstvak): WideWorldImportersDW/parquetRecursief Geselecteerd File format Binary Geef op het tabblad Doel van de geselecteerde kopieergegevensactiviteit de volgende eigenschappen op:
Eigenschappen Weergegeven als Gegevensarchieftype Werkplek Gegevensarchieftype werkruimte Lakehouse Lakehouse wwilakehouse Hoofdmap Bestanden Bestandspad Mapnaam (eerste tekstvak): wwi-raw-data File format Binary U hebt de kopieergegevensactiviteit geconfigureerd. Selecteer het pictogram Opslaan op het bovenste lint (onder Start) om uw wijzigingen op te slaan en selecteer Uitvoeren om uw pijplijn en de bijbehorende activiteit uit te voeren. U kunt pijplijnen ook plannen om gegevens met gedefinieerde intervallen te vernieuwen om te voldoen aan uw bedrijfsvereisten. Voor deze zelfstudie voeren we de pijplijn slechts één keer uit door Uitvoeren te selecteren.
Met deze actie wordt het kopiëren van gegevens uit de onderliggende gegevensbron naar het opgegeven lakehouse geactiveerd en kan het tot een minuut duren voordat deze is voltooid. U kunt de uitvoering van de pijplijn en de bijbehorende activiteit controleren op het tabblad Uitvoer , die wordt weergegeven wanneer u ergens op het canvas klikt. U kunt eventueel het brilpictogram selecteren, dat wordt weergegeven wanneer u de muisaanwijzer over de naam beweegt, om de details van de gegevensoverdracht te bekijken.
Zodra de gegevens zijn gekopieerd, gaat u naar de itemsweergave van de werkruimte en selecteert u uw nieuwe lakehouse (wwilakehouse) om de Verkenner-weergave te starten.
Controleer of er een nieuwe map met onbewerkte gegevens wordt weergegeven in de Verkenner-weergave en dat de gegevens voor alle tabellen daar worden gekopieerd.
Als u incrementele gegevens in een lakehouse wilt laden, raadpleegt u Incrementeel gegevens uit een datawarehouse laden naar een lakehouse.