Gegevens laden in Lakehouse met behulp van partitie in een gegevenspijplijn
De partitiefunctie in de Lakehouse-tabel als bestemming biedt de mogelijkheid om gegevens te laden in de Lakehouse-tabel met partities. De partities worden gegenereerd in de Lakehouse-bestemming en profiteren vervolgens van de downstreamtaken of het verbruik.
In deze zelfstudie leert u hoe u gegevens in Lakehouse laadt met behulp van partities in een gegevenspijplijn. Als voorbeeld laadt u een voorbeeldgegevensset in Lakehouse met behulp van een of meerdere partitiekolommen door de volgende stappen uit te voeren. De voorbeeldgegevensset Openbare feestdagen wordt gebruikt als voorbeeldgegevens.
Vereiste
- Zorg ervoor dat u een Werkruimte met Microsoft Fabric hebt ingeschakeld: Maak een werkruimte.
Een gegevenspijplijn maken
Navigeer naar Power BI.
Selecteer het Power BI-pictogram in de linkerbenedenhoek van het scherm en selecteer vervolgens Data factory om de startpagina van Data Factory te openen.
Navigeer naar uw Microsoft Fabric-werkruimte. Als u een nieuwe werkruimte hebt gemaakt in de vorige sectie Vereisten, gebruikt u deze.
Selecteer Gegevenspijplijn en voer vervolgens een pijplijnnaam in om een nieuwe pijplijn te maken.
Gegevens laden in Lakehouse met behulp van partitiekolommen
Open uw gegevenspijplijn en voeg een kopieeractiviteit toe door pijplijnactiviteit toevoegen -> kopiëren te selecteren. Selecteer onder Bron de optie Voorbeeldgegevensset en selecteer Bladeren en selecteer vervolgens Openbare feestdagen.
Selecteer op het tabblad Doel werkruimte in gegevensarchieftype en selecteer Vervolgens Lakehouse in het gegevensarchieftype Werkruimte, geef uw Lakehouse op of selecteer + Nieuw om een nieuw Lakehouse te maken. Kies Tabel in de hoofdmap en geef de tabelnaam op.
Vouw Geavanceerd uit, selecteer In tabelactie Overschrijven en selecteer vervolgens Partitie inschakelen, selecteer onder Partitiekolommen de optie Kolom toevoegen en kies de kolom die u wilt gebruiken als partitiekolom. U kunt ervoor kiezen om één kolom of meerdere kolommen als partitiekolom te gebruiken.
Als u één kolom gebruikt, wordt countryOrRegion (tekenreekstype) geselecteerd als voorbeeld in deze zelfstudie. De gegevens worden gepartitioneerd op basis van verschillende kolomwaarden.
Notitie
De partitiekolom die kan worden geselecteerd, moet een tekenreeks, geheel getal, booleaanse waarde en datum/tijd-type zijn. Kolommen van andere gegevenstypen worden niet weergegeven in de vervolgkeuzelijst.
Als u meerdere partitiekolommen gebruikt, voegt u nog een kolom toe en selecteert u isPaidTimeOff . Dit is een booleaanse waarde als voorbeeld. Voer vervolgens de pijplijn uit. De logica is dat de tabel eerst wordt gepartitioneerd door de eerste toegevoegde kolomwaarden en vervolgens de gepartitioneerde gegevens nog steeds worden gepartitioneerd door de tweede toegevoegde kolomwaarden.
Tip
U kunt kolommen slepen om de volgorde van kolommen te wijzigen en de partitiereeks wordt ook gewijzigd.
Selecteer uitvoeren en selecteer Opslaan en uitvoeren om de pijplijn uit te voeren.
Nadat de pijplijn is uitgevoerd, gaat u naar uw Lakehouse. Zoek de tabel die u hebt gekopieerd. Klik met de rechtermuisknop op de tabelnaam en selecteer Bestanden weergeven.
Voor één partitiekolom (countryOrRegion) wordt de tabel gepartitioneerd naar verschillende mappen op land- of regionamen. Het speciale teken in de kolomnaam is gecodeerd en u ziet mogelijk dat de bestandsnaam verschilt van kolomwaarden wanneer u bestanden in Lakehouse bekijkt.
Voor meerdere partitiekolommen vindt u dat de tabel is gepartitioneerd in verschillende mappen op land- of regionamen.
Selecteer één map, bijvoorbeeld contryOrRegion=Verenigde Staten. De tabel die is gepartitioneerd op basis van de land- of regionaam, wordt opnieuw gepartitioneerd door de toegevoegde tweede kolom is De waarde vanPaidTimeOff:
True
ofFalse
__HIVE_DEFAULT_PARTITION__
(vertegenwoordigt een lege waarde in de voorbeeldgegevensset).Als u drie kolommen toevoegt om de tabel te partitioneren, wordt de map op het tweede niveau gepartitioneerd door de derde kolom toegevoegd.
Gerelateerde inhoud
Ga vervolgens verder voor meer informatie over kopiëren van Azure Blob Storage naar Lakehouse.