Quickstart: Gegevens ophalen in OneLake

OneLake is het enige, geïntegreerde data lake voor Microsoft Fabric. Elke Fabric workload leest en schrijft gegevens via OneLake, dus u hoeft gegevens slechts eenmaal te laden om deze overal te gebruiken. U kunt gegevens op verschillende manieren overbrengen naar OneLake:

  • Upload bestanden rechtstreeks naar een lakehouse of magazijn.
  • Gegevens opnemen met behulp van pijplijnen, gegevensstromen of streaming-ervaringen.
  • Maak verbinding met externe gegevens met behulp van snelkoppelingen of spiegeling.

In deze quickstart brengt u gegevens op twee manieren naar OneLake: u uploadt een CSV-bestand naar een lakehouse en u maakt een OneLake-snelkoppeling van een tweede lakehouse die terugwijst naar dezelfde gegevens zonder deze te kopiëren. Wanneer u klaar bent, hebt u een doorzoekbare Delta-tabel en een snelkoppeling, beide beschikbaar voor elke Fabric-engine via OneLake.

Prerequisites

Een lakehouse maken

Wanneer u een Fabric-item maakt, zoals een lakehouse, warehouse of eventhouse, wordt voor dat item namens u opslagruimte ingericht in OneLake. In deze quickstart maakt u een lakehouse, waarmee u zowel een bestandsgebied (Bestanden) voor ongestructureerde of semi-gestructureerde gegevens als een Delta-tabelgebied (Tabellen) voor gestructureerde, doorzoekbare gegevens krijgt. Alles wat u in een van beide gebieden plaatst, wordt opgeslagen in OneLake en is onmiddellijk toegankelijk voor andere Fabric workloads.

  1. Meld u aan bij de Fabric-portal en selecteer uw werkruimte.

  2. Selecteer Nieuw item.

  3. Zoek en selecteer Lakehouse in het deelvenster Nieuw item.

  4. Voer een naam in, zoals DataLakehouse, en selecteer Maken.

    Het lakehouse opent in de Verkenner-weergave, waarin de secties Tabellen en Bestanden leeg zijn. Beide secties worden al ondersteund door OneLake en zijn klaar voor inhoud.

Voorbeeldgegevens uploaden

In deze quickstart gebruikt u Dim_Products.csv uit een openbaar beschikbare voorbeeldgegevensset van Fabric. Het is een kleine tabel met productgegevens van een voorbeeldkoffiehandelaar.

  1. Open een browser en ga naar https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
  2. Sla het bestand desgevraagd op als Dim_Products.csv in een map op uw computer.

In deze sectie uploadt u Dim_Products.csv naar Bestanden, zodat de onbewerkte brongegevens in OneLake staan. Het bestandsgebied van een lakehouse is een opslagzone voor algemeen gebruik in OneLake. Zie het als de landingsplaats voor ruwe gegevens, in welke indeling die ook binnenkomen. U kunt CSV, JSON, Parquet, afbeeldingen, logbestanden of iets anders toevoegen zonder dat u eerst een schema hoeft te definiëren.

  1. Plaats de muisaanwijzer in Lakehouse Explorer op Bestanden, selecteer het menu meer opties (...) en selecteer vervolgens Uploadbestanden uploaden>.

  2. Selecteer in het deelvenster Bestanden uploaden het mappictogram en blader naar Dim_Products.csv op uw computer.

  3. Selecteer Uploaden en sluit vervolgens het deelvenster Uploaden.

  4. Selecteer de map Bestanden om de inhoud ervan te bekijken en bevestig dat dit Dim_Products.csv wordt weergegeven.

  5. Selecteer Dim_Products.csv om de gegevens ervan te bekijken.

    A schermopname van de Fabric-portal met ongestructureerde CSV-gegevens in de sectie Bestanden van een lakehouse.

Het bestand bevindt zich nu in OneLake, maar als een onbewerkt CSV-bestand is het nog niet iets wat SQL of Spark als tabel kan opvragen.

Het bestand laden in een Delta-tabel

Fabric standaardiseert op Delta Lake als tabelindeling in OneLake. Wanneer u een bestand in het gebied Tables laadt, leest Fabric het bronbestand, wordt een schema afgeleid en worden de gegevens weggeschreven als een Delta-tabel. Vanaf dat moment kan elke Fabric engine dezelfde tabel opvragen zonder dat u de gegevens opnieuw kopieert of converteert.

  1. Open in de Lakehouse Explorer de map Bestanden.

  2. Beweeg de muisaanwijzer over het Dim_Products.csv bestand en selecteer het menu meer opties (...) en selecteer vervolgens Laden in tabellen>nieuwe tabel.

  3. Voer in het dialoogvenster dim_products de tabelnaam in, behoud de standaardinstellingen en selecteer Laden.

  4. Nadat het laden is voltooid, vouwt u Tabellen uit en selecteert u dim_products om een voorbeeld van de rijen te bekijken. Het onbewerkte CSV-bestand in Bestanden is ongewijzigd en dim_products is een nieuwe Delta-tabel die hierop is gebouwd.

    Een schermopname van gestructureerde Delta-tabelgegevens in de sectie Tabellen van een lakehouse.

  5. Beweeg de aanwijzer over dim_products en selecteer het menu Meer opties (...). Selecteer vervolgens Eigenschappen.

    In het scherm Properties ziet u de verschillende details voor de tabel, waaronder het URL- en Azure ABFS-pad (Blob File System) dat u kunt gebruiken om naar deze tabel in andere engines te verwijzen.

De gegevens opnieuw gebruiken met een snelkoppeling vanuit een tweede lakehouse

Uploaden en laden is één manier om gegevens op te halen in OneLake. Het andere sleutelpatroon is om te verwijzen naar gegevens die al ergens anders bestaan, zonder deze te dupliceren. Dat is precies wat een snelkoppeling is: een verwijzing in OneLake naar gegevens die zijn opgeslagen in een ander lakehouse, in een andere Fabric-werkruimte of in ondersteunde bronnen buiten Fabric, zoals Azure Data Lake Storage of Amazon S3. De gegevens worden niet gekopieerd. het blijft op de bronlocatie, maar u kunt het lezen via OneLake alsof het lokaal was. Updates voor de bron zijn direct zichtbaar via de snelkoppeling, zodat u geen kopieën van de gegevens hoeft te onderhouden.

In deze sectie maakt u een tweede lakehouse en voegt u er een snelkoppeling van terug naar de dim_products tabel in uw eerste lakehouse toe. Dit weerspiegelt hoe teams doorgaans werken, waarbij één team eigenaar is van de gecureerde gegevens en andere teams of projecten deze gebruiken via snelkoppelingen in hun eigen werkruimten.

  1. Selecteer Nieuw item in uw werkruimte.
  2. Zoek en selecteer Lakehouse in het deelvenster Nieuw item.
  3. Voer een naam in, zoals ShortcutLakehouse, en selecteer Maken.
  4. Plaats de muisaanwijzer in de Verkenner van lakehouse op Tabellen, selecteer het menu meer opties (...) en selecteer vervolgens Nieuwe snelkoppeling.
  5. Selecteer op de pagina Nieuwe snelkoppeling onder Internale bronnenMicrosoft OneLake.
  6. Selecteer in de gegevensbronbrowser het eerste lakehouse dat u voor deze quickstart hebt gemaakt, en selecteer vervolgens Volgende.
  7. Vouw Tabellen uit, selecteer de dim_products tabel en selecteer vervolgens Volgende.
  8. Controleer de selectie en selecteer Maken.
  9. Vouw Tabellen uit in ShortcutLakehouse en bevestig dat dim_products wordt weergegeven met een snelkoppelingsicoon (een kleine koppeling op het tabelpictogram). Selecteer deze om een voorbeeld van de rijen te bekijken. De tabel is hetzelfde als in het oorspronkelijke lakehouse, maar er zijn geen gegevens gekopieerd.
  10. Beweeg de muisaanwijzer over de tabel dim_products, selecteer Meer opties (...) en selecteer vervolgens Snelkoppeling beheren. In het deelvenster Snelkoppeling beheren kunt u de details van de snelkoppeling bekijken, inclusief het snelkoppelingsdoel waarin de oorspronkelijke gegevens zijn opgeslagen.

De hulpbronnen opschonen

Als u niet van plan bent verder te gaan met de andere OneLake-quickstarts, verwijder dan de lakehouses om te voorkomen dat er OneLake-opslagkosten in rekening worden gebracht aan uw Fabric-capaciteit.

  1. Plaats de muisaanwijzer in uw werkruimte op het lakehouse dat u wilt verwijderen.
  2. Selecteer het menu meer opties (...) naast het lakehouse, selecteer Verwijderen en bevestig de verwijdering.

Als u de lakehouses verwijdert, verwijdert u ook de inhoud ervan: het geüploade bestand, de dim_products Delta-tabel en de snelkoppeling.