Rýchly štart: Dostať dáta do OneLake

OneLake je jediné, zjednotené dátové jazero pre Microsoft Fabric. Každé Fabric workload číta a zapisuje dáta cez OneLake, takže stačí načítať dáta raz, aby ste ich mohli používať všade. Dáta môžete do OneLake priniesť niekoľkými spôsobmi:

  • Nahrávajte súbory priamo do jazerného domu alebo skladu.
  • Získavajte dáta pomocou pipeline, dátových tokov alebo streamovacích zážitkov.
  • Pripájajte sa k externým dátam pomocou skratiek alebo zrkadlenia.

V tomto rýchlom štarte prenášate dáta do OneLake dvoma spôsobmi: nahráte CSV súbor do jazerného domu a vytvoríte OneLake skratku z druhého jazerného domu, ktorá ukazuje späť na tie isté dáta bez ich kopírovania. Keď skončíte, máte dotazovateľnú tabuľku Delta a skratku, ktoré sú dostupné každému Fabric engine cez OneLake.

Požiadavky

Vytvorenie jazera

Keď vytvoríte Fabric predmet, napríklad jazerný dom, sklad alebo eventhouse, tento predmet zabezpečí úložisko v OneLake vo vašom mene. V tomto rýchlom štarte vytvoríte lakehouse, ktorý vám poskytne súborovú oblasť (Súbory) pre neštruktúrované alebo polostruktúrované dáta a Delta tabuľkovú oblasť (Tabuľky) pre štruktúrované, dotazovateľné dáta. Všetko, čo vložíte do ktorejkoľvek oblasti, je uložené v OneLake a okamžite dostupné pre ostatné Fabric pracovné záťaže.

  1. Prihláste sa do portálu Fabric a vyberte si pracovný priestor.

  2. Vyberte Nová položka .

  3. V paneli Nové položky vyhľadajte a vyberte Lakehouse.

  4. Zadajte názov, napríklad DataLakehouse, a potom vyberte Vytvoriť.

    Chata pri jazere sa otvorí do pohľadu Prieskumník , ktorý zobrazuje prázdne sekcie Tabuľky a Súbory . Obe sekcie sú už podporované OneLake a sú pripravené na obsah.

Nahrajte vzorkové dáta

V tomto rýchlom štarte použijete Dim_Products.csv z verejne dostupného Fabric vzorkového datasetu. Je to malá tabuľka s informáciami o produktoch od predajcu vzorovej kávy.

  1. Otvorte prehliadač a choďte na https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
  2. Keď sa na to vypýtate, uložte súbor do Dim_Products.csv priečinka na počítači.

V tejto sekcii nahrávate Dim_Products.csv do Súborov , aby ste mali surové zdrojové dáta uložené v OneLake. Oblasť Súbory v jazernom dome je všeobecná skladovacia zóna v OneLake. Predstavte si to ako pristávaciu zónu pre surové dáta v akomkoľvek formáte, ktorý dorazí. Môžete vložiť CSV, JSON, Parquet, obrázky, logy alebo čokoľvek iné bez toho, aby ste museli najprv definovať schému.

  1. V Lakehouse Exploreri prejdite myšou na Súbory, vyberte menu viac možností (...) a potom vyberte Nahrať>Nahrať súbory.

  2. V paneli Nahrať súbory vyberte ikonu priečinka a prehliadajte ju Dim_Products.csv na počítači.

  3. Vyberte Nahrať, potom zatvorte panel nahrávania.

  4. Vyberte priečinok Súbory , aby ste videli jeho obsah a potvrdili, že sa zobrazil Dim_Products.csv .

  5. Vyberte pre Dim_Products.csv zobrazenie jeho údajov.

    Screenshot Fabric portálu, ktorý zobrazuje neštruktúrované csv dáta v sekcii Súbory v lakehouse.

Súbor je teraz v OneLake, ale ako surové CSV to zatiaľ nie je niečo, čo by SQL alebo Spark mohli dotazovať ako tabuľku.

Načítajte súbor do tabuľky Delta

Fabric štandardizuje Delta Lake ako formát tabuľky v OneLake. Keď načítate súbor do oblasti Tables, Fabric prečíta zdrojový súbor, vyvodí schému a zapíše dáta ako Delta tabuľku. Od tohto momentu môže každý Fabric engine dotazovať tú istú tabuľku bez toho, aby ste museli dáta znova kopírovať alebo konvertovať.

  1. V Lakehouse Explorer otvorte priečinok Súbory .

  2. Prejďte myšou nad Dim_Products.csv súbor a vyberte menu viac možností (...), potom vyberte Načítať do tabuliek>Nová tabuľka.

  3. V dialógu Načítať do tabuľky zadajte dim_products názov tabuľky, zanechajte predvolené hodnoty a vyberte Načítať.

  4. Po dokončení načítavania rozbalte tabuľky a vyberte pre dim_products náhľad riadkov. Surové CSV v Súboroch zostáva nezmenené a dim_products je to nová Delta tabuľka vytvorená z nej.

    Screenshot, ktorý zobrazuje štruktúrované dáta Delta tabuľky v sekcii Tabuľky v jazernom dome.

  5. Prejdite myšou dim_products na menu viac možností (...), potom vyberte Vlastnosti.

    Obrazovka Properties zobrazuje rôzne detaily tabuľky, vrátane URL adresy a cesty Azure Blob File System (ABFS), ktorú môžete použiť na referenciu v iných enginoch.

Znovu použite dáta pomocou skratky z druhého jazerného domu

Nahrávanie a načítavanie je jedným zo spôsobov, ako dostať dáta do OneLake. Ďalším kľúčovým vzorom je odkazovať na dáta, ktoré už existujú niekde inde, bez ich duplikácie. To je skratka: ukazovateľ v OneLake, ktorý odkazuje na dáta uložené v inom lakehouse, v inom Fabric workspace alebo v podporovaných zdrojoch mimo Fabric, ako je Azure Data Lake Storage alebo Amazon S3. Údaje sa nekopírujú; zostáva v zdrojovej lokalite, ale môžete ho čítať cez OneLake, akoby bol lokálny. Akékoľvek aktualizácie zdroja sú okamžite viditeľné cez skratku, takže nemusíte uchovávať kópie dát.

V tejto časti vytvoríte druhý jazerný dom a pridáte z neho skratku späť na dim_products stôl vo vašom prvom jazernom dome. To odráža spôsob, akým tímy zvyčajne pracujú – jeden tím vlastní kurátorské dáta a iné tímy alebo projekty ich spotrebúvajú prostredníctvom skratiek vo svojich pracovných priestoroch.

  1. Vo vašom pracovnom priestore vyberte Nový predmet.
  2. V paneli Nové položky vyhľadajte a vyberte Lakehouse.
  3. Zadajte názov, napríklad ShortcutLakehouse, a potom vyberte Vytvoriť.
  4. V novom Prieskumníku domu pri jazere prejdite myšou na Tabuľky, vyberte menu ďalších možností (...) a potom vyberte Nová skratka.
  5. Na stránke New shortcut v sekcii Internal sources vyberte Microsoft OneLake.
  6. V prehliadači dátových zdrojov vyberte prvý lakehouse, ktorý ste vytvorili pre tento rýchly štart, a potom vyberte Ďalej.
  7. Rozbalte tabuľky, vyberte tabuľku dim_products a potom vyberte Ďalej.
  8. Prezrite výber a vyberte Vytvoriť.
  9. Rozbalte tabuľky a ShortcutLakehouse potvrďte, že sa zobrazí pomocou dim_products ikony skratky (malý odkaz nad ikonou tabuľky). Vyberte ho pre náhľad riadkov. Tabuľka je rovnaká ako v pôvodnom jazernom dome, ale žiadne údaje neboli skopírované.
  10. Prejdite myšou nad tabuľku dim_products , vyberte ďalšie možnosti (...), potom vyberte Spravovať skratku. V paneli Spravovať skratky si môžete pozrieť detaily skratiek, vrátane cieľovej skratky, kde sú uložené pôvodné dáta.

Vyčistenie zdrojov

Ak neplánujete pokračovať na ostatné OneLake quickstarty, vymažte lakehouse, aby ste sa vyhli poplatkom za skladovanie OneLake na vašej kapacite Fabric.

  1. Vo svojom pracovnom priestore prejdite myšou nad domčekom pri jazere, ktorý chcete vymazať.
  2. Vyberte menu viac možností (...) vedľa jazerného domu, vyberte Vymazať a potvrďte vymazanie.

Vymazaním jazerných domov sa tiež odstráni obsah v nich: nahraný súbor, tabuľka dim_products Delta a skratka.