Rychlý start: Získání dat do OneLake

OneLake je jedno sjednocené datové jezero pro Microsoft Fabric. Každá Fabric úlohy čte a zapisuje data prostřednictvím OneLake, takže data stačí načíst jen jednou, abyste je mohli používat všude. Data můžete do OneLake přenést několika způsoby:

  • Nahrajte soubory přímo do jezera nebo skladu.
  • Načítejte data pomocí kanálů, toků dat nebo streamovacího prostředí.
  • Připojte se k externím datům pomocí klávesových zkratek nebo zrcadlení.

V tomto rychlém úvodu načtete data do OneLake dvěma způsoby: nahrajete soubor CSV do úložiště lakehouse a vytvoříte zástupce OneLake z druhého úložiště lakehouse, který odkazuje zpět na stejná data, aniž byste je kopírovali. Po dokončení budete mít tabulku Delta, kterou lze dotazovat, a zkratku, přičemž obojí bude prostřednictvím OneLake dostupné pro každý modul Fabric.

Předpoklady

  • Licence pro Fabric. Nebo si zaregistrujte bezplatnou zkušební verzi Fabric.
  • Pracovní prostor Fabric.

Vytvořte jezerní dům

Když vytvoříte položku Fabric, jako je lakehouse, datový sklad nebo eventhouse, tato položka za vás zřídí úložiště v OneLake. V tomto rychlém startu vytvoříte jezero, které poskytuje oblast souborů (soubory) pro nestrukturovaná nebo částečně strukturovaná data a oblast tabulky Delta (tabulky) pro strukturovaná dotazovatelná data. Všechno, co umístíte do jedné oblasti, je uložené ve OneLake a okamžitě přístupné pro ostatní Fabric úlohy.

  1. Přihlaste se k portálu Fabric a vyberte svůj pracovní prostor.

  2. Vyberte Nová položka.

  3. V podokně Nová položka vyhledejte a vyberte Lakehouse.

  4. Zadejte název, například DataLakehousea pak vyberte Vytvořit.

    Lakehouse se otevře do zobrazení Explorer, které zobrazuje prázdné sekce Tabulky a Soubory. Obě části už jsou podporovány službou OneLake a jsou připravené pro obsah.

Nahrání ukázkových dat

V tomto rychlém startu použijete Dim_Products.csv z veřejně dostupné ukázkové datové sady Fabric. Jedná se o malou tabulku informací o produktu od ukázkového prodejce kávy.

  1. Otevřete prohlížeč a přejděte na adresu https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
  2. Po zobrazení výzvy uložte soubor jako Dim_Products.csv do složky v počítači.

V této části nahrajete Dim_Products.csv do souborů , abyste měli nezpracovaná zdrojová data v OneLake. Oblast Soubory v jezeře je zóna úložiště pro obecné účely ve OneLake. Představte si ji jako cílovou zónu pro nezpracovaná data v libovolném formátu, který dorazí. Můžete vypustit soubor CSV, JSON, Parquet, obrázky, protokoly nebo cokoli jiného, aniž byste museli nejprve definovat schéma.

  1. V Průzkumníku Lakehouse najeďte na Soubory, vyberte nabídku Další možnosti (...) a pak vyberte Nahrát>Nahrát soubory.

  2. V podokně Nahrát soubory vyberte ikonu složky a přejděte do Dim_Products.csv počítače.

  3. Vyberte Nahrát a pak zavřete podokno nahrávání.

  4. Vyberte složku Soubory , aby se zobrazil její obsah, a potvrďte, že Dim_Products.csv se zobrazí.

  5. Výběrem Dim_Products.csv zobrazíte jeho data.

    Snímek obrazovky portálu Fabric, který zobrazuje nestrukturovaná data CSV v části Soubory v jezeře Lakehouse.

Soubor je teď uložený v OneLake, ale jako nezpracovaný soubor CSV ho zatím nejde pomocí SQL ani Sparku dotazovat jako tabulku.

Načtení souboru do tabulky Delta

Fabric používá Delta Lake jako standardní formát tabulek v OneLake. Při načtení souboru do oblasti Tables Fabric přečte zdrojový soubor, odvodí schéma a zapíše data jako tabulku Delta. Od tohoto okamžiku může každý modul Fabric dotazovat stejnou tabulku, aniž byste data zkopírovali nebo znovu převáděli.

  1. V Průzkumníku Lakehouse otevřete složku Soubory.

  2. Najeďte myší na soubor Dim_Products.csv a vyberte nabídku Další možnosti (...), poté vyberte Načíst do tabulek>Nová tabulka.

  3. V dialogovém okně Načíst do tabulky zadejte dim_products název tabulky, ponechte výchozí hodnoty a vyberte Načíst.

  4. Po dokončení načítání rozbalte Tables a vyberte dim_products, chcete-li zobrazit náhled řádků. Nezpracovaný soubor CSV ve složce Files zůstává beze změny a dim_products je nová tabulka Delta vytvořená z něj.

    Snímek obrazovky znázorňující strukturovaná data tabulky Delta v části Tabulky v jezeře

  5. Najeďte myší dim_products a vyberte další možnosti (...) a pak vyberte Vlastnosti.

    Obrazovka Properties zobrazuje různé podrobnosti o tabulce, včetně adresy URL a cesty systému Azure Blob File System (ABFS), které můžete použít k odkazování na tuto tabulku v jiných enginech.

Znovu použijte data pomocí zástupce z druhého lakehouse

Nahrávání a načítání je jedním ze způsobů, jak načíst data do OneLake. Dalším klíčovým vzorem je odkazování na data, která už někde jinde existují, aniž byste je duplikoval. Zkratka je ukazatel v OneLake, který odkazuje na data uložená v jiném lakehouse, v jiném pracovním prostoru služby Fabric nebo v podporovaných zdrojích mimo Fabric, jako jsou Azure Data Lake Storage nebo Amazon S3. Data se nekopírují; zůstávají ve zdrojovém umístění, ale prostřednictvím OneLake je můžete číst, jako by byla uložená lokálně. Všechny aktualizace zdroje jsou okamžitě viditelné prostřednictvím zástupce, takže nemusíte udržovat kopie dat.

V této části vytvoříte druhý lakehouse a přidáte do něj zástupce odkazující zpět na tabulku dim_products v prvním lakehouse. To odpovídá tomu, jak týmy obvykle pracují: jeden tým vlastní spravovaná data a ostatní týmy nebo projekty je využívají prostřednictvím zkratek ve svých pracovních prostorech.

  1. V pracovním prostoru vyberte Nová položka.
  2. V podokně Nová položka vyhledejte a vyberte Lakehouse.
  3. Zadejte název, například ShortcutLakehousea pak vyberte Vytvořit.
  4. V Průzkumníku nového jezera Lakehouse najeďte myší na Tabulky, vyberte nabídku Další možnosti (...) a pak vyberte Nový zástupce.
  5. Na stránce Nový zástupce v části Interní zdroje vyberte Microsoft OneLake.
  6. V prohlížeči zdroje dat vyberte první lakehouse, který jste vytvořili v rámci tohoto rychlého startu, a potom vyberte Další.
  7. Rozbalte tabulky, vyberte dim_products tabulku a pak vyberte Další.
  8. Zkontrolujte výběr a vyberte Vytvořit.
  9. Rozbalte Tabulky v ShortcutLakehouse a potvrďte, že se u dim_products zobrazí ikona zástupce (malý symbol odkazu nad ikonou tabulky). Vyberte ji, aby se zobrazil náhled řádků. Tabulka je stejná jako v původním jezeře, ale nebyla zkopírována žádná data.
  10. Najeďte myší na tabulku dim_products, vyberte další možnosti (...) a pak vyberte Spravovat zkratku. V podokně Spravovat zástupce můžete zobrazit podrobnosti zástupce, včetně cílového umístění zástupce, ve kterém jsou uložena původní data.

Vyčistěte zdroje

Pokud neplánujete pokračovat v dalších rychlých startech OneLake, odstraňte jezero, abyste se vyhnuli poplatkům za úložiště OneLake oproti vaší kapacitě Fabric.

  1. V pracovním prostoru najeďte myší na jezero, které chcete odstranit.
  2. Vyberte další možnosti (...) vedle jezera, vyberte Odstranit a potvrďte odstranění.

Odstraněním lakehouse se také odebere obsah v nich: nahraný soubor, dim_products tabulka Delta a zástupce.