Rövid útmutató: Adatok beolvasása a OneLake-be

A OneLake a Microsoft Fabric egyetlen egységes adattója. Minden Fabric számítási feladat adatokat olvas és ír a OneLake-on keresztül, így csak egyszer kell betöltenie az adatokat, hogy mindenhol használhassa. Az adatok többféleképpen is bevihetők a OneLake-be:

  • Fájlok feltöltése közvetlenül egy tóházba vagy raktárba.
  • Adatok betöltése folyamatok, adatfolyamok vagy streamelési szolgáltatások használatával.
  • Csatlakozás külső adatokhoz billentyűparancsokkal vagy tükrözéssel.

Ebben a rövid útmutatóban kétféleképpen hozhatja be az adatokat a OneLake-be: feltölt egy CSV-fájlt egy tóházba, és létrehoz egy OneLake-parancsikont egy második tóházból, amely ugyanarra az adatokra mutat másolás nélkül. Ha végzett, egy lekérdezhető Delta-táblával és egy parancsikonlal rendelkezik, amely a OneLake-on keresztül minden Fabric motor számára elérhető.

Prerequisites

Tóház létrehozása

Amikor létrehoz egy Fabric-elemet, például egy lakehouse-t, warehouse-t vagy eventhouse-t, akkor az adott elem tárhelyet foglal le az Ön helyett a OneLake-ben. Ebben a rövid útmutatóban létrehoz egy tóházat, amely a strukturálatlan vagy félig strukturált adatok fájlterületét (Files) és a strukturált, lekérdezhető adatok Delta-táblaterületét (Táblák) is biztosítja. Bármi, amit bármelyik területre helyez, a OneLake-ben tárolódik, és azonnal elérhetővé válik más Fabric-munkaterhelések számára.

  1. Jelentkezzen be a Fabric portálra és válassza ki a munkaterületet.

  2. Válassza Új elem.

  3. Az Új elem panelen keresse meg és válassza ki a Lakehouse lehetőséget.

  4. Adjon meg egy nevet, például DataLakehouse, majd válassza a Létrehozás lehetőséget.

    A lakehouse megnyílik az Explorer nézetre, amely üres Táblák és fájlok szakaszokat jelenít meg. Mindkét szekciót már a OneLake támogatja, és készen áll a tartalom fogadására.

Mintaadatok feltöltése

Ebben a gyorsútmutatóban egy nyilvánosan elérhető Fabric-mintaadatkészletből származó Dim_Products.csv elemet használ. Ez egy kis termékinformációs táblázat, amely egy minta kávékereskedőtől származik.

  1. Nyisson meg egy böngészőt, és ugorjon a https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv címre.
  2. Amikor a rendszer kéri, mentse a fájlt Dim_Products.csv a számítógép egyik mappájába.

Ebben a szakaszban feltölti a Dim_Products.csv elemet a Fájlok közé, így a nyers forrásadatok a OneLake-ben lesznek. A lakehouse Files szakasza a OneLake általános célú tárolóterülete. Tekintsd úgy, mint a nyers adatok kezdőzónájaként, bármilyen formátumban is érkeznek. CsV, JSON, Parquet, képek, naplók vagy bármi más is bedobható anélkül, hogy először sémát kellene definiálnia.

  1. A Lakehouse Explorerben mutasson a Fájlok fölé, válassza a további lehetőségek (...) menüt, majd válassza aFájlok feltöltése>.

  2. A Fájlok feltöltése panelen válassza a mappa ikont, majd tallózással keresse meg a(z) Dim_Products.csv elemet a számítógépén.

  3. Válassza a Feltöltés lehetőséget, majd zárja be a feltöltési panelt.

  4. Jelölje ki a Fájlok mappát a tartalom megtekintéséhez, és ellenőrizze, hogy megjelenik-e Dim_Products.csv .

  5. Válassza ki Dim_Products.csv az adatok megtekintéséhez.

    A Fabric-portál képernyőképe, amely egy lakehouse Fájlok szakaszában strukturálatlan CSV-adatokat mutat.

A fájl most már a OneLake-ben él, de nyers CSV-ként még nem az SQL vagy a Spark tud táblaként lekérdezni.

A fájl betöltése Delta-táblába

Fabric a Delta Lake-en szabványosítja a OneLake táblázatformátumát. Amikor betölt egy fájlt a Tables területre, Fabric beolvassa a forrásfájlt, egy sémára következtet, és deltatáblaként írja ki az adatokat. Ettől a ponttól kezdve minden Fabric motor lekérdezheti ugyanazt a táblát anélkül, hogy újra másolta vagy konvertálta az adatokat.

  1. A Lakehouse Explorerben nyissa meg a Fájlok mappát.

  2. Vigye az egérmutatót a Dim_Products.csv fájl fölé, és válassza a További beállítások (...) menüt, majd válassza a Betöltés az Új táblák>táblába lehetőséget.

  3. A Betöltés táblába párbeszédpanelen adja meg dim_products a tábla nevét, tartsa meg az alapértelmezett értékeket, és válassza a Betöltés lehetőséget.

  4. A betöltés befejezése után bontsa ki a Táblák elemet, és válassza a dim_products sorok előnézetének megtekintéséhez. A Fájlokban lévő nyers CSV nem változik, és dim_products egy új Delta-tábla, amely abból épül fel.

    Képernyőkép a strukturált Delta-táblaadatokról egy tóház Táblák szakaszában.

  5. Mutasson az egérmutatóra dim_products , és válassza a további beállítások (...) menüt, majd válassza a Tulajdonságok lehetőséget.

    A Properties képernyőn a táblázat különböző részletei láthatók, beleértve az URL-címet és a Azure Blob Fájlrendszer (ABFS) elérési útját, amellyel más motorokban hivatkozhat erre a táblára.

Az adatok újrafelhasználása egy második lakehouse-ból származó parancsikonnal

A feltöltés és a betöltés az adatok OneLake-be való beolvasásának egyik módja. A másik kulcsminta az, hogy máshol már létező adatokra hivatkozik, anélkül, hogy duplikálja azokat. Ez a parancsikon: egy mutató a OneLake-ben, amely egy másik tóházban, egy másik Fabric munkaterületen vagy Fabric kívüli támogatott forrásokban, például Azure Data Lake Storage vagy Amazon S3-ban tárolt adatokra hivatkozik. Az adatok nem lesznek másolva; a forráshelyen marad, de a OneLake-on keresztül úgy olvashatja el, mintha helyi lenne. A forrás minden frissítése azonnal látható a parancsikonon keresztül, így nem kell megőriznie az adatok másolatát.

Ebben a szakaszban létrehoz egy második tóházat, majd onnan egy parancsikont ad az első tóházban lévő dim_products táblához. Ez azt tükrözi, ahogyan a csapatok általában dolgoznak: az egyik csapat felel a gondozott adatokért, a többi csapat vagy projekt pedig a saját munkaterületén található parancsikonokon keresztül használja azokat.

  1. A munkaterületen válassza az Új elem lehetőséget.
  2. Az Új elem panelen keresse meg és válassza ki a Lakehouse lehetőséget.
  3. Adjon meg egy nevet, például ShortcutLakehouse, majd válassza a Létrehozás lehetőséget.
  4. Az új lakehouse Explorerben vigye az egérmutatót a Táblák fölé, válassza a további lehetőségek (...) menüt, majd válassza az Új parancsikont.
  5. A Új parancsikon lap Internális források területén válassza a Microsoft OneLake lehetőséget.
  6. Az adatforrásböngészőben válassza ki az első lakehouse-t, amelyet ehhez a rövid útmutatóhoz készített, majd válassza a Tovább lehetőséget.
  7. Bontsa ki a Táblák elemet, válassza ki a dim_products táblázatot, majd válassza a Tovább lehetőséget.
  8. Tekintse át a kijelölést, és válassza a Létrehozás lehetőséget.
  9. Bontsa ki a ShortcutLakehouse elemet, és győződjön meg arról, hogy dim_products a parancsikon ikonnal jelenik meg (egy kis hivatkozás képe a táblázat ikonja felett). Válassza ki a sorok előnézetének megtekintéséhez. A tábla megegyezik az eredeti lakehouse-ban lévővel, de nem történt adatmásolás.
  10. Vigye az egérmutatót a dim_products táblázat fölé, válassza a további beállításokat (...), majd válassza a Parancsikon kezelése lehetőséget. A Parancsikon kezelése panelen megtekintheti a parancsikon részleteit, beleértve az eredeti adatok tárolására szolgáló parancsikon-célt is.

Erőforrások tisztítása

Ha nem tervezi, hogy folytatja a többi OneLake-gyorsútmutatóval, törölje a Lakehouse-okat, hogy ne terheljék OneLake-tárolási díjak a Fabric-kapacitását.

  1. A munkaterületén vigye a kurzort a törölni kívánt lakehouse fölé.
  2. Válassza a tóház melletti további lehetőségek (...) menüt, válassza a Törlés lehetőséget, és erősítse meg a törlést.

A tóházak törlése a bennük lévő tartalmat is eltávolítja: a feltöltött fájlt, a dim_products Delta-táblát és a parancsikont.