Adatok hivatkozása a Lakehouse-ban Adattudomány projektekhez

Ez a rövid útmutató bemutatja, hogyan hivatkozhat a külső ADLS-fiókban tárolt adatokra, és hogyan használhatja őket adatelemzési projektekben. A rövid útmutató elvégzése után a lakehouse-beli ADLS-tárolóra mutató parancsikon és egy Spark-kóddal ellátott jegyzetfüzet jelenik meg, amely hozzáfér a külső adatokhoz.

Adatok előkészítése parancsikonra

  1. Az Azure-ban hozzon létre ADLS Gen2-fiókot

  2. Hierarchikus névterek engedélyezése

    Screenshot of hierarchical namespaces in storage account.

  3. Mappák létrehozása az adatokhoz

  4. Adatok feltöltése

  5. Felhasználói identitás hozzáadása a BlobStorageContributor szerepkörhöz

  6. Tárfiókvégpont lekérése

Parancsikon létrehozása

  1. Nyissa meg a lakehouse-t a Lakehouse Explorer megnyitásához

  2. A fájlok alatt hozzon létre egy mappát, amelyben adatokra hivatkozik

  3. Válassza a jobb gombbal (...) és válassza az Új parancsikon lehetőséget a mappa neve mellett

    Screenshot of new shortcut link.

  4. Külső források > kiválasztása ADLS Gen2

  5. Adja meg a parancsikon nevét, a tárfiók végpontját, és fejezze be az adatmappa helyét a tárfiókban

    Screenshot of new shortcut dialog.

  6. Kattintás a Létrehozás gombra

Hivatkozott adatok elérése a Jegyzetfüzetben

  1. Meglévő megnyitása vagy új jegyzetfüzet létrehozása
  2. A lakehouse rögzítése a jegyzetfüzetbe
  3. Adatok tallózása a helyi mappában
  4. Válasszon ki egy strukturált adatokat tartalmazó fájlt, és húzza a jegyzetfüzetbe a kód generálásához
  5. Kód végrehajtása fájltartalom lekéréséhez
  6. Kód hozzáadása adatelemzéshez