Oktatóanyag: Jegyzetfüzet használata az Apache Spark használatával KQL-adatbázis lekérdezéséhez

A jegyzetfüzetek olvasható dokumentumok, amelyek adatelemzési leírásokat és eredményeket, valamint végrehajtható dokumentumokat tartalmaznak, amelyek adatelemzéshez futtathatók. Ebből a cikkből megtudhatja, hogyan olvashat és írhat adatokat egy KQL-adatbázisba egy Microsoft Fabric-jegyzetfüzet használatával az Apache Spark használatával. Ez az oktatóanyag előre létrehozott adatkészleteket és jegyzetfüzeteket használ a Valós idejű elemzésben és a Microsoft Fabric adatmérnök környezeteiben is. A jegyzetfüzetekről további információt a Microsoft Fabric-jegyzetfüzetek használata című témakörben talál.

Pontosabban az alábbiakat sajátíthatja el:

  • KQL-adatbázis létrehozása
  • Jegyzetfüzet importálása
  • Adatok írása KQL-adatbázisba az Apache Spark használatával
  • Adatok lekérdezése KQL-adatbázisból

Előfeltételek

1 – KQL-adatbázis létrehozása

  1. Nyissa meg a felületváltót a navigációs ablak alján, és válassza a Valós idejű elemzés lehetőséget.

  2. Válassza ki a KQL-adatbázis csempét.

    Screenshot of new KQL database tile in Real-Time Analytics.

  3. A KQL-adatbázis neve mezőbe írja be a nycGreenTaxi nevet, majd válassza a Létrehozás lehetőséget.

    A KQL-adatbázis a kijelölt munkaterület környezetében lett létrehozva.

  4. Másolja ki a lekérdezési URI-t az adatbázis-adatkártyáról az adatbázis irányítópultján, és illessze be valahová, például egy jegyzettömbbe egy későbbi lépésben való használathoz.

     Screenshot of the database details card that shows the database details. The Query URI option titled Copy URI is highlighted.

2 – Az NYC GreenTaxi jegyzetfüzetének letöltése

Létrehoztunk egy mintajegyzetfüzetet, amely végigvezeti az adatok Spark-összekötővel való betöltéséhez szükséges összes lépésen.

  1. Nyissa meg a Fabric-minták adattárát a GitHubon az NYC GreenTaxi KQL-jegyzetfüzet letöltéséhez.

    Screenshot of GitHub repository showing the NYC GreenTaxi notebook. The Raw option is highlighted.

  2. Mentse a jegyzetfüzetet helyileg az eszközére.

    Megjegyzés:

    A jegyzetfüzetet fájlformátumban .ipynb kell menteni.

3 – A jegyzetfüzet importálása

A munkafolyamat többi része a termék adatmérnök szakaszában történik, és egy Spark-jegyzetfüzet használatával tölti be és kérdezi le az adatokat a KQL-adatbázisban.

  1. Nyissa meg az élménykapcsolót a navigációs ablak alján, és válassza a adatmérnök lehetőséget.

  2. Válassza a Jegyzetfüzet importálása lehetőséget.

    Screenshot of item options in Data Engineering. The item titled Import notebook is highlighted.

  3. Az Importálás állapotablakban válassza a Feltöltés lehetőséget.

    Screenshot of Import status window. The button titled Upload is highlighted.

  4. Válassza ki az előző lépésben letöltött NYC GreenTaxi-jegyzetfüzetet.

  5. Az importálás befejezése után térjen vissza a munkaterületre a jegyzetfüzet megnyitásához.

4 – Adatok lekérése

Az adatbázis Spark-összekötővel való lekérdezéséhez olvasási és írási hozzáférést kell adnia az NYC GreenTaxi blobtárolóhoz.

A lejátszás gombra kattintva futtassa a következő cellákat, vagy jelölje ki a cellát, és nyomja le a Shift+ Enter billentyűkombinációt. Ismételje meg ezt a lépést minden kódcella esetében.

Megjegyzés:

Várja meg, amíg megjelenik a befejezési pipa a következő cella futtatása előtt.

  1. Futtassa a következő cellát az NYC GreenTaxi blobtárolóhoz való hozzáférés engedélyezéséhez.

    Screenshot of first code cell showing storage access information.

  2. A KustoURI-ban illessze be a korábban másolt lekérdezési URI-ta helyőrző szöveg helyett.

  3. Módosítsa a helyőrző adatbázis nevét nycGreenTaxi névre.

  4. Módosítsa a helyőrző tábla nevét GreenTaxiData-ra.

    Screenshot of second code cell showing the target database information. The Query URI, the database name, and the table name are highlighted.

  5. Futtassa a cellát.

  6. Futtassa a következő cellát az adatok adatbázisba való írásához. A lépés végrehajtása eltarthat néhány percig.

    Screenshot of third code cell showing table mapping and ingestion command.

Az adatbázis most már betölti az adatokat egy GreenTaxiData nevű táblába.

5 – A jegyzetfüzet futtatása

Futtassa a fennmaradó két cellát egymás után a tábla adatainak lekérdezéséhez. Az eredmények azt mutatják, hogy az első 20 legmagasabb és legalacsonyabb taxi viteldíjak és távolságok rögzített év.

Screenshot of fourth and fifth code cell showing the query results.

6 – Erőforrások törlése

Törölje a létrehozott elemeket a munkaterületre való navigálással.

  1. A munkaterületen mutasson a törölni kívánt jegyzetfüzetre, és válassza a Továbbiak menüt [...] >Törlés.

    Screenshot of workspace showing the drop-down menu of the NYC GreenTaxi notebook. The option titled Delete is highlighted.

  2. Válassza a Törlés lehetőséget. A jegyzetfüzet törlése után nem állítható helyre.