Megosztás a következőn keresztül:


Azure Databricks Scala-fejlesztőknek

Ez a cikk útmutatót nyújt a jegyzetfüzetek és feladatok Azure Databricksben való fejlesztéséhez a Scala nyelv használatával. Az első szakasz a gyakori munkafolyamatok és feladatok oktatóanyagaira mutató hivatkozásokat tartalmaz. A második szakasz api-kra, kódtárakra és kulcseszközökre mutató hivatkozásokat tartalmaz.

Az első lépések alapvető munkafolyamata a következő:

Ezen kívül konkrétabb témakörökre is bonthatja a műveletet:

Oktatóanyagok

Az alábbi oktatóanyagok példakódot és jegyzetfüzeteket nyújtanak a gyakori munkafolyamatok megismeréséhez. A jegyzetfüzetek a munkaterületre való importálásával kapcsolatos útmutatásért lásd : Jegyzetfüzet importálása.

Referencia

Az alábbi alszakaszok felsorolják a főbb funkciókat és tippeket, amelyekkel megkezdheti a fejlesztést az Azure Databricksben a Scalával.

Scala API

Ezek a hivatkozások bemutatja és ismertetik az Apache Spark Scala API-t.

Kód kezelése jegyzetfüzetekkel és Databricks Git-mappákkal

A Databricks-jegyzetfüzetek támogatják a Scalát. Ezek a jegyzetfüzetek a Jupyterhez hasonló funkciókat biztosítanak, de olyan kiegészítésekkel, mint a big data-ot használó beépített vizualizációk, a hibakereséshez és a teljesítményfigyeléshez használható Apache Spark-integrációk, valamint a gépi tanulási kísérletek nyomon követésére szolgáló MLflow-integrációk. Első lépésként importáljon egy jegyzetfüzetet. Miután hozzáfér egy fürthöz, csatolhat egy jegyzetfüzetet a fürthöz, és futtathatja a jegyzetfüzetet.

Tipp.

A jegyzetfüzet állapotának teljes visszaállításához hasznos lehet újraindítani a kernelt. A Jupyter-felhasználók számára a Jupyter "restart kernel" lehetősége megfelel egy jegyzetfüzet leválasztásának és újbóli csatolásának a Databricksben. Ha újra szeretné indítani a kernelt egy jegyzetfüzetben, kattintson a számítási választóra a jegyzetfüzet eszköztárában, és mutasson a csatolt fürtre vagy SQL Warehouse-ra a listában egy oldalsó menü megjelenítéséhez. Válassza a Leválasztás > újracsatolása lehetőséget. Ez leválasztja a jegyzetfüzetet a fürtről, és újracsatlakoztatja, ami újraindítja a folyamatot.

A Databricks Git-mappák lehetővé teszik a felhasználók számára, hogy szinkronizálják a jegyzetfüzeteket és más fájlokat a Git-adattárakkal. A Databricks Git-mappák segítenek a kód verziószámozásában és együttműködésében, és egyszerűbbé teheti a kód teljes tárházának importálását az Azure Databricksbe, megtekintheti a korábbi jegyzetfüzet-verziókat, és integrálható az IDE-fejlesztéssel. Első lépésként klónozz egy távoli Git-adattárat. Ezután megnyithatja vagy létrehozhat jegyzetfüzeteket az adattár klónozásával, csatolhatja a jegyzetfüzetet egy fürthöz, és futtathatja a jegyzetfüzetet.

Fürtök és kódtárak

Az Azure Databricks Compute bármilyen méretű fürthöz biztosít számításkezelést: az egycsomópontos fürtöktől kezdve a nagy fürtökig. Igényeinek megfelelően testre szabhatja a fürt hardvereit és kódtárait. Az adattudósok általában egy fürt létrehozásával vagy egy meglévő megosztott fürt használatával kezdik meg a munkát. Miután hozzáfér egy fürthöz, csatolhat egy jegyzetfüzetet a fürthöz, vagy futtathat egy feladatot a fürtön.

Az Azure Databricks-fürtök egy Databricks Runtime-ot használnak, amely számos népszerű kódtárat biztosít, többek között az Apache Sparkot, a Delta Lake-t és sok mást. A jegyzetfüzetekhez és feladatokhoz használható további külső vagy egyéni kódtárakat is telepíthet.

Vizualizációk

Az Azure Databricks Scala-jegyzetfüzetek beépített támogatást nyújtanak számos vizualizációtípushoz. Régi vizualizációkat is használhat:

Együttműködési lehetőség

Ez a szakasz a Scala és az SQL közötti együttműködést támogató funkciókat ismerteti.

Feladatok

A Scala-számítási feladatokat ütemezett vagy aktivált feladatokként automatizálhatja az Azure Databricksben. A feladatok jegyzetfüzeteket és JAR-eket futtathatnak.

  • A feladat felhasználói felületen keresztüli létrehozásával kapcsolatos részletekért lásd : Feladat létrehozása.
  • A Databricks SDK-kkal programozott módon hozhat létre, szerkeszthet és törölhet feladatokat.
  • A Databricks parancssori felülete kényelmes parancssori felületet biztosít a feladatok automatizálásához.

Azonosítók, fejlesztői eszközök és SDK-k

Az Azure Databricks-jegyzetfüzeteken belüli Scala-kód fejlesztése mellett külsőleg is fejleszthet integrált fejlesztési környezeteket (IDE-ket), például az IntelliJ IDEA-t. A külső fejlesztési környezetek és az Azure Databricks közötti munka szinkronizálásához számos lehetőség közül választhat:

  • Kód: Szinkronizálhatja a kódot a Git használatával. Lásd: Git-integráció a Databricks Git-mappákkal.
  • Tárak és feladatok: Tárakat külsőleg hozhat létre, és feltöltheti őket az Azure Databricksbe. Ezek a kódtárak importálhatók az Azure Databricks-jegyzetfüzetekbe, vagy használhatók feladatok létrehozására. Lásd: Kódtárak , Azure Databricks-feladatok létrehozása és futtatása.
  • Távoli gép végrehajtása: A helyi IDE-ből futtathat kódot interaktív fejlesztéshez és teszteléshez. Az IDE képes kommunikálni az Azure Databricks szolgáltatással, hogy nagy számítási feladatokat hajt végre az Azure Databricks-fürtökön. Használhatja például az IntelliJ IDEA-t a Databricks Csatlakozás.

A Databricks olyan SDK-k készletét biztosítja, amelyek támogatják az automatizálást és a külső eszközökkel való integrációt. A Databricks SDK-kkal olyan erőforrásokat kezelhet, mint a fürtök és tárak, kód- és egyéb munkaterület-objektumok, számítási feladatok és feladatok. Lásd a Databricks SDK-jait.

Az azonosítókkal, a fejlesztői eszközökkel és az SDK-kkal kapcsolatos további információkért lásd Fejlesztői eszközök és útmutatást.

További erőforrások

  • A Databricks Academy számos témakörben kínál öngyors és oktató által vezetett kurzusokat.