Külső csomagok használata Jupyter-notebookokkal a HDInsighton futó Apache Spark-fürtökben

Cikk
07/25/2024

Megtudhatja, hogyan konfigurálhat egy Jupyter Notebookot a HDInsighton futó Apache Spark-fürtben olyan külső, közösség által közreműködő Apache Maven-csomagok használatára, amelyek nem szerepelnek a fürtben.

A Maven-adattárban megkeresheti az elérhető csomagok teljes listáját. Az elérhető csomagok listáját más forrásokból is lekérheti. A Közösség által létrehozott csomagok teljes listája például elérhető a Spark Packagesben.

Ebben a cikkben megtudhatja, hogyan használhatja a spark-csv csomagot a Jupyter Notebookkal.

Előfeltételek

Apache Spark-fürt megléte a HDInsightban. További útmutatásért lásd: Apache Spark-fürt létrehozása az Azure HDInsightban.
A Jupyter-notebookok és a HDInsighton futó Spark használatának ismerete. További információ: Adatok betöltése és lekérdezések futtatása az Apache Spark on HDInsight használatával.
A fürtök elsődleges tárolójának URI-sémája . Ez az Azure Storage esetében, abfs:// az Azure Data Lake Storage Gen2 esetében lennewasb://. Ha a biztonságos átvitel engedélyezve van az Azure Storage vagy a Data Lake Storage Gen2 esetében, az URI vagy abfss://– lásd még – biztonságos átvitel leszwasbs://.

Külső csomagok használata Jupyter Notebookokkal

Keresse meg https://CLUSTERNAME.azurehdinsight.net/jupyter CLUSTERNAME a Spark-fürt nevét.
Hozzon létre új notebookot. Válassza az Új, majd a Spark lehetőséget.
Az új notebook létrejött, és Untitled.pynb néven nyílt meg. Válassza ki a jegyzetfüzet nevét a tetején, és adjon meg egy rövid nevet.

A varázslattal %%configure konfigurálhatja a jegyzetfüzetet külső csomag használatára. Külső csomagokat használó jegyzetfüzetekben mindenképpen hívja meg a %%configure varázslatot az első kódcellában. Ez biztosítja, hogy a kernel konfigurálva legyen a csomag használatára a munkamenet megkezdése előtt.

Fontos

Ha elfelejtette konfigurálni a kernelt az első cellában, használhatja a %%configure -f paramétert, de ez újraindítja a munkamenetet, és az összes folyamat elveszik.

HDInsight-verzió	Parancs
HDInsight 3.5 és HDInsight 3.6 esetén	`%%configure` `{ "conf": {"spark.jars.packages": "com.databricks:spark-csv_2.11:1.5.0" }}`
HDInsight 3.3 és HDInsight 3.4 esetén	`%%configure` `{ "packages":["com.databricks:spark-csv_2.10:1.4.0"] }`

A fenti kódrészlet a Maven Central-adattárban lévő külső csomag maven-koordinátáit várja. Ebben a kódrészletben com.databricks:spark-csv_2.11:1.5.0 található a Spark-csv csomag maven koordinátája. Így hozhatja létre a csomagok koordinátáit.

a. Keresse meg a csomagot a Maven-adattárban. Ebben a cikkben spark-csv-t használunk.

b. Az adattárból gyűjtse össze a GroupId, az ArtifactId és a Version értékeit. Győződjön meg arról, hogy az összegyűjtött értékek megfelelnek a fürtnek. Ebben az esetben Scala 2.11 és Spark 1.5.0 csomagot használunk, de előfordulhat, hogy a fürt megfelelő Scala vagy Spark-verziójához különböző verziókat kell kiválasztania. A Scala-verziót a fürtön a Spark Jupyter kernelen vagy a Spark-küldésen futtatva scala.util.Properties.versionString találhatja meg. A Spark-verziót a fürtön jupyter notebookokon futtatva sc.version találja meg.

c. Fűzd össze a három értéket kettősponttal (:) elválasztva.
```
com.databricks:spark-csv_2.11:1.5.0
```

Futtassa a kódcellát a %%configure varázslattal. Ezzel konfigurálja a mögöttes Livy-munkamenetet a megadott csomag használatára. A jegyzetfüzet későbbi celláiban mostantól használhatja a csomagot, ahogy az alább látható.

val df = spark.read.format("com.databricks.spark.csv").
option("header", "true").
option("inferSchema", "true").
load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")

A HDInsight 3.4 és újabb verzió esetén használja az alábbi kódrészletet.

val df = sqlContext.read.format("com.databricks.spark.csv").
option("header", "true").
option("inferSchema", "true").
load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")

Ezután futtathatja a kódrészleteket, ahogyan az alább látható, az előző lépésben létrehozott adatkeretből származó adatok megtekintéséhez.
```
df.show()

df.select("Time").count()
```

Lásd még

Overview: Apache Spark on Azure HDInsight (Áttekintés: Apache Spark on Azure HDInsight)

Megosztás a következőn keresztül:

Külső csomagok használata Jupyter-notebookokkal a HDInsighton futó Apache Spark-fürtökben

Előfeltételek

Külső csomagok használata Jupyter Notebookokkal

Lásd még

Forgatókönyvek

Alkalmazások létrehozása és futtatása

Eszközök és bővítmények

Erőforrások kezelése

Visszajelzés

További források