Megosztás a következőn keresztül:


Külső csomagok használata Jupyter-notebookokkal a HDInsighton futó Apache Spark-fürtökben

Megtudhatja, hogyan konfigurálhat egy Jupyter Notebookot a HDInsighton futó Apache Spark-fürtben olyan külső, közösség által közreműködő Apache Maven-csomagok használatára, amelyek nem szerepelnek a fürtben.

A Maven-adattárban megkeresheti az elérhető csomagok teljes listáját. Az elérhető csomagok listáját más forrásokból is lekérheti. A Közösség által létrehozott csomagok teljes listája például elérhető a Spark Packagesben.

Ebben a cikkben megtudhatja, hogyan használhatja a spark-csv csomagot a Jupyter Notebookkal.

Előfeltételek

Külső csomagok használata Jupyter Notebookokkal

  1. Keresse meg https://CLUSTERNAME.azurehdinsight.net/jupyter CLUSTERNAME a Spark-fürt nevét.

  2. Hozzon létre új notebookot. Válassza az Új, majd a Spark lehetőséget.

    Hozzon létre egy új Spark Jupyter-jegyzetfüzetet.

  3. Az új notebook létrejött, és Untitled.pynb néven nyílt meg. Válassza ki a jegyzetfüzet nevét a tetején, és adjon meg egy rövid nevet.

    Adja meg a jegyzetfüzet nevét.

  4. A varázslattal %%configure konfigurálhatja a jegyzetfüzetet külső csomag használatára. Külső csomagokat használó jegyzetfüzetekben mindenképpen hívja meg a %%configure varázslatot az első kódcellában. Ez biztosítja, hogy a kernel konfigurálva legyen a csomag használatára a munkamenet megkezdése előtt.

    Fontos

    Ha elfelejtette konfigurálni a kernelt az első cellában, használhatja a %%configure -f paramétert, de ez újraindítja a munkamenetet, és az összes folyamat elveszik.

    HDInsight-verzió Parancs
    HDInsight 3.5 és HDInsight 3.6 esetén %%configure
    { "conf": {"spark.jars.packages": "com.databricks:spark-csv_2.11:1.5.0" }}
    HDInsight 3.3 és HDInsight 3.4 esetén %%configure
    { "packages":["com.databricks:spark-csv_2.10:1.4.0"] }
  5. A fenti kódrészlet a Maven Central-adattárban lévő külső csomag maven-koordinátáit várja. Ebben a kódrészletben com.databricks:spark-csv_2.11:1.5.0 található a Spark-csv csomag maven koordinátája. Így hozhatja létre a csomagok koordinátáit.

    a. Keresse meg a csomagot a Maven-adattárban. Ebben a cikkben spark-csv-t használunk.

    b. Az adattárból gyűjtse össze a GroupId, az ArtifactId és a Version értékeit. Győződjön meg arról, hogy az összegyűjtött értékek megfelelnek a fürtnek. Ebben az esetben Scala 2.11 és Spark 1.5.0 csomagot használunk, de előfordulhat, hogy a fürt megfelelő Scala vagy Spark-verziójához különböző verziókat kell kiválasztania. A Scala-verziót a fürtön a Spark Jupyter kernelen vagy a Spark-küldésen futtatva scala.util.Properties.versionString találhatja meg. A Spark-verziót a fürtön jupyter notebookokon futtatva sc.version találja meg.

    Külső csomagokat használhat a Jupyter Notebook használatával.

    c. Fűzd össze a három értéket kettősponttal (:) elválasztva.

    com.databricks:spark-csv_2.11:1.5.0
    
  6. Futtassa a kódcellát a %%configure varázslattal. Ezzel konfigurálja a mögöttes Livy-munkamenetet a megadott csomag használatára. A jegyzetfüzet későbbi celláiban mostantól használhatja a csomagot, ahogy az alább látható.

    val df = spark.read.format("com.databricks.spark.csv").
    option("header", "true").
    option("inferSchema", "true").
    load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")
    

    A HDInsight 3.4 és újabb verzió esetén használja az alábbi kódrészletet.

    val df = sqlContext.read.format("com.databricks.spark.csv").
    option("header", "true").
    option("inferSchema", "true").
    load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")
    
  7. Ezután futtathatja a kódrészleteket, ahogyan az alább látható, az előző lépésben létrehozott adatkeretből származó adatok megtekintéséhez.

    df.show()
    
    df.select("Time").count()
    

Lásd még

Forgatókönyvek

Alkalmazások létrehozása és futtatása

Eszközök és bővítmények

Erőforrások kezelése