Sdílet prostřednictvím


Použití modelu hlubokého učení v sadě Microsoft Cognitive Toolkit s clusterem Azure HDInsight Spark

V tomto článku provedete následující kroky.

  1. Spuštěním vlastního skriptu nainstalujte sadu Microsoft Cognitive Toolkit do clusteru Azure HDInsight Spark.

  2. Nahrajte poznámkový blok Jupyter do clusteru Apache Spark, abyste zjistili, jak aplikovat natrénovaný model deep learningu Microsoft Cognitive Toolkit na soubory v účtu služby Azure Blob Storage využitím rozhraní Spark Python API (PySpark).

Požadavky

Jak funguje toto řešení?

Toto řešení je rozdělené mezi tento článek a Jupyter Notebook, který nahrajete jako součást tohoto článku. V tomto článku provedete následující kroky:

  • Spuštěním akce skriptu v clusteru HDInsight Spark nainstalujte balíčky Microsoft Cognitive Toolkit a Pythonu.
  • Nahrajte poznámkový blok Jupyter, který spouští řešení do clusteru HDInsight Spark.

V poznámkovém bloku Jupyter jsou popsané následující zbývající kroky.

  • Načtěte ukázkové obrázky do Resilient Distributed Dataset (RDD) Sparku.
    • Načtěte moduly a definujte přednastavení.
    • Stáhněte datovou sadu místně v clusteru Spark.
    • Převeďte datovou sadu na RDD.
  • Ohodnoťte obrázky pomocí trénovaného modelu Cognitive Toolkit.
    • Stáhněte natrénovaný model Cognitive Toolkit do clusteru Spark.
    • Definujte funkce, které mají být používány pracovními uzly.
    • Ohodnoťte obrázky na pracovních uzlech.
    • Vyhodnocení přesnosti modelu

Instalace sady Microsoft Cognitive Toolkit

Sadu Microsoft Cognitive Toolkit můžete nainstalovat do clusteru Spark pomocí akce skriptu. Akce skriptu používá vlastní skripty k instalaci komponent do clusteru, které nejsou ve výchozím nastavení dostupné. Vlastní skript můžete použít z webu Azure Portal, pomocí sady HDInsight .NET SDK nebo pomocí Azure PowerShellu. Skript můžete použít také k instalaci sady nástrojů v rámci vytváření clusteru nebo po spuštění clusteru.

V tomto článku použijeme portál k instalaci sady nástrojů po vytvoření clusteru. Další způsoby spuštění vlastního skriptu najdete v tématu Přizpůsobení clusterů HDInsight pomocí akce skriptu.

Pomocí webu Azure Portal

Pokyny k použití webu Azure Portal ke spuštění akce skriptu najdete v tématu Přizpůsobení clusterů HDInsight pomocí akce skriptu. Ujistěte se, že pro instalaci sady Microsoft Cognitive Toolkit zadáte následující vstupy. Pro akci skriptu použijte následující hodnoty:

Vlastnictví Hodnota
Typ skriptu - Na míru
Název Nainstalujte MCT
URI skriptu Bash https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh
Typy uzlů: Vedoucí, Pracovník
Parametry Žádné

Nahrání poznámkového bloku Jupyter do clusteru Azure HDInsight Spark

Pokud chcete používat sadu Microsoft Cognitive Toolkit s clusterem Azure HDInsight Spark, musíte do clusteru Azure HDInsight Spark načíst Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb. Tento poznámkový blok je k dispozici na GitHubu na adrese https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  1. Stáhnout a rozbalit https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  2. Ve webovém prohlížeči navigujte na https://CLUSTERNAME.azurehdinsight.net/jupyter, kde CLUSTERNAME je název vašeho clusteru.

  3. V poznámkovém bloku Jupyter vyberte Nahrát v pravém horním rohu a pak přejděte na stažený soubor a vyberte soubor CNTK_model_scoring_on_Spark_walkthrough.ipynb.

    Nahrajte poznámkový blok Jupyter do clusteru Azure HDInsight Spark.

  4. Znovu vyberte Nahrát .

  5. Po nahrání poznámkového bloku klikněte na název poznámkového bloku a postupujte podle pokynů v samotném poznámkovém bloku, jak načíst sadu dat a provést článek.

Viz také

Scénáře

Vytvoření a spouštění aplikací

Nástroje a rozšíření

Správa prostředků