Gunakan model pembelajaran mendalam Microsoft Cognitive Toolkit dengan kluster Microsoft Azure HDInsight Spark
Dalam artikel ini, Anda melakukan langkah-langkah berikut.
Menjalankan skrip kustom untuk menginstal Microsoft Cognitive Toolkit pada klaster Azure HDInsight Spark.
Mengunggah Jupyter Notebook ke klaster Apache Spark untuk melihat cara menerapkan model pembelajaran mendalam Microsoft Cognitive Toolkit terlatih ke file di Akun Azure Blob Storage menggunakan API Spark Python (PySpark)
Prasyarat
Klaster Apache Spark pada HDInsight. Lihat Buat kluster Apache Spark.
Terbiasa menggunakan Jupyter Notebook dengan Spark di Microsoft Azure HDInsight. Untuk informasi selengkapnya, lihat Muat data dan menjalankan kueri dengan Apache Spark di Microsoft Azure HDInsight.
Bagaimana alur solusi ini?
Solusi ini dibagi antara artikel ini dan Jupyter Notebook yang Anda unggah sebagai bagian dari artikel ini. Dalam artikel ini, Anda menyelesaikan langkah-langkah berikut:
- Menjalankan tindakan skrip pada klaster HDInsight Spark untuk menginstal paket Microsoft Cognitive Toolkit dan Python.
- Mengunggah Jupyter Notebook yang menjalankan solusi ke klaster HDInsight Spark.
Langkah-langkah tersisa berikut dibahas di Jupyter Notebook.
- Memuat gambar sampel ke dalam Spark Resilient Distributed Dataset atau RDD.
- Memuat modul dan menentukan preset.
- Mengunduh himpunan data secara lokal di klaster Spark.
- Mengonversi himpunan data menjadi RDD.
- Mencetak gambar menggunakan model Cognitive Toolkit terlatih.
- Mengunduh model Cognitive Toolkit terlatih ke klaster Spark.
- Menentukan fungsi yang akan digunakan oleh node pekerja.
- Mencetak gambar pada node pekerja.
- Mengevaluasi akurasi model.
Menginstal Microsoft Cognitive Toolkit
Anda dapat menginstal Microsoft Cognitive Toolkit pada klaster Spark menggunakan tindakan skrip. Tindakan skrip menggunakan skrip kustom untuk menginstal komponen pada klaster yang tidak tersedia secara default. Anda bisa menggunakan skrip kustom dari portal Microsoft Azure, dengan menggunakan HDInsight .NET SDK, atau dengan menggunakan Azure PowerShell. Anda juga dapat menggunakan skrip untuk menginstal toolkit baik sebagai bagian dari pembuatan klaster atau setelah klaster berjalan.
Dalam artikel ini, kami menggunakan portal untuk menginstal toolkit setelah klaster dibuat. Untuk cara lain menjalankan skrip kustom, lihat Kustomisasi klaster HDInsight menggunakan Tindakan Skrip.
Menggunakan portal Azure
Untuk instruksi tentang cara menggunakan portal Microsoft Azure untuk menjalankan tindakan skrip, lihat Kustomisasi klaster HDInsight menggunakan Tindakan Skrip. Pastikan Anda menyediakan input berikut untuk menginstal Microsoft Cognitive Toolkit. Gunakan nilai berikut untuk tindakan skrip Anda:
Properti | Nilai |
---|---|
Jenis skrip | - Kustom |
Nama | Instal MCT |
URI skrip bash | https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh |
Jenis node: | Kepala, Pekerja |
Parameter | Tidak |
Mengunggah Jupyter Notebook ke klaster Azure HDInsight Spark
Untuk menggunakan Microsoft Cognitive Toolkit dengan klaster Azure HDInsight Spark, Anda harus memuat CNTK_model_scoring_on_Spark_walkthrough.ipynb Jupyter Notebook ke klaster Azure HDInsight Spark. Notebook ini tersedia di GitHub pada https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.
Unduh dan dekompres https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.
Dari browser web, arahkan ke
https://CLUSTERNAME.azurehdinsight.net/jupyter
, di manaCLUSTERNAME
merupakan nama kluster Anda.Dari Jupyter Notebook, pilih Unggah di sudut kanan atas lalu arahkan ke unduhan dan pilih file
CNTK_model_scoring_on_Spark_walkthrough.ipynb
.Pilih Unggah lagi.
Setelah notebook diunggah, klik nama notebook lalu ikuti instruksi di notebook itu sendiri tentang cara memuat himpunan data dan melakukan artikel.
Lihat juga
Skenario
- Apache Spark dengan BI: Melakukan analisis data interaktif menggunakan Spark di HDInsight dengan alat BI
- Apache Spark dengan Pembelajaran Mesin: Menggunakan Apache Spark di HDInsight untuk menganalisis suhu bangunan menggunakan data HVAC
- Apache Spark dengan Pembelajaran Mesin: Menggunakan Spark di Microsoft Azure HDInsight untuk memprediksi hasil pemeriksaan makanan
- Analisis log situs web menggunakan Apache Spark di HDInsight
- Analisis data telemetri Application Insight menggunakan Apache Spark di HDInsight
Membuat dan menjalankan aplikasi
- Membuat aplikasi mandiri menggunakan Scala
- Jalankan pekerjaan dari jarak jauh pada kluster Apache Spark menggunakan Apache Livy
Alat dan ekstensi
- Menggunakan HDInsight Tools Plugin untuk IntelliJ IDEA untuk membuat dan mengirimkan aplikasi Spark Scala
- Menggunakan Plugin Alat Microsoft Azure HDInsight untuk IntelliJ IDEA untuk men-debug aplikasi Apache Spark dari jarak jauh
- Menggunakan notebook Apache Zeppelin dengan Apache Spark pada Microsoft Azure HDInsight
- Kernel tersedia untuk Jupyter Notebook di kluster Apache Spark untuk Microsoft Azure HDInsight
- Menggunakan paket eksternal dengan Jupyter Notebooks
- Pasang Jupyter di komputer Anda dan sambungkan ke kluster Microsoft Azure HDInsight Spark