Bagikan melalui


Cara menggunakan Azure Pembelajaran Mesin Notebook di Spark

Catatan

Kami akan menghentikan Azure HDInsight di AKS pada 31 Januari 2025. Sebelum 31 Januari 2025, Anda harus memigrasikan beban kerja anda ke Microsoft Fabric atau produk Azure yang setara untuk menghindari penghentian tiba-tiba beban kerja Anda. Kluster yang tersisa pada langganan Anda akan dihentikan dan dihapus dari host.

Hanya dukungan dasar yang akan tersedia hingga tanggal penghentian.

Penting

Fitur ini masih dalam mode pratinjau. Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure mencakup lebih banyak persyaratan hukum yang berlaku untuk fitur Azure yang dalam versi beta, dalam pratinjau, atau belum dirilis ke ketersediaan umum. Untuk informasi tentang pratinjau khusus ini, lihat Azure HDInsight pada informasi pratinjau AKS. Untuk pertanyaan atau saran fitur, kirimkan permintaan di AskHDInsight dengan detail dan ikuti kami untuk pembaruan lebih lanjut di Komunitas Azure HDInsight.

Pembelajaran mesin adalah teknologi yang berkembang, yang memungkinkan komputer belajar secara otomatis dari data sebelumnya. Pembelajaran mesin menggunakan berbagai algoritma untuk membangun model matematika dan membuat prediksi menggunakan data atau informasi historis. Kami memiliki model yang ditentukan hingga beberapa parameter, dan pembelajaran adalah eksekusi program komputer untuk mengoptimalkan parameter model menggunakan data atau pengalaman pelatihan. Model ini mungkin prediktif untuk membuat prediksi di masa depan, atau deskriptif untuk mendapatkan pengetahuan dari data.

Buku catatan tutorial berikut menunjukkan contoh melatih model pembelajaran mesin pada data tabular. Anda bisa mengimpor buku catatan ini dan menjalankannya sendiri.

Mengunggah CSV ke penyimpanan Anda

  1. Temukan nama penyimpanan dan kontainer Anda di tampilan JSON portal

    Cuplikan layar memperlihatkan tampilan JSON.

  2. Navigasi ke folder> dasar kontainer>penyimpanan>HDI utama Anda unggah CSV

    Cuplikan layar memperlihatkan cara menavigasi ke penyimpanan dan kontainer.

    Cuplikan layar memperlihatkan cara mengunggah file CSV.

  3. Masuk ke kluster Anda dan buka Jupyter Notebook

    Cuplikan layar memperlihatkan Jupyter Notebook.

  4. Mengimpor Pustaka Spark MLlib untuk membuat alur

    import pyspark
    from pyspark.ml import Pipeline, PipelineModel
    from pyspark.ml.classification import LogisticRegression
    from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString
    

    Cuplikan layar memperlihatkan cara memulai aplikasi spark.

  5. Membaca CSV ke dalam kerangka data Spark

    df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)

  6. Membagi data untuk pelatihan dan pengujian

    iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

  7. Membuat alur dan melatih model

    assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
    indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
    classifier = LogisticRegression(featuresCol="features",
                                    labelCol="classIndex",
                                    maxIter=10,
                                    regParam=0.01)
    
    pipeline = Pipeline(stages=[assembler,indexer,classifier])
    model = pipeline.fit(iris_train)
    
    # Create a test `dataframe` with predictions from the trained model
    
    test_model = model.transform(iris_test)
    
    # Taking an output from the test dataframe with predictions
    
    test_model.take(1)
    

    Cuplikan layar memperlihatkan cara menjalankan model pengujian.

  8. Mengevaluasi akurasi model

    import pyspark.ml.evaluation as ev
    evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')
    
    print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))
    

    Cuplikan layar memperlihatkan cara mencetak output.