Cara menggunakan Azure Pembelajaran Mesin Notebook di Spark

Artikel
10/30/2023

Penting

Fitur ini masih dalam mode pratinjau. Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure mencakup lebih banyak persyaratan hukum yang berlaku untuk fitur Azure yang dalam versi beta, dalam pratinjau, atau belum dirilis ke ketersediaan umum. Untuk informasi tentang pratinjau khusus ini, lihat Azure HDInsight pada informasi pratinjau AKS. Untuk pertanyaan atau saran fitur, kirimkan permintaan di AskHDInsight dengan detail dan ikuti kami untuk pembaruan lebih lanjut di Komunitas Azure HDInsight.

Pembelajaran mesin adalah teknologi yang berkembang, yang memungkinkan komputer belajar secara otomatis dari data sebelumnya. Pembelajaran mesin menggunakan berbagai algoritma untuk membangun model matematika dan membuat prediksi menggunakan data atau informasi historis. Kami memiliki model yang ditentukan hingga beberapa parameter, dan pembelajaran adalah eksekusi program komputer untuk mengoptimalkan parameter model menggunakan data atau pengalaman pelatihan. Model ini mungkin prediktif untuk membuat prediksi di masa depan, atau deskriptif untuk mendapatkan pengetahuan dari data.

Buku catatan tutorial berikut menunjukkan contoh melatih model pembelajaran mesin pada data tabular. Anda bisa mengimpor buku catatan ini dan menjalankannya sendiri.

Mengunggah CSV ke penyimpanan Anda

Temukan nama penyimpanan dan kontainer Anda di tampilan JSON portal
Navigasi ke folder> dasar kontainer>penyimpanan>HDI utama Anda unggah CSV
Masuk ke kluster Anda dan buka Jupyter Notebook

Mengimpor Pustaka Spark MLlib untuk membuat alur

import pyspark
from pyspark.ml import Pipeline, PipelineModel
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString

Cuplikan layar memperlihatkan cara memulai aplikasi spark.

Membaca CSV ke dalam kerangka data Spark

df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)
Membagi data untuk pelatihan dan pengujian

iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

Membuat alur dan melatih model

assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
classifier = LogisticRegression(featuresCol="features",
                                labelCol="classIndex",
                                maxIter=10,
                                regParam=0.01)

pipeline = Pipeline(stages=[assembler,indexer,classifier])
model = pipeline.fit(iris_train)

# Create a test `dataframe` with predictions from the trained model

test_model = model.transform(iris_test)

# Taking an output from the test dataframe with predictions

test_model.take(1)

Cuplikan layar memperlihatkan cara menjalankan model pengujian.

Mengevaluasi akurasi model

import pyspark.ml.evaluation as ev
evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')

print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))

Cuplikan layar memperlihatkan cara mencetak output.

Bagikan melalui

Cara menggunakan Azure Pembelajaran Mesin Notebook di Spark

Mengunggah CSV ke penyimpanan Anda

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: