Cara menggunakan Azure Pembelajaran Mesin Notebook di Spark
Catatan
Kami akan menghentikan Azure HDInsight di AKS pada 31 Januari 2025. Sebelum 31 Januari 2025, Anda harus memigrasikan beban kerja anda ke Microsoft Fabric atau produk Azure yang setara untuk menghindari penghentian tiba-tiba beban kerja Anda. Kluster yang tersisa pada langganan Anda akan dihentikan dan dihapus dari host.
Hanya dukungan dasar yang akan tersedia hingga tanggal penghentian.
Penting
Fitur ini masih dalam mode pratinjau. Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure mencakup lebih banyak persyaratan hukum yang berlaku untuk fitur Azure yang dalam versi beta, dalam pratinjau, atau belum dirilis ke ketersediaan umum. Untuk informasi tentang pratinjau khusus ini, lihat Azure HDInsight pada informasi pratinjau AKS. Untuk pertanyaan atau saran fitur, kirimkan permintaan di AskHDInsight dengan detail dan ikuti kami untuk pembaruan lebih lanjut di Komunitas Azure HDInsight.
Pembelajaran mesin adalah teknologi yang berkembang, yang memungkinkan komputer belajar secara otomatis dari data sebelumnya. Pembelajaran mesin menggunakan berbagai algoritma untuk membangun model matematika dan membuat prediksi menggunakan data atau informasi historis. Kami memiliki model yang ditentukan hingga beberapa parameter, dan pembelajaran adalah eksekusi program komputer untuk mengoptimalkan parameter model menggunakan data atau pengalaman pelatihan. Model ini mungkin prediktif untuk membuat prediksi di masa depan, atau deskriptif untuk mendapatkan pengetahuan dari data.
Buku catatan tutorial berikut menunjukkan contoh melatih model pembelajaran mesin pada data tabular. Anda bisa mengimpor buku catatan ini dan menjalankannya sendiri.
Mengunggah CSV ke penyimpanan Anda
Temukan nama penyimpanan dan kontainer Anda di tampilan JSON portal
Navigasi ke folder> dasar kontainer>penyimpanan>HDI utama Anda unggah CSV
Masuk ke kluster Anda dan buka Jupyter Notebook
Mengimpor Pustaka Spark MLlib untuk membuat alur
import pyspark from pyspark.ml import Pipeline, PipelineModel from pyspark.ml.classification import LogisticRegression from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString
Membaca CSV ke dalam kerangka data Spark
df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)
Membagi data untuk pelatihan dan pengujian
iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)
Membuat alur dan melatih model
assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip") indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip") classifier = LogisticRegression(featuresCol="features", labelCol="classIndex", maxIter=10, regParam=0.01) pipeline = Pipeline(stages=[assembler,indexer,classifier]) model = pipeline.fit(iris_train) # Create a test `dataframe` with predictions from the trained model test_model = model.transform(iris_test) # Taking an output from the test dataframe with predictions test_model.take(1)
Mengevaluasi akurasi model
import pyspark.ml.evaluation as ev evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex') print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))