كيفية استخدام دفتر ملاحظات Azure التعلم الآلي على Spark

مقالة
09/24/2024

إشعار

سنتقاعد Azure HDInsight على AKS في 31 يناير 2025. قبل 31 يناير 2025، ستحتاج إلى ترحيل أحمال العمل الخاصة بك إلى Microsoft Fabric أو منتج Azure مكافئ لتجنب الإنهاء المفاجئ لأحمال العمل الخاصة بك. سيتم إيقاف المجموعات المتبقية على اشتراكك وإزالتها من المضيف.

هام

هذه الميزة في وضع المعاينة حاليًا. تتضمن شروط الاستخدام التكميلية لمعاينات Microsoft Azure المزيد من الشروط القانونية التي تنطبق على ميزات Azure الموجودة في الإصدار التجريبي أو قيد المعاينة أو التي لم يتم إصدارها بعد في التوفر العام. للحصول على معلومات حول هذه المعاينة المحددة، راجع معلومات معاينة Azure HDInsight على AKS. للأسئلة أو اقتراحات الميزات، يرجى إرسال طلب على AskHDInsight مع التفاصيل ومتابعتنا لمزيد من التحديثات على مجتمع Azure HDInsight.

التعلم الآلي هو تقنية متنامية، والتي تمكن أجهزة الكمبيوتر من التعلم تلقائيا من البيانات السابقة. يستخدم التعلم الآلي خوارزميات مختلفة لبناء نماذج رياضية وجعل التنبؤات تستخدم البيانات أو المعلومات التاريخية. لدينا نموذج محدد لبعض المعلمات، والتعلم هو تنفيذ برنامج كمبيوتر لتحسين معلمات النموذج باستخدام بيانات التدريب أو التجربة. قد يكون النموذج تنبؤيا لإجراء تنبؤات في المستقبل، أو وصفيا لاكتساب المعرفة من البيانات.

يعرض دفتر الملاحظات التعليمي التالي مثالا على تدريب نماذج التعلم الآلي على البيانات الجدولية. يمكنك استيراد دفتر الملاحظات هذا وتشغيله بنفسك.

تحميل CSV إلى التخزين الخاص بك

ابحث عن اسم التخزين والحاوية في طريقة عرض JSON للمدخل
انتقل إلى المجلد> الأساسي لحاوية>تخزين>HDI تحميل CSV
سجل الدخول إلى نظام المجموعة وافتح Jupyter Notebook

استيراد مكتبات Spark MLlib لإنشاء البنية الأساسية لبرنامج ربط العمليات التجارية

import pyspark
from pyspark.ml import Pipeline, PipelineModel
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString

لقطة شاشة توضح كيفية بدء تشغيل تطبيق spark.

قراءة CSV في إطار بيانات Spark

df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)
تقسيم البيانات للتدريب والاختبار

iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية وتدريب النموذج

assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
classifier = LogisticRegression(featuresCol="features",
                                labelCol="classIndex",
                                maxIter=10,
                                regParam=0.01)

pipeline = Pipeline(stages=[assembler,indexer,classifier])
model = pipeline.fit(iris_train)

# Create a test `dataframe` with predictions from the trained model

test_model = model.transform(iris_test)

# Taking an output from the test dataframe with predictions

test_model.take(1)

لقطة شاشة توضح كيفية تشغيل نموذج الاختبار.

تقييم دقة النموذج

import pyspark.ml.evaluation as ev
evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')

print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))

لقطة شاشة توضح كيفية طباعة الإخراج.

مشاركة عبر

كيفية استخدام دفتر ملاحظات Azure التعلم الآلي على Spark

تحميل CSV إلى التخزين الخاص بك

الملاحظات

الموارد الإضافية