كيفية استخدام دفتر ملاحظات Azure التعلم الآلي على Spark
إشعار
سنتقاعد Azure HDInsight على AKS في 31 يناير 2025. قبل 31 يناير 2025، ستحتاج إلى ترحيل أحمال العمل الخاصة بك إلى Microsoft Fabric أو منتج Azure مكافئ لتجنب الإنهاء المفاجئ لأحمال العمل الخاصة بك. سيتم إيقاف المجموعات المتبقية على اشتراكك وإزالتها من المضيف.
هام
هذه الميزة في وضع المعاينة حاليًا. تتضمن شروط الاستخدام التكميلية لمعاينات Microsoft Azure المزيد من الشروط القانونية التي تنطبق على ميزات Azure الموجودة في الإصدار التجريبي أو قيد المعاينة أو التي لم يتم إصدارها بعد في التوفر العام. للحصول على معلومات حول هذه المعاينة المحددة، راجع معلومات معاينة Azure HDInsight على AKS. للأسئلة أو اقتراحات الميزات، يرجى إرسال طلب على AskHDInsight مع التفاصيل ومتابعتنا لمزيد من التحديثات على مجتمع Azure HDInsight.
التعلم الآلي هو تقنية متنامية، والتي تمكن أجهزة الكمبيوتر من التعلم تلقائيا من البيانات السابقة. يستخدم التعلم الآلي خوارزميات مختلفة لبناء نماذج رياضية وجعل التنبؤات تستخدم البيانات أو المعلومات التاريخية. لدينا نموذج محدد لبعض المعلمات، والتعلم هو تنفيذ برنامج كمبيوتر لتحسين معلمات النموذج باستخدام بيانات التدريب أو التجربة. قد يكون النموذج تنبؤيا لإجراء تنبؤات في المستقبل، أو وصفيا لاكتساب المعرفة من البيانات.
يعرض دفتر الملاحظات التعليمي التالي مثالا على تدريب نماذج التعلم الآلي على البيانات الجدولية. يمكنك استيراد دفتر الملاحظات هذا وتشغيله بنفسك.
تحميل CSV إلى التخزين الخاص بك
ابحث عن اسم التخزين والحاوية في طريقة عرض JSON للمدخل
انتقل إلى المجلد> الأساسي لحاوية>تخزين>HDI تحميل CSV
سجل الدخول إلى نظام المجموعة وافتح Jupyter Notebook
استيراد مكتبات Spark MLlib لإنشاء البنية الأساسية لبرنامج ربط العمليات التجارية
import pyspark from pyspark.ml import Pipeline, PipelineModel from pyspark.ml.classification import LogisticRegression from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString
قراءة CSV في إطار بيانات Spark
df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)
تقسيم البيانات للتدريب والاختبار
iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)
إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية وتدريب النموذج
assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip") indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip") classifier = LogisticRegression(featuresCol="features", labelCol="classIndex", maxIter=10, regParam=0.01) pipeline = Pipeline(stages=[assembler,indexer,classifier]) model = pipeline.fit(iris_train) # Create a test `dataframe` with predictions from the trained model test_model = model.transform(iris_test) # Taking an output from the test dataframe with predictions test_model.take(1)
تقييم دقة النموذج
import pyspark.ml.evaluation as ev evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex') print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))