Comment utiliser Azure Machine Learning Notebook sur Spark

Article
04/18/2024

Important

Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.

L'apprentissage automatique est une technologie en pleine croissance qui permet aux ordinateurs d'apprendre automatiquement à partir de données passées. L'apprentissage automatique utilise divers algorithmes pour créer des modèles mathématiques et effectuer des prédictions à l'aide de données ou d'informations historiques. Nous avons un modèle défini jusqu'à certains paramètres, et l'apprentissage est l'exécution d'un programme informatique pour optimiser les paramètres du modèle en utilisant les données d'entraînement ou l'expérience. Le modèle peut être prédictif pour faire des prédictions dans le futur, ou descriptif pour acquérir des connaissances à partir des données.

Le bloc-notes du didacticiel suivant montre un exemple de formation de modèles d’apprentissage automatique sur des données tabulaires. Vous pouvez importer ce notebook et l'exécuter vous-même.

Téléchargez le CSV dans votre stockage

Recherchez votre stockage et le nom de votre conteneur dans la vue JSON du portail
Accédez au dossier de base de votre>conteneur>de stockage>HDI principal et téléchargez le CSV
Connectez-vous à votre cluster et ouvrez le Jupyter Notebook

Importez les bibliothèques Spark MLlib pour créer le pipeline

import pyspark
from pyspark.ml import Pipeline, PipelineModel
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString

Capture d’écran montrant comment lancer l’application Spark.

Lire le CSV dans une trame de données Spark

df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)
Divisez les données pour la formation et les tests

iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

Créer le pipeline et entraîner le modèle

assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
classifier = LogisticRegression(featuresCol="features",
                                labelCol="classIndex",
                                maxIter=10,
                                regParam=0.01)

pipeline = Pipeline(stages=[assembler,indexer,classifier])
model = pipeline.fit(iris_train)

# Create a test `dataframe` with predictions from the trained model

test_model = model.transform(iris_test)

# Taking an output from the test dataframe with predictions

test_model.take(1)

Capture d’écran montrant comment exécuter le modèle de test.

Évaluer la précision du modèle

import pyspark.ml.evaluation as ev
evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')

print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))

Capture d’écran montrant comment imprimer la sortie.

Partage via

Comment utiliser Azure Machine Learning Notebook sur Spark

Téléchargez le CSV dans votre stockage

Commentaires

Commentaires

Ressources supplémentaires