Partage via


Comment utiliser Azure Machine Learning Notebook sur Spark

Important

Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.

L'apprentissage automatique est une technologie en pleine croissance qui permet aux ordinateurs d'apprendre automatiquement à partir de données passées. L'apprentissage automatique utilise divers algorithmes pour créer des modèles mathématiques et effectuer des prédictions à l'aide de données ou d'informations historiques. Nous avons un modèle défini jusqu'à certains paramètres, et l'apprentissage est l'exécution d'un programme informatique pour optimiser les paramètres du modèle en utilisant les données d'entraînement ou l'expérience. Le modèle peut être prédictif pour faire des prédictions dans le futur, ou descriptif pour acquérir des connaissances à partir des données.

Le bloc-notes du didacticiel suivant montre un exemple de formation de modèles d’apprentissage automatique sur des données tabulaires. Vous pouvez importer ce notebook et l'exécuter vous-même.

Téléchargez le CSV dans votre stockage

  1. Recherchez votre stockage et le nom de votre conteneur dans la vue JSON du portail

    Capture d’écran affichant JSON.

    Capture d’écran montrant l’aperçu JSON de ressource.

  2. Accédez au dossier de base de votre>conteneur>de stockage>HDI principal et téléchargez le CSV

    Capture d’écran montrant comment accéder au stockage et au conteneur.

    Capture d’écran montrant comment charger un fichier CSV.

  3. Connectez-vous à votre cluster et ouvrez le Jupyter Notebook

    Capture d’écran montrant Jupyter Notebook.

  4. Importez les bibliothèques Spark MLlib pour créer le pipeline

    import pyspark
    from pyspark.ml import Pipeline, PipelineModel
    from pyspark.ml.classification import LogisticRegression
    from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString
    

    Capture d’écran montrant comment lancer l’application Spark.

  5. Lire le CSV dans une trame de données Spark

    df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)

  6. Divisez les données pour la formation et les tests

    iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

  7. Créer le pipeline et entraîner le modèle

    assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
    indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
    classifier = LogisticRegression(featuresCol="features",
                                    labelCol="classIndex",
                                    maxIter=10,
                                    regParam=0.01)
    
    pipeline = Pipeline(stages=[assembler,indexer,classifier])
    model = pipeline.fit(iris_train)
    
    # Create a test `dataframe` with predictions from the trained model
    
    test_model = model.transform(iris_test)
    
    # Taking an output from the test dataframe with predictions
    
    test_model.take(1)
    

    Capture d’écran montrant comment exécuter le modèle de test.

  8. Évaluer la précision du modèle

    import pyspark.ml.evaluation as ev
    evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')
    
    print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))
    

    Capture d’écran montrant comment imprimer la sortie.