Partekatu honen bidez:


Uso de Azure Machine Learning Notebook en Spark

Importante

Azure HDInsight en AKS se retiró el 31 de enero de 2025. Descubra más a través de este anuncio.

Debe migrar las cargas de trabajo a microsoft Fabric o un producto equivalente de Azure para evitar la terminación repentina de las cargas de trabajo.

Importante

Esta característica está actualmente en versión preliminar. Los Términos de uso complementarios para las versiones preliminares de Microsoft Azure incluyen más términos legales que se aplican a las características de Azure que se encuentran en versión beta, en versión preliminar o, de lo contrario, aún no se han publicado en disponibilidad general. Para obtener información sobre esta versión preliminar específica, consulte información de la versión preliminar de Azure HDInsight en AKS. Para preguntas o sugerencias de características, envíe una solicitud en AskHDInsight con los detalles y síganos para obtener más actualizaciones sobre Comunidad de Azure HDInsight.

El aprendizaje automático es una tecnología creciente, que permite a los equipos aprender automáticamente de los datos anteriores. El aprendizaje automático usa varios algoritmos para crear modelos matemáticos y realizar predicciones que usan datos históricos o información. Tenemos un modelo definido hasta algunos parámetros y el aprendizaje es la ejecución de un programa informático para optimizar los parámetros del modelo mediante los datos de entrenamiento o la experiencia. El modelo puede ser predictivo para realizar predicciones en el futuro o descriptivas para obtener conocimiento de los datos.

En el siguiente cuaderno del tutorial se muestra un ejemplo de entrenamiento de modelos de aprendizaje automático en datos tabulares. Puede importar este cuaderno y ejecutarlo usted mismo.

Sube el archivo CSV en tu almacenamiento

  1. Encuentra tu almacenamiento y nombre del contenedor en la vista JSON del portal

    Captura de pantalla que muestra la vista JSON.

  2. Vaya al almacenamiento HDI principal>, carpeta base de>,>, y cargue el archivo CSV ,

    Captura de pantalla que muestra cómo navegar al almacenamiento y al contenedor.

    Captura de pantalla que muestra cómo cargar el archivo CSV.

  3. Inicie sesión en el clúster y abra Jupyter Notebook.

    Captura de pantalla que muestra Jupyter Notebook.

  4. Importación de bibliotecas de Spark MLlib para crear la canalización

    import pyspark
    from pyspark.ml import Pipeline, PipelineModel
    from pyspark.ml.classification import LogisticRegression
    from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString
    

    Captura de pantalla que muestra cómo iniciar la aplicación spark.

  5. Lectura del archivo CSV en un dataframe de Spark

    df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)

  6. Dividir los datos para el entrenamiento y las pruebas

    iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

  7. Creación de la canalización y entrenamiento del modelo

    assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
    indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
    classifier = LogisticRegression(featuresCol="features",
                                    labelCol="classIndex",
                                    maxIter=10,
                                    regParam=0.01)
    
    pipeline = Pipeline(stages=[assembler,indexer,classifier])
    model = pipeline.fit(iris_train)
    
    # Create a test `dataframe` with predictions from the trained model
    
    test_model = model.transform(iris_test)
    
    # Taking an output from the test dataframe with predictions
    
    test_model.take(1)
    

    Captura de pantalla que muestra cómo ejecutar el modelo de prueba.

  8. Evaluación de la precisión del modelo

    import pyspark.ml.evaluation as ev
    evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')
    
    print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))
    

    Captura de pantalla que muestra cómo imprimir la salida.