Entrenamiento de modelos de Machine Learning

Apache Spark en Microsoft Fabric permite el aprendizaje automático con macrodatos, lo que proporciona la capacidad de obtener información valiosa de grandes cantidades de datos estructurados, no estructurados y en rápido movimiento. Existen varias opciones cuando se entrenan modelos de aprendizaje automático mediante Azure Spark en Microsoft Fabric: Apache Spark MLlib, SynapseML y otras bibliotecas de código abierto.

Apache SparkML y MLlib

Apache Spark en Microsoft Fabric proporciona un marco de procesamiento datos paralelos de código abierto y unificado que admite el procesamiento en memoria para agilizar el análisis de macrodatos. El motor de procesamiento Spark se ha creado para ofrecer velocidad, facilidad de uso y análisis sofisticados. Las capacidades de cálculo distribuido en memoria de Spark lo convierten en una buena opción para algoritmos iterativos en los cálculos de gráficos y aprendizaje automático.

Hay dos bibliotecas escalables de aprendizaje automático que ofrecen las funcionalidades del modelado algorítmico a este entorno distribuido: MLlib y SparkML. MLlib contiene la API original que se basa en RDD. SparkML es un paquete más reciente que proporciona una API de nivel más alto que se basa en DataFrames para construir canalizaciones ML. SparkML aún no admite todas las características de MLlib, pero está reemplazándola como biblioteca de aprendizaje automático estándar de Spark.

Nota:

Puede obtener más información sobre cómo crear un modelo de SparkML en el artículo Entrenamiento de modelos con Apache Spark MLlib.

El runtime de Microsoft Fabric para Apache Spark incluye varios paquetes populares de código abierto para entrenar modelos de aprendizaje automático. Estas bibliotecas proporcionan código reutilizable que se puede incluir en los programas o proyectos. Estas son algunas de las bibliotecas de aprendizaje automático pertinentes que se incluyen de forma predeterminada:

  • Scikit-learn es una de las bibliotecas de aprendizaje automático de nodo único más populares para algoritmos de Machine Learning clásicos. Scikit-learn admite la mayoría de los algoritmos de aprendizaje supervisados y no supervisados y también se puede usar para la minería y el análisis de datos.

  • XGBoost es una conocida biblioteca de aprendizaje automático que contiene algoritmos optimizados para el entrenamiento de árboles de decisión y bosques aleatorios.

  • PyTorch y Tensorflow son eficaces bibliotecas de aprendizaje profundo de Python. Puede usar estas bibliotecas para compilar modelos de máquina única estableciendo el número de ejecutores del grupo en cero. Aunque Apache Spark no funciona con esta configuración, es una manera sencilla y barata de crear modelos de máquina única.

SynapseML

SynapseML (anteriormente conocida como MMLSpark) es una biblioteca de código abierto que simplifica la creación de canalizaciones de aprendizaje automático (ML) escalables de forma masiva. Esta biblioteca se ha diseñado para que los científicos de datos sean más productivos en Spark, aumenten la velocidad de experimentación y aprovechen las técnicas de aprendizaje automático de vanguardia,como el aprendizaje profundo, en conjuntos de datos grandes.

SynapseML proporciona una capa sobre las API de bajo nivel de SparkML cuando se crean modelos de aprendizaje automático escalables, como las cadenas de indexación, la conversión de datos en un diseño esperado por los algoritmos de aprendizaje automático y el ensamblado de vectores de características. La biblioteca SynapseML simplifica estas y otras tareas comunes para la creación de modelos en PySpark.

En este artículo, se proporciona información general sobre las distintas opciones para entrenar modelos de aprendizaje automático con Apache Spark en Microsoft Fabric. Para más información sobre el entrenamiento de modelos, siga este tutorial: