Presentación de Machine Learning con Spark en clústeres de macrodatos de SQL Server

Se aplica a: SQL Server 2019 (15.x)

Importante

El complemento Clústeres de macrodatos de Microsoft SQL Server 2019 se va a retirar. La compatibilidad con Clústeres de macrodatos de SQL Server 2019 finalizará el 28 de febrero de 2025. Todos los usuarios existentes de SQL Server 2019 con Software Assurance serán totalmente compatibles con la plataforma, y el software se seguirá conservando a través de actualizaciones acumulativas de SQL Server hasta ese momento. Para más información, consulte la entrada de blog sobre el anuncio y Opciones de macrodatos en la plataforma Microsoft SQL Server.

En este artículo se explica cómo usar Spark de forma eficaz para Machine Learning en Clústeres de macrodatos de SQL Server.

Machine Learning con Spark en clústeres de macrodatos de SQL Server

Los clústeres de macrodatos de SQL Server permiten escenarios y soluciones de aprendizaje automático mediante diferentes pilas de tecnología: SQL Server Machine Learning Services y Apache Spark ML.

Para comprender mejor cuándo usar cada pila de tecnología, consulte la guía de Machine Learning guía para clústeres de macrodatos de SQL Server. En esta guía trata sobre Apache Spark ML.

En escenarios de aprendizaje automático basados en macrodatos, un enfoque más rentable, escalable y eficaz es el uso de HDFS para el hospedaje de macrodatos y las funcionalidades de Apache Spark ML. Aun así, esto no es ni mucho menos una lista exhaustiva de las posibilidades de lo que se puede lograr con Spark Machine Learning; para obtener una lista completa de características, consulte: Spark MLlib.

En la sección siguiente se proporciona una lista seleccionada de escenarios y referencias para Spark en clústeres de macrodatos de SQL Server.

Bloques de creación para Machine Learning con Spark en clústeres de macrodatos de SQL Server

Learn Contenido Vínculo
Entorno de ejecución de los clústeres de macrodatos de SQL Server para Apache Spark Esto mostrará lo que se incluye con cada versión. Guía del entorno de ejecución de los clústeres de macrodatos de SQL Server para Apache Spark
El bloque de almacenamiento Cómo almacenar y usar HDFS + Spark juntos para desbloquear datos para el aprendizaje automático Presentación del bloque de almacenamiento en Clústeres de macrodatos de SQL Server
Uso de experiencias basadas en cuadernos y las herramientas de su elección Conexión del punto de conexión de Spark-Livy mediante las herramientas de su elección Envío de trabajos de Spark en Clústeres de macrodatos de SQL Server en Azure Data Studio
Envío de trabajos de Spark en un clúster de macrodatos de SQL Server en Visual Studio Code
Uso de sparklyr en clústeres de macrodatos de SQL Server
Instalación de paquetes adicionales En caso de que no se proporcione un paquete de serie, instálelo. Administración de la biblioteca de Spark
Procedimientos para solucionar problemas En caso de una interrupción Solución de problemas de un cuaderno de pyspark
Depuración y diagnóstico de aplicaciones Spark en clústeres de macrodatos de Clústeres de macrodatos de SQL Server con el servidor de historial de Spark
Envío de trabajos por lotes de aprendizaje automático Realización de entrenamiento de ML y puntuación por lotes mediante la línea de comandos Envío de trabajos de Spark mediante herramientas de línea de comandos
Cómo mover rápidamente datos entre SQL Server y Spark Haga SQL Server el origen o destino para los escenarios de Spark ML. El uso de HDFS no es obligatorio. Uso del conector de Apache Spark para SQL Server y Azure SQL
Operacionalización del modelo de Spark Después del entrenamiento, operacionalice mediante MLeap. Creación, exportación y puntuación de modelos de Machine Learning con Spark en Clústeres de macrodatos de SQL Server
Limpieza y transformación de datos Junto con las eficaces funcionalidades de limpieza y transformación de datos de Spark, se incluye PROSE. Limpieza y transformación de datos mediante el acelerador de código PROSE

Pasos siguientes

Para obtener más información, consulte Presentación de Clústeres de macrodatos de SQL Server.