Ejecución de un cuaderno de ejemplo con Spark

Se aplica a: SQL Server 2019 (15.x)

Importante

El complemento Clústeres de macrodatos de Microsoft SQL Server 2019 se va a retirar. La compatibilidad con Clústeres de macrodatos de SQL Server 2019 finalizará el 28 de febrero de 2025. Todos los usuarios existentes de SQL Server 2019 con Software Assurance serán totalmente compatibles con la plataforma, y el software se seguirá conservando a través de actualizaciones acumulativas de SQL Server hasta ese momento. Para más información, consulte la entrada de blog sobre el anuncio y Opciones de macrodatos en la plataforma Microsoft SQL Server.

En este tutorial se muestra cómo cargar y ejecutar un cuaderno en Azure Data Studio en un clúster de macrodatos de SQL Server 2019. Esto permite a los científicos de datos e ingenieros de datos ejecutar código de Python, S o Scala en el clúster.

Sugerencia

Si lo prefiere, puede descargar y ejecutar un script con los comandos de este tutorial. Para obtener instrucciones, vea los ejemplos de Spark en GitHub.

Requisitos previos

Descargar el archivo de cuaderno de ejemplo

Siga estas instrucciones para cargar el archivo de cuaderno de ejemplo spark-sql.ipynb en Azure Data Studio.

  1. Abra un símbolo del sistema de Bash (Linux) o Windows PowerShell.

  2. Vaya al directorio donde quiera descargar el archivo del cuaderno de ejemplo.

  3. Ejecute el siguiente comando de curl para descargar el archivo del cuaderno desde GitHub:

    curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb
    

Apertura del cuaderno

En los pasos siguientes, se muestra cómo abrir el archivo del cuaderno en Azure Data Studio:

  1. En Azure Data Studio, conéctese a la instancia maestra del clúster de macrodatos. Para obtener más información, vea Conexión a un clúster de macrodatos.

  2. Haga doble clic en la conexión de la puerta de enlace de HDFS/Spark de la ventana Servidores. Después, seleccione Abrir cuaderno.

    Abrir el cuaderno

  3. Espere hasta que se rellenen el Kernel y el contexto del destino (Conectar a). Establezca el Kernel en PySpark3 y el valor de Conectar a en la dirección IP del punto de conexión del clúster de macrodatos.

    Establecer el Kernel y Conectar a

Importante

En Azure Data Studio, todos los tipos de cuadernos Spark (Scala Spark, PySpark y SparkR) definen algunas variables importantes relacionadas con la sesión de Spark tras la primera ejecución de la celda. Estas variables son spark, sc y sqlContext. Al copiar la lógica fuera de los cuadernos para el envío por lotes (en un archivo de Python que se va a ejecutar con azdata bdc spark batch create, por ejemplo), asegúrese de definir las variables en consecuencia.

Ejecutar las celdas del cuaderno

Para ejecutar cada celda del cuaderno, pulse el botón Reproducir a la izquierda de la celda. Cuando la celda termine de ejecutarse, los resultados se mostrarán en el cuaderno.

Ejecutar la celda del cuaderno

Ejecute todas las celdas del cuaderno de ejemplo en sucesión. Para obtener más información sobre el uso de cuadernos con Clústeres de macrodatos de SQL Server, vea los siguientes recursos:

Pasos siguientes

Obtenga más información sobre los cuadernos: