Compartir a través de


Recursos de proceso de cuaderno

En este artículo se describen las opciones de los recursos de proceso de cuadernos. Puede ejecutar un cuaderno en un recurso de cómputo de propósito general, cómputo sin servidor o, para comandos SQL, puede usar un almacén de SQL, un tipo de recurso optimizado para análisis SQL. Para más información sobre los tipos de proceso, consulte Proceso.

Proceso sin servidor para cuadernos

El proceso sin servidor le permite conectar su cuaderno rápidamente a recursos informáticos a petición.

Para conectarse al proceso sin servidor, haga clic en el menú desplegable Conectar del cuaderno y seleccione Sin servidor.

Consulte Proceso sin servidor para cuadernos para obtener más información.

Restauración automatizada de sesiones para cuadernos sin servidor

La terminación inactiva del proceso sin servidor puede hacer que pierda el trabajo en curso, como los valores de las variables de Python, en los cuadernos. Para evitar esto, habilite la restauración de sesión automatizada para cuadernos sin servidor.

  1. Haga clic en el nombre de usuario en la esquina superior derecha del área de trabajo y, a continuación, haga clic en Configuración en la lista desplegable.
  2. En la barra lateral Configuración, seleccione Desarrollador.
  3. En Características experimentales, active la opción Restauración de sesión automatizada para cuadernos sin servidor .

Al habilitar esta configuración, Databricks puede hacer una instantánea del estado de memoria del notebook sin servidor antes de la terminación por inactividad. Cuando vuelva a un cuaderno después de una desconexión inactiva, aparecerá un banner en la parte superior de la página. Haga clic en Volver a conectar para restaurar el estado de trabajo.

Al volver a conectarse, Databricks restablece todo el entorno de trabajo, lo que incluye:

  • Variables, funciones y definiciones de clase de Python: se conserva el lado de Python del cuaderno, por lo que no es necesario volver a importar ni volver a declarar.
  • Tramas de datos de Spark, vistas almacenadas en caché y temporales: se conservan los datos cargados, transformados o almacenados en caché (incluidas las vistas temporales), por lo que se evitan costosas recargas o recomputaciones.
  • Estado de sesión de Spark: se guardan todas las opciones de configuración de nivel de Spark, vistas temporales, modificaciones de catálogo y funciones definidas por el usuario (UDF), por lo que no es necesario restablecerlas.

Esta característica tiene limitaciones y no admite la restauración de lo siguiente:

  • Estados de Spark anteriores a 4 días
  • Estados de Spark de más de 50 MB
  • Datos relacionados con scripts de SQL
  • Identificadores de archivo
  • Bloqueos y otros primitivos de simultaneidad
  • Conexiones de red

Adjuntar un cuaderno a un recurso de cómputo de propósito general

Para asociar un cuaderno a un recurso de cálculo de propósito general, necesita el permiso CAN ATTACH TO en el recurso de cálculo.

Importante

Siempre que un cuaderno esté asociado a un recurso de proceso, cualquier usuario con el permiso CAN RUN en el cuaderno tenga permiso implícito para acceder al recurso de proceso.

Para asociar un cuaderno a un recurso de proceso, haga clic en el selector de proceso de la barra de herramientas del cuaderno y seleccione el recurso en el menú desplegable.

El menú muestra una selección de los almacenes de cálculo y almacenes SQL versátiles que ha utilizado recientemente o que están funcionando actualmente.

Asociar cuaderno

Para seleccionar entre todos los procesos disponibles, haga clic en Más.... Seleccione uno de los almacenes de computación general o SQL disponibles.

Cuadro de diálogo más clústeres

También puede crear un nuevo recurso computacional de propósito general seleccionando Crear nuevo recurso... en el menú desplegable.

Importante

Un cuaderno asociado tiene definidas las siguientes variables de Apache Spark.

Clase Nombre de variable
SparkContext sc
SQLContext/HiveContext sqlContext
SparkSession (Spark 2.x) spark

No cree SparkSession, SparkContext ni SQLContext. De lo contrario, dará lugar a un comportamiento incoherente.

Uso de un cuaderno con un almacenamiento SQL

Cuando un cuaderno está asociado a un almacenamiento SQL, puede ejecutar celdas SQL y de Markdown. La ejecución de una celda en cualquier otro lenguaje (como Python o R) produce un error. Las celdas SQL ejecutadas en un almacén de SQL aparecen en el historial de consultas de SQL Warehouse. El usuario que ejecutó una consulta puede ver el perfil de la consulta desde el cuaderno haciendo clic en el tiempo transcurrido en la parte inferior de la salida.

Los cuadernos conectados a SQL Warehouse admiten sesiones de SQL Warehouse, que permiten definir variables, crear vistas temporales y conservar el estado entre varias ejecuciones de consultas. Esto le permite compilar lógica de SQL de forma iterativa sin necesidad de ejecutar todas las instrucciones a la vez. Consulte ¿Qué son las sesiones de SQL Warehouse?.

La ejecución de un cuaderno requiere un almacenamiento SQL profesional o sin servidor. Debe tener acceso al área de trabajo y al almacenamiento SQL.

Para asociar un cuaderno a un almacenamiento SQL, haga lo siguiente:

  1. Haga clic en el selector de proceso en la barra de herramientas del cuaderno. El menú desplegable muestra los recursos de proceso que se están ejecutando actualmente o que se han usado recientemente. Los almacenamientos SQL están marcados con la etiqueta de almacenamiento SQL.

  2. En el menú, seleccione un almacenamiento SQL.

    Para ver todos los almacenamientos SQL disponibles, seleccione Más… en el menú desplegable. Aparece un cuadro de diálogo que muestra los recursos de proceso disponibles para el cuaderno. Seleccione SQL Warehouse (Almacenamiento SQL), elija el almacenamiento que quiere usar y haga clic en Asociar.

    Diálogo de más clústeres con SQL Warehouse (Almacenamiento SQL) seleccionado

También puede seleccionar una instancia de SQL Warehouse como recurso de proceso para un cuaderno de SQL al crear un flujo de trabajo o un trabajo programado.

Limitaciones de los almacenes SQL

Consulte Limitaciones conocidas de los cuadernos de Databricks para obtener más información.