Compartir a través de


Proceso sin servidor para cuadernos

Importante

Esta característica está en versión preliminar pública. Para obtener información sobre la idoneidad y la habilitación, vea Habilitar proceso sin servidor.

En este artículo se explica cómo usar el proceso sin servidor para cuadernos. Para obtener información sobre el uso del proceso sin servidor para flujos de trabajo, consulte Ejecución del trabajo de Azure Databricks con proceso sin servidor para flujos de trabajo.

Para obtener información sobre precios, consulte Precios de Databricks.

Requisitos

Asociación de un cuaderno a un proceso sin servidor

Si el área de trabajo está habilitada para el proceso interactivo sin servidor, todos los usuarios del área de trabajo tienen acceso al proceso sin servidor para cuadernos. No se requieren permisos adicionales.

Para conectarse al proceso sin servidor, haga clic en el menú desplegable Conectar del cuaderno y seleccione Sin servidor. En el caso de los cuadernos nuevos, el proceso adjunto pasa automáticamente al modo sin servidor cuando se ejecuta el código si no se ha seleccionado ningún otro recurso.

Reinstalar dependencias de cuaderno

Puede instalar dependencias de Python para cuadernos sin servidor mediante el panel lateral Entorno, que proporciona un único lugar para editar, ver y exportar los requisitos de biblioteca de un cuaderno. Estas dependencias se pueden agregar mediante un entorno base o individualmente.

Panel de entorno sin servidor

Configuración de un entorno base

Un entorno base es un archivo YAML almacenado como un archivo de área de trabajo o en un volumen de catálogo de Unity que especifica dependencias de entorno adicionales. Los entornos base se pueden compartir entre cuadernos. Para configurar un entorno base:

  1. Cree un archivo YAML que defina la configuración de un entorno virtual de Python. En el ejemplo siguiente, YAML, que se basa en la especificación del entorno de proyectos de MLflow, se define un entorno base con algunas dependencias de biblioteca:

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - cowsay==6.1
    
  2. Cargue el archivo YAML como un archivo de área de trabajo o en un volumen de catálogo de Unity. Consulte Importación de un archivo o Carga de archivos en un volumen del Catálogo de Unity.

  3. A la derecha del cuaderno, haga clic en el botón de origen para expandir el panel Entorno. Este botón solo aparece cuando un cuaderno está conectado al proceso sin servidor.

  4. En el campo Entorno base, escriba la ruta de acceso del archivo YAML cargado o navegue hasta él y selecciónelo.

  5. Haga clic en Aplicar. Esto instala las dependencias en el entorno virtual del cuaderno y reinicia el proceso de Python.

Los usuarios pueden invalidar las dependencias especificadas en el entorno base instalando las dependencias individualmente.

Agregar dependencias individualmente

También puede instalar dependencias en un cuaderno conectado a proceso sin servidor mediante la pestaña Dependencias del panel Entorno:

  1. A la derecha del cuaderno, haga clic en el botón de origen para expandir el panel Entorno. Este botón solo aparece cuando un cuaderno está conectado al proceso sin servidor.
  2. En la sección Dependencias, haga clic en Agregar dependencia y escriba la ruta de acceso de la dependencia de biblioteca en el campo. Puede especificar una dependencia en cualquier formato que sea válido en un archivo requirements.txt.
  3. Haga clic en Aplicar. Esto instala las dependencias en el entorno virtual del cuaderno y reinicia el proceso de Python.

Nota:

Un trabajo con proceso sin servidor instalará la especificación del entorno del cuaderno antes de ejecutar el código del cuaderno. Esto significa que no es necesario agregar dependencias al programar cuadernos como trabajos. Consulte Configuración de entornos y dependencias de cuadernos.

Visualización de dependencias instaladas y registros de pip

Para ver las dependencias instaladas, haga clic en Instalado en el panel lateral Entornos de un cuaderno. Los registros de instalación de PIP para el entorno del cuaderno también están disponibles haciendo clic en Registros de Pip en la parte inferior del panel.

Restablecer el entorno

Si el cuaderno está conectado al proceso sin servidor, Databricks almacena automáticamente en caché el contenido del entorno virtual del cuaderno. Esto significa que, por lo general, no es necesario volver a instalar las dependencias de Python especificadas en el panel Entorno al abrir un cuaderno existente, incluso si se ha desconectado debido a la inactividad.

El almacenamiento en caché del entorno virtual de Python también se aplica a los trabajos. Esto significa que las ejecuciones posteriores de trabajos son más rápidas, ya que las dependencias necesarias ya están disponibles.

Nota:

Si cambia la implementación de un paquete de Python personalizado que se usa en un trabajo sin servidor, también debe actualizar su número de versión para que los trabajos recojan la implementación más reciente.

Para borrar la memoria caché del entorno y realizar una instalación nueva de las dependencias especificadas en el panel Entorno de un cuaderno conectado al proceso sin servidor, haga clic en la flecha situada junto a Aplicar y, a continuación, haga clic en Restablecer entorno.

Nota:

Restablezca el entorno virtual si instala paquetes que interrumpen o cambian el cuaderno principal o el entorno de Apache Spark. Desasociar el cuaderno del proceso sin servidor y volver a asociarlo no necesariamente borra toda la memoria caché del entorno.

Visualización de información de consulta

El proceso sin servidor para cuadernos y flujos de trabajo usa información de consulta para evaluar el rendimiento de la ejecución de Spark. Después de ejecutar una celda en un cuaderno, puede ver las conclusiones relacionadas con las consultas SQL y Python haciendo clic en el vínculo Ver rendimiento.

Mostrar el rendimiento de las consultas

Puede hacer clic en cualquiera de las instrucciones de Spark para ver las métricas de consulta. Desde allí puede hacer clic en Ver perfil de consulta para ver una visualización de la ejecución de la consulta. Para más información sobre los perfiles de consulta, consulte Perfil de consulta.

Nota:

Para ver conclusiones de rendimiento de las ejecuciones de trabajos, vea Visualización de conclusiones de consulta de ejecución de trabajos.

Historial de consulta

Todas las consultas que se ejecutan en el proceso sin servidor también se registrarán en la página del historial de consultas del área de trabajo. Para obtener información sobre el historial de consultas, consulte Historial de consultas.

Limitaciones de información de consultas

  • El perfil de consulta solo está disponible una vez finalizada la ejecución de la consulta.
  • Las métricas se actualizan en directo aunque el perfil de consulta no se muestra durante la ejecución.
  • Solo se cubren los siguientes estados de consulta: EN EJECUCIÓN, CANCELADA, FALLIDA, FINALIZADA.
  • No se pueden cancelar las consultas en ejecución desde la página del historial de consultas. Se pueden cancelar en cuadernos o trabajos.
  • Las métricas detalladas no están disponibles.
  • La descarga del perfil de consulta no está disponible.
  • El acceso a la interfaz de usuario de Spark no está disponible.
  • El texto de la instrucción solo contiene la última línea que se ejecutó. Sin embargo, puede haber varias líneas anteriores a esta línea que se ejecutaron como parte de la misma instrucción.

Limitaciones

Para ver una lista de limitaciones, consulte Limitaciones de los procesos sin servidor.