Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se explica cómo usar el panel lateral de entorno de un notebook sin servidor para configurar dependencias, políticas de presupuesto para funciones sin servidor, memoria y versión del entorno. Este panel proporciona un único lugar para administrar la configuración sin servidor del cuaderno. Las opciones configuradas en este panel solo se aplican cuando el cuaderno está conectado al proceso sin servidor.
Para expandir el panel lateral Entorno , haga clic en el botón situado a la derecha del cuaderno.
Para obtener información sobre cómo configurar las opciones de entorno en tareas de trabajo que no son de cuaderno, consulte Configuración del entorno para tareas de trabajo que no son de cuaderno.
Uso de computación sin servidor con alta capacidad de memoria
Importante
Esta característica está en versión preliminar pública.
Si se producen errores de memoria insuficiente en el cuaderno, puede configurar el cuaderno para que use un tamaño de memoria mayor. Esta configuración aumenta el tamaño de la memoria REPL que se usa al ejecutar código en el cuaderno. No afecta al tamaño de memoria de la sesión de Spark. El uso sin servidor con memoria alta tiene una tasa de emisión de DBU mayor que la memoria estándar.
- En la interfaz de usuario del cuaderno, haga clic en el panel lateral Entorno
.
- En Memoria, seleccione Memoria Alta.
- Haga clic en Aplicar.
Esta configuración también se aplica a las tareas de trabajo del cuaderno, que se ejecutan con las preferencias de memoria del cuaderno. La actualización de la preferencia de memoria en el cuaderno afecta a la próxima ejecución de la tarea.
Selección de una directiva de presupuesto sin servidor
Importante
Esta característica está en versión preliminar pública.
Las directivas de presupuesto sin servidor permiten a la organización aplicar etiquetas personalizadas al uso sin servidor para la atribución de facturación pormenorizada.
Si el área de trabajo usa directivas de presupuesto sin servidor para atribuir el uso sin servidor, puede seleccionar la directiva de presupuesto sin servidor que desea aplicar al cuaderno. Si un usuario se asigna solo a una directiva de presupuesto sin servidor, esa directiva se selecciona de forma predeterminada.
Puede seleccionar la política de presupuesto para entornos sin servidor después de que el notebook esté conectado al cómputo sin servidor mediante el panel lateral Entorno:
- En la interfaz de usuario del cuaderno, haga clic en el panel lateral Entorno
.
- En Directiva de presupuesto, seleccione la directiva de presupuesto sin servidor que desea aplicar al cuaderno.
- Haga clic en Aplicar.
Una vez completada esta configuración, todo el uso de portátiles hereda las etiquetas personalizadas de la política de presupuesto sin servidor.
Nota:
Si el cuaderno se origina en un repositorio de Git o no tiene una directiva de presupuesto sin servidor asignada, el valor predeterminado es la última directiva de presupuesto sin servidor elegida cuando se adjunta al proceso sin servidor.
Selección de una versión del entorno
Las versiones de entorno permiten que las cargas de trabajo sin servidor reciban actualizaciones de motor independientes sin afectar a la compatibilidad de aplicaciones. Para ver detalles sobre cada versión del entorno, consulte Versiones de entorno sin servidor. Databricks recomienda elegir la versión más reciente para obtener las características más actualizadas del cuaderno.
Para seleccionar una versión del entorno:
- En la interfaz de usuario del cuaderno, haga clic en el panel lateral Entorno
.
- En Versión del entorno, seleccione una versión.
- Haga clic en Aplicar.
Adición de dependencias al cuaderno
Dado que sin servidor no admite directivas de proceso ni scripts de inicialización, debe agregar las dependencias de biblioteca personalizadas mediante el panel lateral Entorno. Puede agregar bibliotecas individualmente o usar un entorno base que se pueda compartir para instalar varias bibliotecas.
Para agregar individualmente una dependencia de biblioteca:
- En la interfaz de usuario del cuaderno, haga clic en el panel lateral Entorno
.
- En la sección Dependencias, haga clic en Agregar dependencia y escriba la ruta de acceso de la dependencia de biblioteca en el campo. Puede especificar una dependencia en cualquier formato que sea válido en un archivo requirements.txt.
- Haga clic en Aplicar. Esto instala las dependencias en el entorno virtual del cuaderno y reinicia el proceso de Python.
Un trabajo que utiliza cómputo sin servidor instala la especificación del entorno del notebook antes de ejecutar el código del notebook. Esto significa que no es necesario agregar dependencias al programar cuadernos como tareas.
Importante
No instale PySpark ni ninguna biblioteca que instale PySpark como dependencia en los cuadernos sin servidor. Si lo hace, se detendrá la sesión y se producirá un error. Si esto ocurre, quite la biblioteca y restablezca el entorno.
Para ver las dependencias instaladas, haga clic en la pestaña Instalado en el panel lateral Entornos . Los registros de instalación de PIP para el entorno del cuaderno también están disponibles haciendo clic en registros PIP en la parte inferior del panel.
Configuración de un entorno base
Un entorno base es un archivo YAML almacenado como un archivo de área de trabajo o en un volumen de catálogo de Unity que especifica dependencias de entorno adicionales. Los entornos base se pueden compartir entre notebooks. Para configurar un entorno base:
Cree un archivo YAML que defina la configuración de un entorno virtual de Python. En el ejemplo siguiente, YAML, que se basa en la especificación del entorno de proyectos de MLflow, se define un entorno base con algunas dependencias de biblioteca:
environment_version: '3' dependencies: - --index-url https://pypi.org/simple - -r "/Workspace/Shared/requirements.txt" - my-library==6.1 - /Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl - git+https://github.com/databricks/databricks-cli
Cargue el archivo YAML como un archivo de área de trabajo o en un volumen de Unity Catalog. Consulte Importación de un archivo o Carga de archivos en un volumen del Catálogo de Unity.
A la derecha del cuaderno, haga clic en el botón
para expandir el panel lateral Entorno. Este botón solo aparece cuando un cuaderno está conectado a la computación sin servidor.
En el campo Entorno base, escriba la ruta de acceso del archivo YAML cargado o navegue hasta él y selecciónelo.
Haga clic en Aplicar. Esto instala las dependencias en el entorno virtual del cuaderno y reinicia el proceso de Python.
Los usuarios pueden invalidar las dependencias especificadas en el entorno base instalando las dependencias individualmente.
Restablecer las dependencias del entorno
Si tu cuaderno de notas está conectado a una computación sin servidor, Databricks almacena automáticamente en caché el contenido del entorno virtual del cuaderno de notas. Esto significa que, por lo general, no es necesario volver a instalar las dependencias de Python especificadas en el Entorno panel lateral cuando se abre un cuaderno existente, incluso si se ha desconectado debido a la inactividad.
El almacenamiento en caché del entorno virtual de Python también se aplica a los trabajos. Cuando se ejecuta un trabajo, cualquier tarea del trabajo que comparte el mismo conjunto de dependencias que una tarea completada en esa ejecución es más rápida, ya que las dependencias necesarias ya están disponibles.
Nota:
Si cambia la implementación de un paquete de Python personalizado usado en un trabajo sin servidor, también debe actualizar su número de versión para que los trabajos puedan seleccionar la implementación más reciente.
Para borrar la memoria caché del entorno y realizar una instalación nueva de las dependencias especificadas en el panel lateral Entorno de un cuaderno conectado al proceso sin servidor, haga clic en la flecha situada junto a Aplicar y, a continuación, haga clic en Restablecer entorno.
Si instala paquetes que interrumpen o cambian el cuaderno principal o el entorno de Apache Spark, quite los paquetes infractores y, a continuación, restablezca el entorno. Desconectar y volver a conectar el cuaderno no borra toda la memoria caché del entorno.
Configurar entorno de tareas laborales no relacionadas con cuadernos
En el caso de los tipos de tareas de trabajo, como el script de Python, la rueda de Python o las tareas dbt, las dependencias de biblioteca se heredan de la versión del entorno sin servidor. Para ver la lista de bibliotecas instaladas, consulte la sección Bibliotecas de Python instaladas de la versión del entorno que usa. Si una tarea requiere una biblioteca de Python que no está instalada, puede instalar la biblioteca desde archivos del área de trabajo, volúmenes de Unity Catalog o repositorios de paquetes públicos.
Para agregar una biblioteca al crear o editar una tarea de trabajo:
En el menú Desplegable entorno y bibliotecas, haga clic en
junto al entorno Predeterminado o haga clic en + Agregar nuevo entorno.
Seleccione la versión del entorno en la lista desplegable Versión del entorno. Consulte Versiones del entorno sin servidor. Databricks recomienda seleccionar la versión más reciente para obtener las características más actualizadas.
En el cuadro de diálogo Configurar entorno, haga clic en + Agregar biblioteca.
Seleccione el tipo de dependencia en el menú desplegable en Bibliotecas.
En el cuadro de texto Ruta de acceso de archivo, escriba la ruta de acceso a la biblioteca.
Para una rueda de Python en un archivo de área de trabajo, la ruta de acceso debe ser absoluta e iniciar con
/Workspace/
.Para un Python Wheel en un volumen de Unity Catalog, la ruta debe ser
/Volumes/<catalog>/<schema>/<volume>/<path>.whl
.Para un archivo
requirements.txt
, seleccione PyPi y escriba-r /path/to/requirements.txt
.
- Haga clic en Confirmar o + Agregar biblioteca para agregar otra biblioteca.
- Si va a agregar una tarea, haga clic en Crear tarea. Si va a editar una tarea, haga clic en Guardar tarea.
Configuración de repositorios de paquetes de Python predeterminados
Los administradores del área de trabajo pueden configurar repositorios de paquetes privados o autenticados dentro de áreas de trabajo como la configuración de pip predeterminada para cuadernos sin servidor y trabajos sin servidor. Esto permite a los usuarios instalar paquetes desde repositorios internos de Python sin definir explícitamente index-url
ni extra-index-url
. Sin embargo, si estos valores se especifican en el código o en un cuaderno, tienen prioridad sobre los valores predeterminados del área de trabajo.
Esta configuración aprovecha secretos de Databricks para almacenar y administrar de forma segura las direcciones URL y las credenciales del repositorio. Los administradores pueden configurar la instalación mediante la página de configuración del administrador del área de trabajo o utilizando un ámbito secreto predefinido y los comandos secretos de la CLI de Databricks o la API REST .
Configuración de dependencias predeterminadas para un área de trabajo
Los administradores del área de trabajo pueden agregar o quitar los repositorios de paquetes de Python predeterminados mediante la página de configuración del administrador del área de trabajo.
- Como administrador del área de trabajo, inicie sesión en el área de trabajo de Databricks.
- Haga clic en el nombre de usuario en la barra superior del área de trabajo de Databricks y seleccione Configuración.
- Haga clic en la pestaña Proceso.
- Junto a los Repositorios de paquetes predeterminados, haga clic en Administrar.
- (Opcional) Agregue o quite una dirección URL de índice, direcciones URL de índice adicionales o un certificado SSL personalizado.
- Haga clic en Guardar para guardar los cambios.
Nota:
Las modificaciones o eliminaciones de secretos se aplican después de volver a conectar la computación sin servidor a los cuadernos o de volver a ejecutar los trabajos sin servidor.
Configurar mediante la CLI de secretos o la API de REST
Para configurar repositorios de paquetes de Python predeterminados mediante la CLI o la API REST, cree un ámbito secreto predefinido y configure los permisos de acceso y agregue los secretos del repositorio de paquetes.
Nombre de ámbito de secreto predefinido
Los administradores del área de trabajo pueden establecer direcciones URL de índice pip predeterminadas o direcciones URL de índice adicionales junto con tokens de autenticación y secretos en un ámbito secreto designado en claves predefinidas:
- Nombre del ámbito del secreto:
databricks-package-management
- Clave secreta para index-url:
pip-index-url
- Clave secreta para direcciones URL adicionales de índice:
pip-extra-index-urls
- Clave secreta para el contenido de la certificación SSL:
pip-cert
Creación del ámbito del secreto
Se puede crear un ámbito secreto mediante los comandos de secretos de la CLI de Databricks o la API REST de . Después de crear el ámbito de secreto, configure listas de control de acceso para conceder a todos los usuarios del área de trabajo acceso de lectura. Esto garantiza que el repositorio permanece seguro y no se puede modificar por parte de usuarios individuales. El ámbito secreto debe usar el nombre de ámbito de secreto predefinido databricks-package-management
.
databricks secrets create-scope databricks-package-management
databricks secrets put-acl databricks-package-management admins MANAGE
databricks secrets put-acl databricks-package-management users READ
Adición de secretos del repositorio de paquetes de Python
Agregue los detalles del repositorio de paquetes de Python mediante los nombres de clave secreta predefinidos, con los tres campos que son opcionales.
# Add index URL.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-index-url", "string_value":"<index-url-value>"}'
# Add extra index URLs. If you have multiple extra index URLs, separate them using white space.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-extra-index-urls", "string_value":"<extra-index-url-1 extra-index-url-2>"}'
# Add cert content. If you want to pip configure a custom SSL certificate, put the cert file content here.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-cert", "string_value":"<cert-content>"}'
Modifica o elimina secretos privados del repositorio PyPI
Para modificar los secretos del repositorio pyPI, use el comando put-secret
. Para eliminar secretos del repositorio pyPI, use delete-secret
como se muestra a continuación:
# delete secret
databricks secrets delete-secret databricks-package-management pip-index-url
databricks secrets delete-secret databricks-package-management pip-extra-index-urls
databricks secrets delete-secret databricks-package-management pip-cert
# delete scope
databricks secrets delete-scope databricks-package-management