¿Qué son los archivos del área de trabajo?

Un archivo del área de trabajo es cualquier archivo del área de trabajo de Azure Databricks que no sea un cuaderno Databricks. Los archivos del área de trabajo pueden ser de cualquier tipo. Algunos ejemplos frecuentes son:

  • Archivos .py usados en módulos personalizados.
  • Archivos .md, como README.md.
  • .csv u otros archivos de datos pequeños.
  • Archivos .txt.
  • Bibliotecas de .whl.
  • Archivos de registro.

Los archivos del área de trabajo incluyen archivos anteriormente denominados "Archivos en Repos."

Importante

Los archivos del área de trabajo están habilitados en todas partes de forma predeterminada para Databricks Runtime versión 11.2, pero los administradores pueden deshabilitarlos mediante la API de REST. Para cargas de trabajo de producción, use Databricks Runtime 11.3 LTS o superior. Póngase en contacto con el administrador del área de trabajo si no puede acceder a esta funcionalidad.

Qué se puede hacer con los archivos del área de trabajo

Azure Databricks proporciona una funcionalidad similar al desarrollo local para muchos tipos de archivos del área de trabajo, incluido un editor de archivos integrado. No todos los casos de uso para todos los tipos de archivo son compatibles. Por ejemplo, aunque puede incluir imágenes en un directorio o repositorio importado, no puede incrustar imágenes en cuadernos.

Puede crear, editar y administrar el acceso a los archivos del área de trabajo usando patrones familiares de las interacciones con los cuadernos. Puede usar rutas de acceso relativas para las importaciones de bibliotecas desde los archivos del área de trabajo, de forma similar al desarrollo local. Para obtener información, consulte:

Los scripts de inicialización almacenados en los archivos del área de trabajo tienen un comportamiento especial. Puede usar archivos de área de trabajo para almacenar y hacer referencia a scripts de inicio en cualquier versión de Databricks Runtime. Consulte Almacenar scripts de inicialización en archivos del área de trabajo.

Nota:

En Databricks Runtime 14.0 y versiones posteriores, el directorio de trabajo actual predeterminado (CWD) para el código ejecutado localmente es el directorio que contiene el cuaderno o el script que se está ejecutando. Este es un cambio en el comportamiento de Databricks Runtime 13.3 LTS y versiones posteriores. Vea ¿Cuál es el directorio de trabajo actual predeterminado?.

Limitaciones

Se encuentra una lista completa de las limitaciones de los archivos del área de trabajo en Limitaciones de los archivos del área de trabajo.

Límite de tamaño de los archivos

Los archivos de áreas de trabajo individuales están limitados a 500 MB.

Los usuarios pueden cargar tamaños de archivo de hasta 500 MB desde la interfaz de usuario. El tamaño máximo de archivo permitido al escribir desde un clúster es de 256 MB.

Versiones de Databricks Runtime para archivos en carpetas de Git con un clúster con Azure Databricks Container Services

En los clústeres que ejecutan Databricks Runtime 11.3 LTS y versiones posteriores, la configuración predeterminada le permite usar archivos de área de trabajo en carpetas de Git con Azure Databricks Container Services (DCS).

En los clústeres que ejecutan Databricks Runtime versiones 10.4 LTS y 9.1 LTS, debe configurar el dockerfile para acceder a los archivos del área de trabajo en carpetas de Git de un clúster con DCS. Consulte los siguientes documentos dockerfile para obtener la versión deseada de Databricks Runtime:

Consulte Personalización de contenedores con Databricks Container Services.

Habilitación de archivos del área de trabajo

Para habilitar la compatibilidad con archivos que no son cuadernos en el área de trabajo de Databricks, llame a la API REST /api/2.0/workspace-conf desde un cuaderno u otro entorno con acceso al área de trabajo de Databricks. Los archivos del área de trabajo están habilitados de forma predeterminada.

Para habilitar o volver a habilitar en el área de trabajo de Databricks la compatibilidad con archivos que no sean cuadernos, llame a /api/2.0/workspace-conf y obtenga el valor de la clave enableWorkspaceFileSystem. Si se establece en true, los archivos que no sean cuadernos ya estarán habilitados para el área de trabajo.

En el ejemplo siguiente se muestra cómo puede llamar a esta API desde un cuaderno para comprobar si los archivos del área de trabajo están deshabilitados y, si es así, volver a habilitarlos. Para deshabilitar los archivos del área de trabajo, establezca enableWorkspaceFilesystem en false con la API /api/2.0/workspace-conf.

Ejemplo: cuaderno para volver a habilitar la compatibilidad con archivos del área de trabajo de Databricks

Obtener el cuaderno