Introducción a los objetos del área de trabajo

En este artículo, se proporciona una introducción general a los objetos del área de trabajo de Azure Databricks. Puedes crear, ver y organizar objetos del área de trabajo en el explorador del área de trabajo entre personas.

Clústeres

Los clústeres de Azure Databricks de Ciencia de datos e ingeniería y Databricks Machine Learning proporcionan una plataforma unificada para varios casos de uso, como la ejecución de canalizaciones ETL de producción, el análisis de transmisión, el análisis ad-hoc y el aprendizaje automático. Un clúster es un tipo de recurso de proceso de Azure Databricks. Otros tipos de recursos de proceso incluyen los almacenes de SQL de Azure Databricks.

Para obtener información detallada sobre cómo administrar y usar clústeres, consulte Proceso.

Cuadernos

Un cuaderno es una interfaz basada en Internet para documentos que contienen una serie de celdas ejecutables (comandos) que funcionan en archivos y tablas, visualizaciones y texto narrativo. Los comandos se pueden ejecutar en secuencia, haciendo referencia a la salida de uno o varios comandos ejecutados anteriormente.

Los cuadernos son un mecanismo para ejecutar código en Azure Databricks. El otro mecanismo son los trabajos.

Para obtener información detallada sobre cómo administrar y usar cuadernos, consulte Introducción a los cuadernos de Databricks.

Trabajos

Los trabajos son un mecanismo para ejecutar código en Azure Databricks. El otro mecanismo son los cuadernos.

Para obtener información detallada sobre la administración y el uso de trabajos, consulta Crear y ejecutar trabajos de Azure Databricks.

Bibliotecas

Una biblioteca agrega código de terceros o aquel que se ha creado localmente a los cuadernos y trabajos que se ejecutan en los clústeres.

Para obtener información detallada sobre cómo administrar y usar las bibliotecas, consulte Bibliotecas.

Datos

Puede importar datos a un sistema de archivos distribuido y que esté montado en un área de trabajo de Azure Databricks, y trabajar con ellos en clústeres y cuadernos de Azure Databricks. También puede usar una amplia variedad de orígenes de datos de Apache Spark para acceder a los datos.

Para obtener información detallada sobre cómo cargar datos, vea Ingesta de datos en un almacén de lago de datos de Databricks.

Archivos

Importante

Esta característica está en versión preliminar pública.

En Databricks Runtime 11.2 y versiones posteriores, puede crear y usar archivos arbitrarios en el área de trabajo de Databricks. Los archivos pueden ser de cualquier tipo. Algunos ejemplos frecuentes son:

  • Archivos .py usados en módulos personalizados.
  • Archivos .md, como README.md.
  • .csv u otros archivos de datos pequeños.
  • Archivos .txt.
  • Archivos de registro.

Para obtener información detallada sobre el uso de archivos, consulte Trabajo con archivos en Azure Databricks. Para obtener información sobre cómo usar archivos para modularizar el código a medida que desarrolla con cuadernos de Databricks, consulta Uso compartido de código entre cuadernos de Databricks

Repos

Los repositorios son carpetas de Azure Databricks cuyo contenido puede tener versiones conjuntas mediante su sincronización con un repositorio de Git remoto. Con un repositorio de Azure Databricks, puede desarrollar cuadernos en Azure Databricks y usar un repositorio Git remoto para la colaboración y el control de versiones.

Para obtener información detallada sobre el uso de repositorios, consulte Integración de Git con Databricks Repos.

Modelos

El modelo hace referencia a un modelo que esté en el Registro de modelos de MLflow. El Registro de modelos es un almacén de modelos centralizado que le permite administrar el ciclo de vida completo de los modelos de MLflow. Proporciona linaje de datos cronológico de modelos, control de versiones de modelos, transiciones de etapas y anotaciones y descripciones de modelos y versiones de modelos.

Para obtener información detallada sobre la administración y el uso de modelos, consulte Administración del ciclo de vida del modelo en Unity Catalog.

Experimentos

Un experimento de MLflow es la unidad principal de organización y el control de acceso para las ejecuciones de entrenamiento del modelo de Machine Learning de MLflow; todas las ejecuciones de MLflow pertenecen a un experimento. Un experimento le permite visualizar, buscar y comparar ejecuciones, así como descargar artefactos de ejecución o metadatos para su análisis en otras herramientas.

Para obtener información detallada sobre cómo administrar y usar experimentos, consulte Organizar ejecuciones de entrenamiento con experimentos de MLflow.

Consultas

Las consultas son instrucciones SQL que permiten interactuar con los datos. Para más información, consulte Acceso y administración de consultas guardadas.

Paneles

Los paneles son presentaciones de visualizaciones de consultas y comentarios. Para obtener más información, consulte los paneles de Databricks SQL.

Alertas

Las alertas son notificaciones de que un campo que ha devuelto una consulta ha alcanzado un umbral. Para obtener más información, consulte ¿Qué son las alertas de SQL de Databricks?.

Referencias a objetos del área de trabajo

Históricamente, los usuarios debían incluir el prefijo de ruta /Workspace para algunas API de Databricks (%sh) pero no para otras (%run, entradas de API REST).

Los usuarios pueden utilizar rutas de áreas de trabajo con el prefijo /Workspace en todas partes. Las referencias antiguas a rutas sin el prefijo /Workspace se redirigen y siguen funcionando. Recomendamos que todas las rutas del área de trabajo lleven el prefijo /Workspace para diferenciarlas de las rutas de Volumen y DBFS.

El prerrequisito para un comportamiento consistente del prefijo de ruta /Workspace es este: No puede haber una carpeta /Workspace en el nivel raíz del área de trabajo. Si tiene una carpeta /Workspace en el nivel raíz y quiere habilitar esta mejora de UX, elimine o cambie el nombre de la carpeta /Workspace creada y póngase en contacto con el equipo de la cuenta de Azure Databricks.