Compartir a través de


Guías de datos

Databricks Data Intelligence Platform permite a los profesionales de datos de toda la organización colaborar y producir soluciones de datos mediante recursos y herramientas de datos compartidos y controlados de forma segura.

Este artículo busca ayudarle a identificar el punto de partida correcto para su caso de uso.

Muchas tareas de Azure Databricks requieren permisos elevados. Muchas organizaciones restringen estos permisos elevados a un pequeño número de usuarios o equipos. En este artículo se desambiguan las acciones que la mayoría de los usuarios del área de trabajo pueden completar desde acciones restringidas a usuarios con privilegios.

Los administradores del área de trabajo pueden ayudarle a determinar si debe solicitar acceso a los recursos o solicitar permisos elevados.

Búsqueda y acceso a datos

En esta sección se proporciona una breve introducción a las tareas que le ayudarán a detectar recursos de datos disponibles. La mayoría de estas tareas asumen que un administrador ha configurado permisos en los recursos de datos. Consulte Configuración del acceso a datos.

Área de características Recursos
Detección de datos Para obtener información general más detallada sobre las tareas de detección de datos, consulte Detección de datos.
Catálogos Los catálogos son el objeto de nivel superior en el modelo de gobernanza de datos del catálogo de Unity. Use el Explorador de catálogos para buscar tablas, vistas y otros recursos de datos. Consulte Exploración de objetos de base de datos.
Almacenamiento conectado Si tiene acceso a los recursos de proceso, puede usar comandos integrados para explorar archivos en el almacenamiento conectado. Consulte Exploración del almacenamiento y búsqueda de archivos de datos.
Carga de archivos locales De forma predeterminada, los usuarios tienen permisos para cargar archivos de datos pequeños desde la máquina local, como LOS CSV. Consulte Crear o modificar una tabla mediante la carga de archivos.

Trabajar con datos

En esta sección se proporciona información general sobre las tareas de datos comunes y las herramientas que se usan para realizar esas tareas.

Para todas las tareas descritas, los usuarios deben tener permisos adecuados para herramientas, recursos de proceso, datos y otros artefactos del área de trabajo. Consulte Configuración del acceso a datos y Configuración de áreas de trabajo e infraestructura.

Área de características Recursos
Objetos de base de datos Además de las tablas y vistas, Azure Databricks usa otros objetos de base de datos protegibles, como volúmenes, para controlar los datos de forma segura. Consulte Objetos de base de datos en Azure Databricks
Permisos de datos El catálogo de Unity rige todas las operaciones de lectura y escritura en áreas de trabajo habilitadas. Debe tener los permisos adecuados para completar estas operaciones. Vea Objetos protegibles en Unity Catalog.
ETL Las cargas de trabajo de extracción, transformación y carga (ETL) se encuentran entre los usos más comunes de Apache Spark y Azure Databricks, y la mayoría de las plataformas tiene características creadas y optimizadas para ETL. Consulte Tutorial: Creación de una pipeline ETL con pipelines declarativas de Lakeflow.
Consultas
Paneles e información
  • Los paneles de IA/BI permiten extraer y visualizar información fácilmente en la interfaz de usuario. Consulte Paneles.
  • Los espacios de Genie usan indicaciones de texto para responder a preguntas y proporcionar información basada en sus datos. Consulte ¿Qué es un espacio de AI/BI Genie?
Ingesta
  • Lakeflow Connect ingiere datos de sistemas externos populares. Consulte Conectores administrados en Lakeflow Connect.
  • El cargador automático se puede usar con canalizaciones declarativas de Lakeflow o trabajos de Structured Streaming para ingerir datos de forma incremental desde el almacenamiento de objetos en la nube. Consulte ¿Qué es Auto Loader?.
  • Puede utilizar Lakeflow Declarative Pipelines o Structured Streaming para ingerir datos de colas de mensajes, incluido Kafka. Consulte Consulta de datos de streaming.
Transformaciones Azure Databricks usa la sintaxis común y las herramientas para las transformaciones que abarcan la complejidad de las instrucciones CTAS de SQL a aplicaciones de streaming casi en tiempo real.
Inteligencia artificial y aprendizaje automático Databricks Data Intelligence Platform proporciona un conjunto de herramientas para las aplicaciones de ciencia de datos, aprendizaje automático e inteligencia artificial. Consulta IA y aprendizaje automático en Databricks.

:::

Configuración del acceso a datos

La mayoría de las áreas de trabajo de Azure Databricks dependen de un administrador de áreas de trabajo u otros usuarios avanzados para configurar conexiones a orígenes de datos externos y aplicar privilegios a los recursos de datos en función de la pertenencia al equipo, la región o los roles. En esta sección se ofrece una visión general sobre las tareas comunes para configurar y controlar el acceso a datos que requieren permisos elevados.

Nota:

Antes de solicitar permisos elevados para configurar una nueva conexión a un origen de datos, confirme si solo faltan privilegios en una conexión, catálogo o tabla existente. Si un origen de datos no está disponible, consulte con su organización la directiva para agregar nuevos datos al área de trabajo.

Área de características Recursos
Catálogo de Unity
  • Unity Catalog impulsa las características de gobernanza de datos integradas en la plataforma de inteligencia de datos de Databricks. Consulte ¿Qué es el catálogo de Unity?.
  • Los administradores de cuentas de Databricks, los administradores del área de trabajo y los administradores de metastore tienen privilegios predeterminados para administrar los privilegios de datos del Catálogo de Unity para los usuarios. Consulte Administración de privilegios en Unity Catalog.
Conexiones y acceso
Uso compartido

Configuración de áreas de trabajo e infraestructura

En esta sección se proporciona información general sobre las tareas comunes asociadas a la administración de recursos y la infraestructura del área de trabajo. En general, los recursos del área de trabajo incluyen lo siguiente:

  • Recursos de computación: los recursos de computación incluyen clústeres interactivos de propósito general, almacenes de SQL, clústeres de tareas y procesamiento de canalización. Un usuario o carga de trabajo debe tener permisos para conectarse a los recursos de proceso en ejecución para procesar la lógica especificada.

    Nota:

    Los usuarios que no tienen acceso para conectarse a ningún recurso de proceso tienen una funcionalidad muy limitada en Azure Databricks.

  • Herramientas de plataforma: La plataforma de inteligencia de datos de Databricks proporciona un conjunto de herramientas adaptadas a diferentes casos de uso y personas, como cuadernos, SQL de Databricks y Mosaic AI. Los administradores pueden personalizar la configuración que incluye comportamientos predeterminados, características opcionales y acceso de usuario para muchas de estas herramientas.

  • Artefactos: los artefactos incluyen cuadernos, consultas, paneles, archivos, bibliotecas, canalizaciones y trabajos. Los artefactos contienen código y configuraciones que los usuarios crean para realizar acciones deseadas en sus datos.

Importante

De forma predeterminada, al usuario que crea un recurso de área de trabajo se le asigna el rol de propietario . Para la mayoría de los recursos, los propietarios pueden conceder permisos a cualquier otro usuario o grupo del área de trabajo.

Para asegurarse de que los datos y el código son seguros, Databricks recomienda configurar el rol de propietario para todos los artefactos y recursos de proceso implementados en un área de trabajo de producción.

Área de características Recursos
Derechos del área de trabajo Los derechos del área de trabajo incluyen acceso básico al área de trabajo, acceso a Databricks SQL y creación de clústeres sin restricciones. Vea Administración de derechos.
Acceso a recursos de cómputo y políticas
Herramientas de plataforma Use la consola de administración para configurar comportamientos que van desde personalizar la apariencia del área de trabajo hasta habilitar o deshabilitar productos y características. Consulte Administración del área de trabajo.
ACL de área de trabajo Las listas de control de acceso (ACL) del área de trabajo rigen cómo los usuarios y grupos pueden interactuar con los recursos del área de trabajo, incluidos los recursos de proceso, los artefactos de código y los trabajos. Consulta las Listas de control de acceso.

Producción de cargas de trabajo

Todos los productos de Azure Databricks se crean para acelerar la ruta de desarrollo a producción y para la escala y la estabilidad. En esta sección se proporciona una breve introducción al conjunto de herramientas recomendadas para la obtención de cargas de trabajo en producción.

Área de características Recursos
Tuberías ETL Lakeflow Declarative Pipelines proporciona una sintaxis declarativa para construir y poner en producción canalizaciones ETL. Consulte Pipelines declarativas de Lakeflow.
Orquestación Los trabajos permiten definir flujos de trabajo complejos con dependencias, desencadenadores y programaciones. Consulte Trabajos de Lakeflow.
CI/CD Los conjuntos de recursos de Databricks facilitan la administración e implementación de datos, recursos y artefactos en áreas de trabajo. Consulte ¿Qué son los conjuntos de recursos de Databricks?