Descripción de los conceptos clave

Completado

Azure Databricks es una combinación de varias tecnologías que permiten trabajar con datos a escala. Antes de usar Azure Databricks, hay algunos conceptos clave que debe comprender.

Diagrama que muestra los elementos clave de una solución Databricks.

  1. Clústeres de Apache Spark: Spark es una solución de procesamiento de datos distribuido que usa clústeres para escalar el procesamiento en varios nodos. Cada clúster de Spark tiene un nodo controlador para coordinar los trabajos de procesamiento y uno o varios nodos de trabajo en los que se produce el procesamiento. Este modelo distribuido permite que cada nodo funcione en un subconjunto del trabajo en paralelo; con ello, se reduce el tiempo total para que se complete el trabajo. Para obtener más información sobre los clústeres de Azure Databricks, consulte Clústeres en la documentación de Azure Databricks.
  2. Almacenamiento de lago de datos: aunque cada nodo de clúster tiene su propio sistema de archivos local (en el que se almacenan el sistema operativo y otros archivos específicos del nodo), los nodos de un clúster también tienen acceso a un sistema de archivos compartido y distribuido en el que pueden acceder y operar en archivos de datos. Este almacenamiento de datos compartido, conocido como lago de datos, permite montar el almacenamiento en la nube, como Azure Data Lake Storage o un almacén de datos de Microsoft OneLake, y usarlo para trabajar con datos basados en archivos y conservarlos en cualquier formato.
  3. Metastore: Azure Databricks usa un metastore para definir un esquema relacional de tablas sobre datos basados en archivos. Las tablas se basan en el formato Delta Lake y se pueden consultar mediante la sintaxis SQL para acceder a los datos de los archivos subyacentes. Las definiciones de las tablas y los detalles de las ubicaciones del sistema de archivos en las que se basan se almacenan en el metastore, lo que abstrae los objetos de datos que puede usar para el análisis y el procesamiento de datos del almacenamiento físico donde se guardan los archivos de datos. Los metastores de Azure Databricks se administran en el Catálogo de Unity, que proporciona almacenamiento de datos centralizado, administración de acceso y gobernanza (aunque dependiendo de cómo esté configurado el área de trabajo de Azure Databricks, también puede usar un metastore de Hive heredado con archivos de datos almacenados en un lago de datos del Sistema de archivos de Databricks [DBFS]).
  4. Cuadernos: una de las formas más comunes para que los analistas de datos, los científicos de datos, los ingenieros de datos y los desarrolladores trabajen con Spark es escribir código en cuadernos. Los cuadernos proporcionan un entorno interactivo en el que puede combinar texto y gráficos en formato Markdown con celdas que contienen código que se ejecuta de forma interactiva en la sesión del cuaderno. Para obtener más información sobre los cuadernos, consulte Cuadernos en la documentación de Azure Databricks.
  5. SQL Warehouses - SQL Warehouses son recursos de proceso relacionales con puntos de conexión que permiten a las aplicaciones cliente conectarse a un área de trabajo de Azure Databricks y usar SQL para trabajar con datos en tablas. Los resultados de las consultas SQL se pueden usar para crear visualizaciones de datos y paneles para admitir el análisis empresarial y la toma de decisiones. Los almacenes de SQL solo están disponible en áreas de trabajo de Azure Databricks de nivel prémium. Para más información sobre los almacenes de SQL, consulte la información sobre los almacenes de SQL en la documentación de Azure Databricks.