Glosario de terminología técnica de Azure Databricks

A

lista de control de acceso (ACL)

Lista de permisos asociados al área de trabajo, el clúster, el trabajo, la tabla o el experimento. Una ACL especifica qué usuarios o procesos del sistema tienen acceso a los objetos y qué operaciones se permiten en los recursos. Cada entrada de una ACL típica especifica un sujeto y una operación. Consulte las Listas de control de acceso.

modo de acceso

Una característica de seguridad que determina quién puede usar un recurso de proceso y los datos a los que pueden acceder mientras usan el recurso de proceso. Cada recurso de cálculo en Azure Databricks tiene un modo de acceso. Consulte Modos de acceso.

Transacciones ACID

Transacciones de base de datos que se procesan de forma confiable. ACID significa atomicidad, coherencia, aislamiento, durabilidad. Consulte los procedimientos recomendados para una mayor confiabilidad.

Agente Bricks

Características de Azure Databricks que le permiten crear una solución de inteligencia artificial de alta calidad.

inteligencia artificial (IA)

La capacidad de un equipo para imitar el comportamiento humano inteligente. Consulta IA y aprendizaje automático en Databricks.

Agente de IA

Una aplicación con funcionalidades de razonamiento complejas que le permiten crear su propio plan y ejecutar la tarea de acuerdo con las herramientas a su disposición. Consulte Patrones de diseño del sistema del agente.

Funciones de IA

Las funciones SQL integradas que permiten aplicar inteligencia artificial en los datos directamente desde SQL en Azure Databricks. Consulte Enriquecimiento de datos mediante ai Functions.

Puerta de enlace de IA

La solución de Azure Databricks para gobernar y supervisar puntos de conexión llM, agentes de codificación y puntos de conexión de servicio de modelos. Use AI Gateway para analizar el uso, configurar permisos y administrar la capacidad entre proveedores. Consulte AI Gateway.

Área de juegos de IA

Una característica de Azure Databricks en la que los usuarios pueden interactuar, probar y comparar modelos de IA generativos servidos en el área de trabajo de Azure Databricks. Consulte Chatear con LLM y crear prototipos de aplicaciones de IA generativa con Área de juegos de IA.

detección de anomalías

Técnicas y herramientas que se usan para identificar patrones inusuales que no se ajustan al comportamiento esperado en los conjuntos de datos. Azure Databricks facilita la detección de anomalías a través de sus funcionalidades de procesamiento de datos y aprendizaje automático.

Apache Iceberg

Formato de tabla de código abierto para cargas de trabajo de análisis que admiten la evolución del esquema, el viaje en el tiempo y la creación de particiones ocultas. Azure Databricks admite las tablas de Iceberg administradas por Unity Catalog y por catálogos externos. Consulte ¿Qué es Apache Firewall en Azure Databricks?.

Apache Spark

Un sistema informático distribuido de código abierto que se usa para cargas de trabajo de macrodatos. Consulte Introducción a Apache Spark.

Red neuronal artificial (ANN)

Un sistema informático inspirado en la operación de las neuronas en el cerebro humano.

asset

Una entidad en un área de trabajo de Azure Databricks (por ejemplo, un objeto o un archivo).

registro de auditoría

Un registro de las actividades y acciones de los usuarios en el entorno de Azure Databricks, cruciales para la seguridad, el cumplimiento y la supervisión operativa. Consulte Referencia del registro de diagnóstico.

Cargador automático

Una característica de ingesta de datos que procesa de forma incremental y eficaz nuevos archivos de datos a medida que llegan al almacenamiento en la nube sin ninguna configuración adicional. Consulte ¿Qué es Auto Loader?.

AutoML

Una característica de Azure Databricks que simplifica el proceso de aplicar el aprendizaje automático a los conjuntos de datos mediante la búsqueda automática del mejor algoritmo y la configuración de hiperparámetros automáticamente. Consulte ¿Qué es AutoML?.

linaje de datos automatizado

Proceso de seguimiento automático y visualización del flujo de datos desde su origen a través de diversas transformaciones a su forma final, esencial para la depuración, el cumplimiento y la comprensión de las dependencias de datos. Azure Databricks facilita esto a través de integraciones con herramientas de linaje de datos.

escalado automático, horizontal

Agregar o quitar ejecutores en función del número de tareas que esperan estar programadas. Esto sucede dinámicamente durante una única actualización.

escalado automático, vertical

Aumentar o disminuir el tamaño de una máquina (controlador o ejecutor) en función de la presión de memoria (o falta de ella). Esto solo sucede al principio de una nueva actualización.

Azure Databricks

Una versión de Databricks optimizada para la plataforma en la nube de Microsoft Azure.

B

procesamiento por lotes

Un método de procesamiento de datos que permite definir instrucciones explícitas para procesar una cantidad fija de datos estáticos y no cambiantes como una sola operación. Azure Databricks usa Spark SQL o DataFrames. Consulte Conectores estándar en Lakeflow Connect.

Detección y mitigación de sesgos

Proceso de identificación y direccionamiento de sesgos en los modelos de datos y aprendizaje automático para garantizar la equidad y la precisión. Databricks ofrece herramientas e integraciones para ayudar a detectar y mitigar el sesgo. Vea Supervisar la equidad y el sesgo para los modelos de clasificación.

Inteligencia empresarial (BI)

Las estrategias y tecnologías utilizadas por las empresas para el análisis de datos y la administración de la información empresarial.

C

catalog (Catálogo de Unity)

El primer nivel del espacio de nombres de tres niveles de Unity Catalog (catalog.schema.table-etc). Un catálogo es un contenedor para esquemas, que a su vez contienen tablas, vistas, volúmenes, modelos y funciones. Consulte ¿Qué son los catálogos en Azure Databricks?.

Explorador de catálogos

Una característica de Azure Databricks que proporciona una interfaz de usuario para explorar y administrar datos, esquemas (bases de datos), tablas, modelos, funciones y otros recursos de IA. Puede usarlo para buscar objetos de datos y propietarios, comprender las relaciones de datos entre tablas y administrar permisos y uso compartido. Consulte ¿Qué es el Explorador de catálogos?.

instancia hija

Una instancia secundaria es un clon de copia en escritura de la instancia de base de datos original. Se puede crear desde el momento actual o desde un momento dado histórico dentro de la ventana de retención. Consulte Restauración de datos y viajes de tiempo.

CICD o CI/CD

Las prácticas combinadas de integración continua (CI) y entrega continua (CD). Consulte CI/CD en Azure Databricks.

limpiar datos

Datos que han pasado por un proceso de limpieza de datos, que es el proceso de detectar y corregir (o quitar) registros dañados o inexactos de un conjunto de registros, una tabla o una base de datos, y hace referencia a identificar partes incompletas, incorrectas, inexactas o irrelevantes de los datos y, a continuación, reemplazar, modificar o eliminar los datos sucios o generales.

Salas limpias

Una característica de Azure Databricks que usa delta Sharing y proceso sin servidor para proporcionar un entorno seguro y de protección de la privacidad en el que varias partes pueden compartir datos empresariales confidenciales y colaborar sin acceso directo a los datos de los demás. Con Clean Rooms, los usuarios de otras cuentas de Databricks pueden colaborar para generar información sobre proyectos compartidos, como campañas publicitarias, decisiones de inversión o investigación y desarrollo, sin compartir el acceso a datos subyacentes confidenciales. Consulte ¿Qué es Azure Databricks Clean Rooms?

proveedor de plataformas en la nube

Una empresa que proporciona una plataforma informática en la nube. Por ejemplo, Microsoft Azure, Amazon Web Services (AWS) y Google Cloud Platform (GCP).

cluster

Un recurso de cómputo no basado en servidor que se utiliza en cuadernos, trabajos y canalizaciones declarativas de Spark de Lakeflow. El término proceso ha reemplazado al clúster en toda la interfaz de usuario de Azure Databricks, pero todavía se usa en la API de clústeres y en los metadatos.

compute

Hace referencia a los recursos de proceso, que son elementos de infraestructura, ya sean hardware o software, que permiten la resolución de problemas y la creación de soluciones mediante la recepción, el análisis y el almacenamiento de datos. Compute.

tubería continua

Una canalización que actualiza todas las tablas continuamente, a medida que llegan nuevos datos a la entrada sin detenerse. Consulte Desencadenado frente al modo de canalización continua.

D

gráfico acíclico dirigido (DAG)

Método de representación de las dependencias entre tareas de un flujo de trabajo o canalización. En un modelo de procesamiento DAG, las tareas se representan como nodos en un gráfico acíclico dirigido, donde los bordes representan las dependencias entre tareas.

catálogo de datos

Una herramienta de administración de metadatos para administrar orígenes de datos, proporcionando información sobre la estructura, la ubicación y el uso de los datos. Azure Databricks se integra con catálogos de datos externos para una administración mejorada de metadatos.

gobernanza de datos

La práctica de administrar la disponibilidad, integridad, seguridad y facilidad de uso de los datos, que implican directivas, procedimientos y tecnologías para garantizar la calidad y el cumplimiento de los datos.

ingesta de datos

Proceso de importación, transferencia, carga y procesamiento de datos de varios orígenes en Azure Databricks para el almacenamiento, el análisis y el procesamiento.

data lake

Un repositorio de almacenamiento grande que contiene una gran cantidad de datos sin procesar en su formato nativo hasta que sea necesario.

Data Lakehouse

Un sistema de administración de datos que combina las ventajas de los lagos de datos y los almacenes de datos. Un almacén de lago de datos proporciona funcionalidades de almacenamiento y procesamiento escalables para las organizaciones modernas que quieren evitar un sistema aislado para procesar diferentes cargas de trabajo, como el aprendizaje automático (ML) y la inteligencia empresarial (BI). Un almacén de lago de datos puede ayudar a establecer una única fuente de verdad, eliminar los costes redundantes y garantizar la actualización de los datos. Consulte ¿Qué es una instancia de almacén de lago de datos?.

Generación de perfiles de datos

Supervisa las propiedades estadísticas y la calidad de los datos en todas las tablas de su cuenta. También puede usarlo para realizar un seguimiento del rendimiento de los modelos de aprendizaje automático y los endpoints de servicio de modelos mediante la monitorización de tablas de inferencia que contienen entradas y predicciones del modelo. Consulte Generación de perfiles de datos.

canalización de datos

Una serie de fases en las que los datos se generan, recopilan, procesan y transfieren a un destino. Databricks facilita la creación y administración de canalizaciones de datos complejas para el procesamiento de datos por lotes y en tiempo real.

privacidad de datos

La práctica de proteger los datos personales contra el acceso, el uso, la divulgación o el robo no autorizados. Azure Databricks destaca las sólidas características de seguridad y privacidad de datos, incluido el cifrado de un extremo a otro, el control de acceso basado en rol y el cumplimiento de las principales normativas de protección de datos, para proteger la información confidencial y garantizar la gobernanza de los datos.

visualización de datos

Un enfoque de administración de datos que permite a una aplicación recuperar y manipular datos sin necesidad de detalles técnicos sobre los datos, como cómo se da formato o dónde se encuentra físicamente. Azure Databricks puede servir como parte de una capa de virtualización de datos proporcionando acceso sin problemas y análisis de datos en orígenes dispares.

almacenamiento de datos

Hace referencia a la recopilación y el almacenamiento de datos de varios orígenes para que se pueda acceder rápidamente a ellos para obtener información empresarial e informes. La arquitectura lakehouse y Databricks SQL aportan funcionalidades de almacenamiento de datos en la nube a los lagos de datos. Consulte Arquitectura de almacenamiento de datos.

catálogo de bases de datos

Entidad de catálogo de Unity que representa una base de datos de Postgres en una instancia. Esto es conceptualmente similar a un catálogo externo en el catálogo de Unity. Vea Registrar su base de datos en el catálogo de Unity.

instancia de base de datos

Una instancia de base de datos administra los recursos de almacenamiento y proceso y proporciona los puntos de conexión a los que se conectan los usuarios. Consulte ¿Qué es una instancia de base de datos?.

Databricks

Una plataforma unificada de análisis abierto para crear, implementar, compartir y mantener soluciones de inteligencia artificial, análisis y datos de nivel empresarial a escala. La plataforma Data Intelligence de Databricks se integra con el almacenamiento en la nube y la seguridad de su cuenta en la nube, y administra e implementa la infraestructura en la nube en su nombre. Consulte ¿Qué es Azure Databricks?.

Databricks AI/BI

Un producto de inteligencia empresarial para proporcionar comprensión de la semántica de los datos, lo que permite el análisis de datos de autoservicio. AI/BI se basa en un sistema de inteligencia artificial compuesto que extrae información del ciclo de vida completo de los datos en toda la plataforma de Databricks, incluidas las canalizaciones ETL, el linaje y otras consultas. Consulte Databricks AI/BI.

Características de inteligencia artificial de Databricks

Motor de inteligencia de datos que impulsa la plataforma de Databricks. Es un sistema de inteligencia artificial compuesto que combina el uso de modelos de INTELIGENCIA ARTIFICIAL, recuperación, clasificación y personalización para comprender la semántica de los patrones de uso y datos de su organización. Consulte Características de asistencia de Databricks AI.

Aplicaciones de Databricks

Una característica de Azure Databricks que permite a los desarrolladores crear e implementar aplicaciones de inteligencia artificial y datos seguros directamente en la plataforma de Azure Databricks mediante Python o marcos de Node.js. Las aplicaciones se ejecutan en proceso sin servidor e se integran con Unity Catalog, Databricks SQL y OAuth. Consulte Aplicaciones de Databricks.

Agrupaciones de automatización declarativa

Una herramienta para facilitar la adopción de procedimientos recomendados de ingeniería de software, como el control de código fuente, la revisión de código, las pruebas y la integración y entrega continuas (CI/CD) para los proyectos de inteligencia artificial y datos. Las agrupaciones permiten describir recursos de Azure Databricks, como trabajos, canalizaciones y cuadernos como archivos de origen. Consulte ¿Qué son los conjuntos de automatización declarativos?.

Código de Genie

Un programador de pares basado en IA y un agente de soporte técnico que le hace más eficaz a medida que crea cuadernos, consultas, paneles y archivos. Puede ayudarle a responder rápidamente a preguntas mediante la generación, optimización, finalización, explicación y corrección del código y las consultas. Consulte Código de Genie.

CLI de Databricks

Una interfaz de línea de comandos para Azure Databricks que permite a los usuarios administrar y automatizar áreas de trabajo de Databricks e implementar trabajos, cuadernos y bibliotecas. Consulte ¿Qué es la CLI de Databricks?

Databricks Connect

Una librería cliente que permite a los desarrolladores conectar sus IDEs, cuadernos y otras herramientas favoritas con los recursos de cómputo de Azure Databricks y ejecutar código Spark de forma remota. Consulte ¿Qué es Databricks Connect?

Databricks Container Services

Una característica de Azure Databricks que le permite especificar una imagen de Docker al crear recursos de cómputo. Consulte Personalización de contenedores con Databricks Container Service.

Databricks Marketplace

Foro abierto para intercambiar productos de datos. Los proveedores deben tener una cuenta de Azure Databricks, pero los destinatarios pueden ser cualquiera. Los recursos de Marketplace incluyen conjuntos de datos, cuadernos de Azure Databricks, aceleradores de soluciones de Azure Databricks y modelos de aprendizaje automático (AI). Los conjuntos de datos suelen estar disponibles como catálogos de datos tabulares, aunque también se admiten datos no tabulares, en forma de volúmenes de Azure Databricks. Consulte Qué es Marketplace de Databricks.

Databricks Runtime

Un entorno de ejecución optimizado para el análisis de macrodatos. Databricks también ofrece Databricks Runtime para Machine Learning, que está optimizado para cargas de trabajo de aprendizaje automático. Consulte Notas de la versión de las versiones de Databricks Runtime y compatibilidad.

Databricks SQL (DBSQL)

La colección de servicios que aportan funcionalidades de almacenamiento de datos y rendimiento a los lagos de datos existentes. Databricks SQL admite formatos abiertos y ANSI SQL estándar. Las herramientas de panel y editor de SQL en plataforma permiten a los miembros del equipo colaborar con otros usuarios de Azure Databricks directamente en el área de trabajo. Consulte Almacenamiento de datos en Azure Databricks.

DBUs

Una unidad de Databricks (DBU) es una unidad de procesamiento normalizada en la plataforma Databricks Lakehouse que se usa con fines de medición y precios. El número de DTU que consume una carga de trabajo se controla mediante métricas de procesamiento, que pueden incluir los recursos de proceso usados y la cantidad de datos procesados. Consulte Componentes de Azure Databricks.

Sistema de archivos de Databricks (DBFS)

Un sistema de archivos distribuido integrado en un espacio de trabajo de Azure Databricks y disponible en el procesamiento de Azure Databricks. Azure Databricks recomienda usar volúmenes de Catálogo de Unity en lugar de DBFS para gobernar el acceso a datos no tabulares. Consulte ¿Qué es DBFS?

DataFrame

Estructura de datos que organiza los datos en una tabla bidimensional de filas y columnas, como una hoja de cálculo. Los dataframes son una de las estructuras de datos más comunes que se usan en el análisis de datos moderno porque son una forma flexible e intuitiva de almacenar y trabajar con datos. Consulte Tutorial: Carga y transformación de datos mediante DataFrames de Apache Spark.

dataset

Colección estructurada de datos organizados y almacenados juntos para el análisis o el procesamiento. Los datos de un conjunto de datos suelen estar relacionados de alguna manera y se toman de un único origen o están diseñados para un único proyecto.

Delta Lake

Una capa de almacenamiento de código abierto que aporta confiabilidad a los lagos de datos. Delta Lake proporciona transacciones ACID, control escalable de metadatos y unifica el procesamiento de datos de streaming y por lotes. Consulte ¿Qué es Delta Lake en Azure Databricks?.

Pipelines

Un marco declarativo para crear canalizaciones de procesamiento de datos confiables, fáciles de mantener y probar. Usted define las transformaciones a realizar en sus datos, y las canalizaciones declarativas de Spark de Lakeflow gestionan la orquestación de tareas, la administración de clústeres, la supervisión, la calidad de los datos y el manejo de errores. Consulte Pipelines declarativos de Spark de Lakeflow.

Conjuntos de datos de canalizaciones

Las tablas de streaming, las vistas materializadas y las vistas se mantienen como los resultados de las consultas declarativas.

Delta Sharing

Permite compartir recursos de datos e inteligencia artificial en Azure Databricks con usuarios externos a su organización, tanto si esos usuarios usan Azure Databricks como si no. También disponible como un proyecto de código abierto para compartir datos tabulares, su uso en Azure Databricks agrega la capacidad de compartir datos no tabulares, no estructurados (volúmenes), modelos de INTELIGENCIA artificial, vistas, datos filtrados y cuadernos. Consulte ¿Qué es Delta Sharing?.

Tablas delta

El formato predeterminado de tabla de datos en Azure Databricks es una característica del marco de datos de código abierto Delta Lake. Las tablas delta se usan normalmente para lagos de datos, donde los datos se ingieren a través de streaming o por grandes lotes. Consulte Tablas de Azure Databricks.

E

inserción (sustantivo)

Representación matemática del contenido semántico de los datos, como texto o imágenes, expresado como un vector de números. Las incrustaciones se usan en Azure Databricks para la búsqueda de vectores, la generación aumentada de recuperación y otras aplicaciones de inteligencia artificial. Diferente del término "inserción" como en para insertar un panel en una interfaz de usuario. Consulte el Motor de Búsqueda Vectorial de Mosaic AI.

ETL (extracción, transformación, carga)

Un enfoque moderno para la integración de datos que extrae datos de orígenes, los carga en el sistema de destino y, a continuación, los transforma dentro del sistema de destino. Consulte Tutorial: Construcción de una canalización ETL con Lakeflow Spark Declarative Pipelines.

tabla externa

Tabla registrada en el Catálogo de Unity donde residen los datos en una ubicación de almacenamiento en la nube externa. Unity Catalog administra los metadatos y el control de acceso, pero el ciclo de vida de los datos se administra fuera de Azure Databricks. Vea Trabajar con tablas externas.

F

Repositorio de Características

Repositorio central para almacenar, administrar y atender características para modelos de aprendizaje automático. Consulte Databricks Feature Store.

ajuste preciso

El proceso de tomar un modelo de aprendizaje automático entrenado previamente y entrenarlo aún más en un conjunto de datos específico de dominio más pequeño para optimizar su rendimiento para una aplicación determinada. Consulte Entrenamiento de modelos de inteligencia artificial y aprendizaje automático.

flow

Un flujo es un proceso en las Pipelines Declarativas de Lakeflow Spark que lee, transforma los datos y los escribe en un destino.

tabla externa

Una tabla de solo lectura en el Catálogo de Unity cuyos datos se administran mediante un catálogo fuera del catálogo de Unity, como AWS Glue o Snowflake. Azure Databricks usa La federación de Lakehouse para recuperar metadatos y leer la tabla del almacenamiento de objetos. Consulte Trabajar con tablas externas.

modelos de base

Grandes modelos de ML preentrenados con la intención de perfeccionarlos para tareas más específicas de comprensión y generación del lenguaje. Vea API de modelo de Databricks Foundation.

G

Código de Genie

Un asociado de inteligencia artificial autónomo diseñado específicamente para el trabajo de datos en Azure Databricks. Genie Code está profundamente integrado con Unity Catalog, lo que proporciona reconocimiento contextual de las tablas, columnas y linaje para acelerar las tareas complejas de datos de varios pasos. Consulte Código de Genie.

Espacio Genie

Una característica de INTELIGENCIA ARTIFICIAL o BI de Azure Databricks que permite a los equipos empresariales interactuar con sus datos mediante lenguaje natural. Los expertos en dominio configuran espacios de Genie con conjuntos de datos, consultas de ejemplo e instrucciones para que Genie pueda traducir preguntas empresariales en consultas SQL. Vea ¿Qué es un espacio de Genie?

IA generativa

Un tipo de inteligencia artificial centrado en la capacidad de los equipos de usar modelos para crear contenido como imágenes, texto, código y datos sintéticos. Las aplicaciones de IA generativa se basan en modelos de IA generativa: modelos de lenguaje de gran tamaño (LLM) y modelos de base. Consulta IA y aprendizaje automático en Databricks.

Carpetas de Git

Un cliente de Git visual integrado en el área de trabajo de Azure Databricks que proporciona funcionalidades de control de versiones, colaboración y CI/CD para cuadernos y archivos. Anteriormente conocido como Repos. Consulte Carpetas de Git de Azure Databricks.

I

inferencia

Proceso de uso de un modelo de aprendizaje automático entrenado para generar predicciones o salidas a partir de nuevos datos de entrada. Azure Databricks admite la inferencia por lotes y en tiempo real mediante mosaic AI Model Serving. Consulte Implementación de modelos mediante el Servicio de Modelos de IA de Mosaic.

init script

Un script de shell que se ejecuta durante el inicio de un recurso de cómputo de Azure Databricks. Los scripts de inicialización pueden instalar paquetes, modificar configuraciones o establecer variables de entorno. Consulte ¿Qué son los scripts de inicialización?.

J

job

Unidad principal para programar y orquestar cargas de trabajo de producción en Azure Databricks. Los trabajos constan de una o varias tareas. Consulte Trabajos de Lakeflow.

L

Lakeflow Connect

Ofrece conectores integrados para la ingesta desde bases de datos y aplicaciones empresariales. La canalización de ingesta resultante se rige por Unity Catalog y cuenta con tecnología de proceso sin servidor y canalizaciones declarativas de Spark de Lakeflow. Consulte Conectores administrados en Lakeflow Connect.

Federación de Lakehouse

La plataforma de federación de consultas para Azure Databricks. El término federación de consultas describe una colección de características que permiten a los usuarios y sistemas ejecutar consultas en varios orígenes de datos sin necesidad de migrar todos los datos a un sistema unificado. Azure Databricks usa Unity Catalog para administrar la federación de consultas. Consulte ¿Qué es la Federación Lakehouse?

Lakebase

Azure Databricks Lakebase es una base de datos OLTP integrada con Lakehouse. Una base de datos de procesamiento de transacciones en línea (OLTP) es un tipo especializado de sistema de bases de datos diseñado para controlar eficazmente grandes volúmenes de datos transaccionales en tiempo real. Lakebase permite crear una base de datos OLTP en Azure Databricks y incorporar cargas de trabajo OLTP a Lakehouse.

Consulte Lakebase.

Punto de conexión de Lakebase

Un punto de conexión de Lakebase es el punto de acceso de base de datos principal para la base de datos de Lakebase Postgres. Cada punto de conexión se identifica mediante un identificador de punto de conexión único y funciona dentro de una sola región de nube. Un punto final se puede configurar como una única computación o con alta disponibilidad, emparejando una instancia de computación principal con una o varias instancias de computación secundarias para la conmutación automática por error. Conéctese a su base de datos a través de las cadenas de conexión del endpoint.

Consulte Alta disponibilidad.

modelo de lenguaje grande (LLM)

Un modelo de procesamiento de lenguaje natural (NLP) diseñado para tareas como responder a preguntas abiertas, chat, resumen de contenido, ejecución de instrucciones casi arbitrarias, traducción y generación de contenido y código. Las LLM se entrenan a partir de conjuntos de datos masivos mediante algoritmos avanzados de aprendizaje automático para aprender los patrones y las estructuras del lenguaje humano. Consulte Modelos de lenguaje grande (LLM) en Databricks.

library

Paquete de código disponible para el cuaderno o el trabajo que se ejecuta en el clúster. Los entornos de ejecución de Databricks incluyen muchas bibliotecas y puede cargar las suyas propias. Consulte Instalación de bibliotecas.

agrupación en clústeres líquidos

Una característica de optimización del diseño de datos de Azure Databricks para las tablas Delta e Iceberg que organiza los datos de manera incremental en función de las columnas especificadas para mejorar el rendimiento de las consultas. A diferencia de la creación de particiones tradicionales, la agrupación en clústeres líquidos se adapta a los patrones de datos cambiantes. Consulte Uso de clústeres líquidos para tablas.

M

tabla administrada

Tabla cuyos archivos de datos y metadatos están totalmente administrados por el catálogo de Unity. Las tablas administradas siempre se almacenan en formato Delta o Iceberg y se benefician del mantenimiento automatizado a través de la optimización predictiva. Consulte Tablas administradas del catálogo de Unity en Azure Databricks para Delta Lake y Apache Iceberg.

vista materializada

Vista que se ha precomputado y almacenado para que se pueda consultar con menor latencia o repetidamente sin cálculo redundante. Consulte Vistas materializadas.

arquitectura de medallón

Un patrón de diseño de datos que se utiliza para organizar lógicamente los datos en un almacén de lago de datos, con el objetivo de mejorar incremental y progresivamente la estructura y la calidad de los datos a medida que fluyen a través de cada capa de la arquitectura (de Bronce ⇒ Plata ⇒ Oro tablas de capa). ¿Qué es la arquitectura del medallón del almacén de lago de datos?.

metastore

Componente que almacena toda la información de estructura de las distintas tablas y particiones en el almacenamiento de datos, incluida la información de tipo de columna y columna, los serializadores y deserializadores necesarios para leer y escribir datos, y los archivos correspondientes donde se almacenan los datos. Consulte Metastore.

Vista de métricas

Objeto catalog de Unity que proporciona una manera centralizada de definir y administrar métricas empresariales reutilizables. Las vistas de métricas separan las definiciones de medida de las agrupaciones de dimensiones, lo que le permite definir métricas una vez y consultarlas de forma flexible en cualquier dimensión. Consulte Vistas de métricas del catálogo de Unity.

MLflow

La mayor plataforma de ingeniería de IA de código abierto para agentes, modelos de lenguaje extenso y modelos de aprendizaje automático. MLflow permite a los equipos de todos los tamaños depurar, evaluar, supervisar y optimizar sus aplicaciones de inteligencia artificial, al tiempo que controla los costos y administra el acceso a los modelos y los datos. MLflow en Azure Databricks es un servicio totalmente administrado con funcionalidad adicional para los clientes empresariales, lo que proporciona una implementación administrada escalable y segura de MLflow. Consulte MLflow en Databricks.

Rastreo de MLflow

Una característica de MLflow para GenAI que proporciona observabilidad de un extremo a otro mediante el registro de cada paso que toma un agente o aplicación de IA. Use el seguimiento de MLflow para depurar, supervisar y auditar el comportamiento del agente en desarrollo y producción. Consulte Seguimiento de MLflow: observabilidad de GenAI.

Protocolo de contexto de modelo (MCP)

Estándar de código abierto que conecta los agentes de inteligencia artificial a herramientas, recursos, avisos y otra información contextual a través de una interfaz estandarizada. Azure Databricks proporciona servidores MCP administrados, externos y personalizados. Consulte Protocolo de contexto de modelo (MCP) en Databricks.

entrenamiento de modelos

Proceso de entrenamiento de modelos de aprendizaje automático y aprendizaje profundo en Azure Databricks con muchas bibliotecas de código abierto populares. Consulte Entrenamiento de modelos de inteligencia artificial y aprendizaje automático.

Mosaic AI

La característica que proporciona herramientas unificadas para compilar, implementar, evaluar y controlar soluciones de inteligencia artificial y aprendizaje automático, desde la creación de modelos de ML predictivos a las aplicaciones de IA generativas más recientes. Consulta IA y aprendizaje automático en Databricks.

Servicio de modelo de IA de Mosaic

Interfaz unificada para implementar, controlar y consultar modelos de IA para la inferencia por lotes y en tiempo real. Consulte Implementación de modelos mediante el Servicio de Modelos de IA de Mosaic.

Entrenamiento de modelo de Mosaic AI

La característica permite usar los datos para personalizar un modelo de base para optimizar su rendimiento para su aplicación específica. Al realizar el ajuste completo de parámetros o el entrenamiento continuo de un modelo de base, es posible entrenar su propio modelo con muchos menos recursos de proceso, tiempo y datos que entrenar un modelo desde cero. Consulte afinamiento del modelo base.

Vector de búsqueda en IA de Mosaic

Índice de búsqueda vectorial integrado en databricks Data Intelligence Platform e integrado con sus herramientas de gobernanza y productividad. Consulte el Motor de Búsqueda Vectorial de Mosaic AI.

N

notebook

Interfaz web interactiva usada por científicos de datos e ingenieros para escribir y ejecutar código en varios lenguajes (por ejemplo, Python, Scala, SQL) en el mismo documento. Ver Cuadernos de Databricks.

O

OAuth

OAuth es un estándar abierto para la delegación de acceso, que normalmente se usa como una manera de conceder a los usuarios de Internet acceso a sitios web o aplicaciones a su información en otros sitios web, pero sin proporcionarles las contraseñas. Consulte Autorización del acceso a los recursos de Azure Databricks.

P

Partner Connect

Un programa de Databricks que proporciona integraciones mantenidas por proveedores de software independientes para conectarse a la mayoría de los sistemas de datos empresariales. Consulte ¿Qué es Databricks Partner Connect?

token de acceso personal (PAT)

Cadena de caracteres que se usa para autenticar a un usuario al acceder a un sistema informático en lugar de una contraseña. Consulte Autorización del acceso a los recursos de Azure Databricks.

Photon

Un motor de consultas vectorizado de alto rendimiento nativo de Databricks que ejecuta más rápidamente tus cargas de trabajo de SQL y llamadas a la API DataFrame, disminuyendo el costo total por carga de trabajo. Photon es compatible con las API de Apache Spark, por lo que funciona con el código existente. Consulte ¿Qué es Photon?

optimización predictiva

Una característica de Azure Databricks que identifica y ejecuta automáticamente operaciones de mantenimiento en tablas administradas de Unity Catalog para mejorar el rendimiento de las consultas y reducir los costos de almacenamiento. Consulte Optimización predictiva para tablas administradas de Unity Catalog.

pipeline

Un DAG de tablas, vistas, vistas materializadas, flujos y receptores que se actualizan perezosamente en un orden de dependencia determinado por el sistema.

R

generación aumentada por recuperación (RAG)

Técnica que permite que un modelo de lenguaje grande (LLM) genere respuestas enriquecidas aumentando la solicitud de un usuario con datos auxiliares recuperados de un origen de información externo. Al incorporar esta información recuperada, RAG permite al LLM generar respuestas que son más precisas y de mayor calidad, en comparación con no aumentar el mensaje con contexto adicional. Consulte RAG (generación aumentada de recuperación) en Azure Databricks.

S

schema (Unity Catalog)

El elemento secundario de un catálogo en el Unity Catalog que puede contener tablas, vistas, volúmenes, modelos y funciones. Un esquema es el segundo nivel del espacio de nombres de tres niveles de Unity Catalog (catalog.schema.table-etc). Consulte ¿Qué es Unity Catalog?

proceso sin servidor

Cómputo administrado por Azure Databricks, que reduce la sobrecarga de administración y proporciona cómputo instantáneo para mejorar la productividad del usuario. Véase Conexión a la computación sin servidor.

principal de servicio

Identidad creada para su uso con herramientas automatizadas, trabajos en ejecución y aplicaciones. Puede restringir el acceso de una entidad de servicio a los recursos mediante permisos, de la misma manera que un usuario de Azure Databricks. A diferencia de un usuario de Azure Databricks, una entidad de seguridad de servicio es una identidad exclusiva de la API; no puede acceder directamente a la interfaz de usuario de Azure Databricks ni a la CLI de Databricks. Consulte entidades de servicio.

sumidero (canalizaciones)

Un receptor es el destino de un flujo que escribe en un sistema externo (por ejemplo, Kafka, Kinesis o Delta).

SQL Warehouse

Un recurso de proceso que le permite consultar y explorar datos en Azure Databricks. Consulte Conexión al almacén SQL.

procesamiento de flujos

Un método de procesamiento de datos que le permite definir una consulta en un conjunto de datos ilimitado y luego procesar los datos en lotes pequeños e incrementales. El procesamiento de flujos de Azure Databricks usa Structured Streaming. Consulte los conceptos de Structured Streaming.

streaming

El streaming hace referencia a cualquier contenido multimedia (en directo o grabado) (es decir, un flujo de datos) entregado a equipos y dispositivos móviles a través de Internet y reproducido en tiempo real. Consulte los conceptos de Structured Streaming.

análisis de streaming

Proceso de análisis de datos generados continuamente por diferentes orígenes. Azure Databricks admite el análisis de streaming a través de Structured Streaming, lo que permite el procesamiento y el análisis de datos en directo para obtener información en tiempo real.

Structured Streaming

Un motor de procesamiento de flujos escalable y tolerante a errores basado en el motor de Spark SQL, lo que permite cálculos complejos como consultas de streaming. Consulte los conceptos de Structured Streaming.

tabla de streaming

Una tabla administrada que tiene un flujo que escribe en ella. Consulte Tablas de streaming.

tablas del sistema

Almacén de datos analíticos alojado en Azure Databricks para los datos operativos de tu cuenta, como registros de auditoría, uso facturable y linaje. Las tablas del sistema están disponibles en el system catálogo de Unity Catalog. Consulte Monitorear la actividad de la cuenta con tablas del sistema.

tabla sincronizada

Una tabla sincronizada es una tabla postgres de solo lectura del catálogo de Unity que sincroniza automáticamente los datos de una tabla de catálogo de Unity con la instancia de base de datos. Consulte Serve lakehouse data with synced tables (Servir datos de Lakehouse con tablas sincronizadas [aprovisionado por Lakebase]).

T

table

Una tabla reside en un esquema y contiene filas de datos. Todas las tablas creadas en Databricks usan Delta Lake de forma predeterminada. Las tablas respaldadas por Delta Lake también se denominan Tablas Delta. Consulte Tablas de Azure Databricks.

canalización desencadenada

Una canalización que ingiere todos los datos disponibles al inicio de la actualización para cada tabla, ejecutándose en orden de dependencia y finalizando a continuación. Consulte Desencadenado frente al modo de canalización continua.

U

función definida por el usuario (UDF)

Función personalizada creada por un usuario para ampliar las funcionalidades integradas de SQL o un lenguaje de programación. En Azure Databricks, las UDF se pueden registrar en el Catálogo de Unity para la gobernanza y la reutilización entre áreas de trabajo. Consulte ¿Qué son las funciones definidas por el usuario (UDF)?.

Catálogo de Unity

Una característica de Azure Databricks que proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Azure Databricks. Consulte ¿Qué es Unity Catalog?

V

base de datos vectorial

Base de datos optimizada para almacenar y recuperar incrustaciones. Las incrustaciones son representaciones matemáticas del contenido semántico de los datos, normalmente datos de texto o imagen. Databricks proporciona un índice de búsqueda vectorial que permite usar características de base de datos vectoriales en las tablas Delta. Consulte el Motor de Búsqueda Vectorial de Mosaic AI.

view

Tabla virtual definida por una consulta SQL. No almacena datos, sino que proporciona una manera de presentar datos de una o varias tablas, en un formato o abstracción específicos. Consulte ¿Qué es una vista?.

volúmenes (Unity Catalog)

Objetos de catálogo de Unity que permiten la gobernanza en conjuntos de datos no tabulares. Los volúmenes representan un volumen lógico de almacenamiento en una ubicación de almacenamiento de objetos en la nube. Los volúmenes proporcionan funcionalidades de acceso, almacenamiento, gobernanza y organización de archivos. Consulte ¿Qué son los volúmenes de Unity Catalog?.

W

Trabajos de Lakeflow

Conjunto de herramientas que permiten programar y organizar tareas de procesamiento de datos en Azure Databricks. Consulte Trabajos de Lakeflow.

workload

Cantidad de capacidad de procesamiento necesaria para realizar una tarea o un grupo de tareas. Azure Databricks identifica dos tipos de cargas de trabajo: ingeniería de datos (trabajo) y análisis de datos (uso general). Consulte Componentes de Azure Databricks.

workspace

Un entorno organizativo que permite a los usuarios de Databricks desarrollar, examinar y compartir objetos como cuadernos, experimentos, consultas y paneles. Consulte Interfaz de usuario del área de trabajo.

Comentarios

¿Le resultó útil esta página?

Last updated on 2026-04-04

Compartir vía

Glosario de terminología técnica de Azure Databricks

A

B

C

D

E

F

G

I

J

L

M

N

O

P

R

S

T

U

V

W

Comentarios

Recursos adicionales