Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
A
lista de control de acceso (ACL)
Lista de permisos asociados al área de trabajo, el clúster, el trabajo, la tabla o el experimento. Una ACL especifica qué usuarios o procesos del sistema tienen acceso a los objetos y qué operaciones se permiten en los recursos. Cada entrada de una ACL típica especifica un sujeto y una operación. Consulte las Listas de control de acceso.
modo de acceso
Una característica de seguridad que determina quién puede usar un recurso de proceso y los datos a los que pueden acceder mientras usan el recurso de proceso. Cada recurso de cálculo en Azure Databricks tiene un modo de acceso. Consulte Modos de acceso.
Transacciones ACID
Transacciones de base de datos que se procesan de forma confiable. ACID significa atomicidad, coherencia, aislamiento, durabilidad. Consulte los procedimientos recomendados para una mayor confiabilidad.
inteligencia artificial (IA)
La capacidad de un equipo para imitar el comportamiento humano inteligente. Consulta IA y aprendizaje automático en Databricks.
Agente de IA
Una aplicación con funcionalidades de razonamiento complejas que le permiten crear su propio plan y ejecutar la tarea de acuerdo con las herramientas a su disposición. Consulte Introducción a las aplicaciones de IA generativas en Databricks.
Funciones de IA
Las funciones SQL integradas que permiten aplicar inteligencia artificial en los datos directamente desde SQL en Azure Databricks. Consulte Aplicación de inteligencia artificial en datos mediante Azure Databricks AI Functions.
Área de juegos de IA
Una característica de Azure Databricks en la que los usuarios pueden interactuar, probar y comparar modelos de IA generativos servidos en el área de trabajo de Azure Databricks. Consulte Chatear con LLM y crear prototipos de aplicaciones de IA generativa con Área de juegos de IA.
detección de anomalías
Técnicas y herramientas que se usan para identificar patrones inusuales que no se ajustan al comportamiento esperado en los conjuntos de datos. Azure Databricks facilita la detección de anomalías a través de sus funcionalidades de procesamiento de datos y aprendizaje automático.
Spark de Apache
Un sistema informático distribuido de código abierto que se usa para cargas de trabajo de macrodatos. Consulte Apache Spark en Azure Databricks.
Red neuronal artificial (ANN)
Un sistema informático inspirado en la operación de las neuronas en el cerebro humano.
activo
Una entidad en un área de trabajo de Azure Databricks (por ejemplo, un objeto o un archivo).
registro de auditoría
Un registro de las actividades y acciones de los usuarios en el entorno de Azure Databricks, cruciales para la seguridad, el cumplimiento y la supervisión operativa. Consulte Referencia del registro de diagnóstico.
Cargador automático
Una característica de ingesta de datos que procesa de forma incremental y eficaz nuevos archivos de datos a medida que llegan al almacenamiento en la nube sin ninguna configuración adicional. Consulte ¿Qué es Auto Loader?.
AutoML
Una característica de Azure Databricks que simplifica el proceso de aplicar el aprendizaje automático a los conjuntos de datos mediante la búsqueda automática del mejor algoritmo y la configuración de hiperparámetros automáticamente. Consulte ¿Qué es AutoML?.
linaje de datos automatizado
Proceso de seguimiento automático y visualización del flujo de datos desde su origen a través de diversas transformaciones a su forma final, esencial para la depuración, el cumplimiento y la comprensión de las dependencias de datos. Azure Databricks facilita esto a través de integraciones con herramientas de linaje de datos.
escalado automático, horizontal
Agregar o quitar ejecutores en función del número de tareas que esperan estar programadas. Esto sucede dinámicamente durante una única actualización.
escalado automático, vertical
Aumentar o disminuir el tamaño de una máquina (controlador o ejecutor) en función de la presión de memoria (o falta de ella). Esto solo sucede al principio de una nueva actualización.
Azure Databricks
Una versión de Databricks optimizada para la plataforma en la nube de Microsoft Azure.
B
procesamiento por lotes
Un método de procesamiento de datos que permite definir instrucciones explícitas para procesar una cantidad fija de datos estáticos y no cambiantes como una sola operación. Azure Databricks usa Spark SQL o DataFrames. Consulte Conectores estándar en Lakeflow Connect.
Detección y mitigación de sesgos
Proceso de identificación y direccionamiento de sesgos en los modelos de datos y aprendizaje automático para garantizar la equidad y la precisión. Databricks ofrece herramientas e integraciones para ayudar a detectar y mitigar el sesgo. Vea Supervisar la equidad y el sesgo para los modelos de clasificación.
Inteligencia empresarial (BI)
Las estrategias y tecnologías utilizadas por las empresas para el análisis de datos y la administración de la información empresarial.
C
Explorador de catálogos
Una característica de Azure Databricks que proporciona una interfaz de usuario para explorar y administrar datos, esquemas (bases de datos), tablas, modelos, funciones y otros recursos de IA. Puede usarlo para buscar objetos de datos y propietarios, comprender las relaciones de datos entre tablas y administrar permisos y uso compartido. Consulte ¿Qué es el Explorador de catálogos?.
instancia secundaria
Una instancia secundaria es un clon de copia en escritura de la instancia de base de datos original. Se puede crear desde el momento actual o desde un momento dado histórico dentro de la ventana de retención. Consulte Creación de una instancia secundaria.
CICD o CI/CD
Las prácticas combinadas de integración continua (CI) y entrega continua (CD). Consulte CI/CD en Azure Databricks.
limpiar datos
Datos que han pasado por un proceso de limpieza de datos, que es el proceso de detectar y corregir (o quitar) registros dañados o inexactos de un conjunto de registros, una tabla o una base de datos, y hace referencia a identificar partes incompletas, incorrectas, inexactas o irrelevantes de los datos y, a continuación, reemplazar, modificar o eliminar los datos sucios o generales.
Salas limpias
Una característica de Azure Databricks que usa delta Sharing y proceso sin servidor para proporcionar un entorno seguro y de protección de la privacidad en el que varias partes pueden compartir datos empresariales confidenciales y colaborar sin acceso directo a los datos de los demás. Con Clean Rooms, los usuarios de otras cuentas de Databricks pueden colaborar para generar información sobre proyectos compartidos, como campañas publicitarias, decisiones de inversión o investigación y desarrollo, sin compartir el acceso a datos subyacentes confidenciales. Consulte ¿Qué es Azure Databricks Clean Rooms?
proveedor de plataformas en la nube
Una empresa que proporciona una plataforma informática en la nube. Por ejemplo, Microsoft Azure, Amazon Web Services (AWS) y Google Cloud Platform (GCP).
clúster
Un recurso de proceso sin servidor que se usa en cuadernos, trabajos y canalizaciones declarativas de Lakeflow. El término proceso ha reemplazado al clúster en toda la interfaz de usuario de Azure Databricks, pero todavía se usa en la API de clústeres y en los metadatos.
proceso
Hace referencia a los recursos de proceso, que son elementos de infraestructura, ya sean hardware o software, que permiten la resolución de problemas y la creación de soluciones mediante la recepción, el análisis y el almacenamiento de datos. Proceso.
flujograma continuo
Una canalización que actualiza todas las tablas continuamente, a medida que llegan nuevos datos a la entrada sin detenerse. Consulte Desencadenado frente al modo de canalización continua.
D
gráfico acíclico dirigido (DAG)
Método de representación de las dependencias entre tareas de un flujo de trabajo o canalización. En un modelo de procesamiento DAG, las tareas se representan como nodos en un gráfico acíclico dirigido, donde los bordes representan las dependencias entre tareas.
Data Catalog
Una herramienta de administración de metadatos para administrar orígenes de datos, proporcionando información sobre la estructura, la ubicación y el uso de los datos. Azure Databricks se integra con catálogos de datos externos para una administración mejorada de metadatos.
gobernanza de datos
La práctica de administrar la disponibilidad, integridad, seguridad y facilidad de uso de los datos, que implican directivas, procedimientos y tecnologías para garantizar la calidad y el cumplimiento de los datos.
ingesta de datos
Proceso de importación, transferencia, carga y procesamiento de datos de varios orígenes en Azure Databricks para el almacenamiento, el análisis y el procesamiento.
data lake
Un repositorio de almacenamiento grande que contiene una gran cantidad de datos sin procesar en su formato nativo hasta que sea necesario.
Data Lakehouse
Un sistema de administración de datos que combina las ventajas de los lagos de datos y los almacenes de datos. Un almacén de lago de datos proporciona funcionalidades de almacenamiento y procesamiento escalables para las organizaciones modernas que quieren evitar un sistema aislado para procesar diferentes cargas de trabajo, como el aprendizaje automático (ML) y la inteligencia empresarial (BI). Un almacén de lago de datos puede ayudar a establecer una única fuente de verdad, eliminar los costes redundantes y garantizar la actualización de los datos. Consulte ¿Qué es una instancia de almacén de lago de datos?.
canalización de datos
Una serie de fases en las que los datos se generan, recopilan, procesan y transfieren a un destino. Databricks facilita la creación y administración de canalizaciones de datos complejas para el procesamiento de datos por lotes y en tiempo real.
privacidad de datos
La práctica de proteger los datos personales contra el acceso, el uso, la divulgación o el robo no autorizados. Azure Databricks destaca las sólidas características de seguridad y privacidad de datos, incluido el cifrado de un extremo a otro, el control de acceso basado en rol y el cumplimiento de las principales normativas de protección de datos, para proteger la información confidencial y garantizar la gobernanza de los datos.
visualización de datos
Un enfoque de administración de datos que permite a una aplicación recuperar y manipular datos sin necesidad de detalles técnicos sobre los datos, como cómo se da formato o dónde se encuentra físicamente. Azure Databricks puede servir como parte de una capa de virtualización de datos proporcionando acceso sin problemas y análisis de datos en orígenes dispares.
almacenamiento de datos
Hace referencia a la recopilación y el almacenamiento de datos de varios orígenes para que se pueda acceder rápidamente a ellos para obtener información empresarial e informes. La arquitectura lakehouse y Databricks SQL aportan funcionalidades de almacenamiento de datos en la nube a los lagos de datos. Consulte ¿Qué es el almacenamiento de datos en Azure Databricks?.
catálogo de bases de datos
Entidad de catálogo de Unity que representa una base de datos de Postgres en una instancia. Esto es conceptualmente similar a un catálogo externo en el catálogo de Unity. Vea Registrar su base de datos en el catálogo de Unity.
instancia de base de datos
Una instancia de base de datos administra los recursos de almacenamiento y proceso y proporciona los puntos de conexión a los que se conectan los usuarios. Consulte ¿Qué es una instancia de base de datos?.
Databricks
Una plataforma unificada de análisis abierto para crear, implementar, compartir y mantener soluciones de inteligencia artificial, análisis y datos de nivel empresarial a escala. La plataforma Data Intelligence de Databricks se integra con el almacenamiento en la nube y la seguridad de su cuenta en la nube, y administra e implementa la infraestructura en la nube en su nombre. Consulte ¿Qué es Azure Databricks?.
Databricks AI/BI
Un producto de inteligencia empresarial para proporcionar comprensión de la semántica de los datos, lo que permite el análisis de datos de autoservicio. AI/BI se basa en un sistema de inteligencia artificial compuesto que extrae información del ciclo de vida completo de los datos en toda la plataforma de Databricks, incluidas las canalizaciones ETL, el linaje y otras consultas. Consulte ¿Qué es Databricks AI/BI?.
Características de inteligencia artificial de Databricks
Motor de inteligencia de datos que impulsa la plataforma de Databricks. Es un sistema de inteligencia artificial compuesto que combina el uso de modelos de INTELIGENCIA ARTIFICIAL, recuperación, clasificación y personalización para comprender la semántica de los patrones de uso y datos de su organización. Consulte Características con tecnología de inteligencia artificial de Databricks.
Conjuntos de recursos de Databricks
Una herramienta para facilitar la adopción de procedimientos recomendados de ingeniería de software, como el control de código fuente, la revisión de código, las pruebas y la integración y entrega continuas (CI/CD) para los proyectos de inteligencia artificial y datos. Las agrupaciones permiten describir recursos de Azure Databricks, como trabajos, canalizaciones y cuadernos como archivos de origen. Consulte ¿Qué son las agrupaciones de recursos de Databricks?
Databricks Assistant
Un programador de pares basado en IA y un agente de soporte técnico que le hace más eficaz a medida que crea cuadernos, consultas, paneles y archivos. Puede ayudarle a responder rápidamente a preguntas mediante la generación, optimización, finalización, explicación y corrección del código y las consultas. Consulte ¿Qué es Databricks Assistant?.
CLI de Databricks
Una interfaz de línea de comandos para Azure Databricks que permite a los usuarios administrar y automatizar áreas de trabajo de Databricks e implementar trabajos, cuadernos y bibliotecas. Consulte ¿Qué es la CLI de Databricks?
Databricks Connect
Una librería cliente que permite a los desarrolladores conectar sus IDEs, cuadernos y otras herramientas favoritas con los recursos de cómputo de Azure Databricks y ejecutar código Spark de forma remota. Consulte ¿Qué es Databricks Connect?
Databricks Container Services
Una característica de Azure Databricks que le permite especificar una imagen de Docker al crear recursos de cómputo. Consulte Personalización de contenedores con Databricks Container Service.
Databricks Marketplace
Foro abierto para intercambiar productos de datos. Los proveedores deben tener una cuenta de Azure Databricks, pero los destinatarios pueden ser cualquiera. Los recursos de Marketplace incluyen conjuntos de datos, cuadernos de Azure Databricks, aceleradores de soluciones de Azure Databricks y modelos de aprendizaje automático (AI). Los conjuntos de datos suelen estar disponibles como catálogos de datos tabulares, aunque también se admiten datos no tabulares, en forma de volúmenes de Azure Databricks. Consulte Qué es Marketplace de Databricks.
Databricks Runtime
Un entorno de ejecución optimizado para el análisis de macrodatos. Databricks también ofrece Databricks Runtime para Machine Learning, que está optimizado para cargas de trabajo de aprendizaje automático. Consulte Databricks Runtime y Versiones y compatibilidad de las notas de lanzamiento de Databricks Runtime.
Databricks SQL (DBSQL)
La colección de servicios que aportan funcionalidades de almacenamiento de datos y rendimiento a los lagos de datos existentes. Azure Databricks SQL admite formatos abiertos y ANSI SQL estándar. Las herramientas de panel y editor de SQL en plataforma permiten a los miembros del equipo colaborar con otros usuarios de Azure Databricks directamente en el área de trabajo. Consulte ¿Qué es el almacenamiento de datos en Azure Databricks?.
DBU
Una unidad de Databricks (DBU) es una unidad de procesamiento normalizada en la plataforma Databricks Lakehouse que se usa con fines de medición y precios. El número de DTU que consume una carga de trabajo se controla mediante métricas de procesamiento, que pueden incluir los recursos de proceso usados y la cantidad de datos procesados. Consulte Componentes de Azure Databricks.
DataFrame
Estructura de datos que organiza los datos en una tabla bidimensional de filas y columnas, como una hoja de cálculo. Los dataframes son una de las estructuras de datos más comunes que se usan en el análisis de datos moderno porque son una forma flexible e intuitiva de almacenar y trabajar con datos. Consulte Tutorial: Carga y transformación de datos mediante DataFrames de Apache Spark.
conjunto de datos
Colección estructurada de datos organizados y almacenados juntos para el análisis o el procesamiento. Los datos de un conjunto de datos suelen estar relacionados de alguna manera y se toman de un único origen o están diseñados para un único proyecto.
Delta Lake
Una capa de almacenamiento de código abierto que aporta confiabilidad a los lagos de datos. Delta Lake proporciona transacciones ACID, control escalable de metadatos y unifica el procesamiento de datos de streaming y por lotes. Consulte ¿Qué es Delta Lake en Azure Databricks?.
Canalizaciones
Un marco declarativo para crear canalizaciones de procesamiento de datos confiables, fáciles de mantener y probar. Usted define las transformaciones que se deben realizar en sus datos, y las canalizaciones declarativas de Lakeflow administran la orquestación de tareas, la gestión de clústeres, la supervisión, la calidad de los datos y el manejo de errores. Consulte Pipelines declarativas de Lakeflow.
Conjuntos de datos de canalizaciones
Las tablas de streaming, las vistas materializadas y las vistas se mantienen como los resultados de las consultas declarativas.
Delta Sharing
Permite compartir recursos de datos e inteligencia artificial en Azure Databricks con usuarios externos a su organización, tanto si esos usuarios usan Azure Databricks como si no. También disponible como un proyecto de código abierto para compartir datos tabulares, su uso en Azure Databricks agrega la capacidad de compartir datos no tabulares, no estructurados (volúmenes), modelos de INTELIGENCIA artificial, vistas, datos filtrados y cuadernos. Consulte ¿Qué es Delta Sharing?.
Tablas delta
El formato predeterminado de tabla de datos en Azure Databricks es una característica del marco de datos de código abierto Delta Lake. Las tablas delta se usan normalmente para lagos de datos, donde los datos se ingieren a través de streaming o por grandes lotes. Consulte Introducción a las tablas de Azure Databricks.
E
ETL (extracción, transformación, carga)
Un enfoque moderno para la integración de datos que extrae datos de orígenes, los carga en el sistema de destino y, a continuación, los transforma dentro del sistema de destino. Consulte Tutorial: Creación de una pipeline ETL con pipelines declarativas de Lakeflow.
F
Almacén de características
Repositorio central para almacenar, administrar y atender características para modelos de aprendizaje automático. Consulte Gestión de funcionalidades.
flujo
Un flujo es un proceso en Lakeflow Declarative Pipelines que lee datos, los transforma y los escribe en un destino.
modelos de base
Grandes modelos de ML preentrenados con la intención de perfeccionarlos para tareas más específicas de comprensión y generación del lenguaje. Vea API de modelo de Databricks Foundation.
G
IA generativa
Un tipo de inteligencia artificial centrado en la capacidad de los equipos de usar modelos para crear contenido como imágenes, texto, código y datos sintéticos. Las aplicaciones de IA generativa se basan en modelos de IA generativa: modelos de lenguaje de gran tamaño (LLM) y modelos de base. Consulta IA y aprendizaje automático en Databricks.
J
trabajo
Unidad principal para programar y orquestar cargas de trabajo de producción en Azure Databricks. Los trabajos constan de una o varias tareas. Consulte Trabajos de Lakeflow.
L
Lakeflow Connect
Ofrece conectores integrados para la ingesta desde bases de datos y aplicaciones empresariales. La canalización de ingestión resultante se rige por Unity Catalog y se impulsa con computación sin servidor y canalizaciones declarativas de Lakeflow. Consulte Conectores administrados en Lakeflow Connect.
Federación de Lakehouse
La plataforma de federación de consultas para Azure Databricks. El término federación de consultas describe una colección de características que permiten a los usuarios y sistemas ejecutar consultas en varios orígenes de datos sin necesidad de migrar todos los datos a un sistema unificado. Azure Databricks usa Unity Catalog para administrar la federación de consultas. Consulte ¿Qué es la Federación Lakehouse?
Lakebase
Azure Databricks Lakebase es una base de datos OLTP integrada con Lakehouse. Una base de datos de procesamiento de transacciones en línea (OLTP) es un tipo especializado de sistema de bases de datos diseñado para controlar eficazmente grandes volúmenes de datos transaccionales en tiempo real. Lakebase permite crear una base de datos OLTP en Azure Databricks y incorporar cargas de trabajo OLTP a Lakehouse. Consulte ¿Qué es Lakebase?.
Supervisión del almacén de lago de datos
Supervisa las propiedades estadísticas y la calidad de los datos en todas las tablas de su cuenta. También puede usarlo para realizar un seguimiento del rendimiento de los modelos de aprendizaje automático y los endpoints de servicio de modelos mediante la monitorización de tablas de inferencia que contienen entradas y predicciones del modelo. Consulte Introducción a la supervisión de Databricks Lakehouse.
modelo de lenguaje grande (LLM)
Un modelo de procesamiento de lenguaje natural (NLP) diseñado para tareas como responder a preguntas abiertas, chat, resumen de contenido, ejecución de instrucciones casi arbitrarias, traducción y generación de contenido y código. Las LLM se entrenan a partir de conjuntos de datos masivos mediante algoritmos avanzados de aprendizaje automático para aprender los patrones y las estructuras del lenguaje humano. Consulte Modelos de lenguaje grande (LLM) en Databricks.
biblioteca
Paquete de código disponible para el cuaderno o el trabajo que se ejecuta en el clúster. Los entornos de ejecución de Databricks incluyen muchas bibliotecas y puede cargar las suyas propias. Consulte Instalación de bibliotecas.
M
vista materializada
Vista que se ha precomputado y almacenado para que se pueda consultar con menor latencia o repetidamente sin cálculo redundante. Consulte Vistas materializadas.
Arquitectura de medallones
Un patrón de diseño de datos que se utiliza para organizar lógicamente los datos en un almacén de lago de datos, con el objetivo de mejorar incremental y progresivamente la estructura y la calidad de los datos a medida que fluyen a través de cada capa de la arquitectura (de Bronce ⇒ Plata ⇒ Oro tablas de capa). ¿Qué es la arquitectura del medallón del almacén de lago de datos?.
metastore
Componente que almacena toda la información de estructura de las distintas tablas y particiones en el almacenamiento de datos, incluida la información de tipo de columna y columna, los serializadores y deserializadores necesarios para leer y escribir datos, y los archivos correspondientes donde se almacenan los datos. Consulte Metastore.
MLflow
Una plataforma de código abierto para administrar el ciclo de vida de aprendizaje automático de un extremo a otro, incluida la experimentación, la reproducibilidad y la implementación. MLflow en Azure Databricks es un servicio totalmente administrado con funcionalidad adicional para los clientes empresariales, lo que proporciona una implementación administrada escalable y segura de MLflow. Consulte MLflow para el ciclo de vida del modelo de ML.
entrenamiento de modelos
Proceso de entrenamiento de modelos de aprendizaje automático y aprendizaje profundo en Azure Databricks con muchas bibliotecas de código abierto populares. Consulte Entrenamiento de modelos de inteligencia artificial y aprendizaje automático.
Mosaic IA
La característica que proporciona herramientas unificadas para compilar, implementar, evaluar y controlar soluciones de inteligencia artificial y aprendizaje automático, desde la creación de modelos de ML predictivos a las aplicaciones de IA generativas más recientes. Consulta IA y aprendizaje automático en Databricks.
Servicio de modelo de IA de Mosaic
Interfaz unificada para implementar, controlar y consultar modelos de IA para la inferencia por lotes y en tiempo real. Consulte Implementación de modelos mediante el Servicio de Modelos de IA de Mosaic.
Entrenamiento de modelo de Mosaic AI
La característica permite usar los datos para personalizar un modelo de base para optimizar su rendimiento para su aplicación específica. Al realizar el ajuste completo de parámetros o el entrenamiento continuo de un modelo de base, es posible entrenar su propio modelo con muchos menos recursos de proceso, tiempo y datos que entrenar un modelo desde cero. Consulte afinamiento del modelo base.
Vector de búsqueda en IA de Mosaic
Índice de búsqueda vectorial integrado en databricks Data Intelligence Platform e integrado con sus herramientas de gobernanza y productividad. Consulte el Motor de Búsqueda Vectorial de Mosaic AI.
N
cuaderno de notas
Interfaz web interactiva usada por científicos de datos e ingenieros para escribir y ejecutar código en varios lenguajes (por ejemplo, Python, Scala, SQL) en el mismo documento. Consulte Cuadernos de Databricks.
O
OAuth
OAuth es un estándar abierto para la delegación de acceso, que normalmente se usa como una manera de conceder a los usuarios de Internet acceso a sitios web o aplicaciones a su información en otros sitios web, pero sin proporcionarles las contraseñas. Consulte Autorización del acceso a los recursos de Azure Databricks.
P
Partner Connect
Un programa de Databricks que proporciona integraciones mantenidas por proveedores de software independientes para conectarse a la mayoría de los sistemas de datos empresariales. Consulte ¿Qué es Databricks Partner Connect?
token de acceso personal (PAT)
Cadena de caracteres que se usa para autenticar a un usuario al acceder a un sistema informático en lugar de una contraseña. Consulte Autorización del acceso a los recursos de Azure Databricks.
Fotón
Un motor de consultas vectorizado de alto rendimiento nativo de Databricks que ejecuta más rápidamente tus cargas de trabajo de SQL y llamadas a la API DataFrame, disminuyendo el costo total por carga de trabajo. Photon es compatible con las API de Apache Spark, por lo que funciona con el código existente. Consulte ¿Qué es Photon?
canalización
Un DAG de tablas, vistas, vistas materializadas, flujos y receptores que se actualizan perezosamente en un orden de dependencia determinado por el sistema.
R
generación aumentada por recuperación (RAG)
Técnica que permite que un modelo de lenguaje grande (LLM) genere respuestas enriquecidas aumentando la solicitud de un usuario con datos auxiliares recuperados de un origen de información externo. Al incorporar esta información recuperada, RAG permite al LLM generar respuestas que son más precisas y de mayor calidad, en comparación con no aumentar el mensaje con contexto adicional. Consulte RAG (generación aumentada de recuperación) en Azure Databricks.
S
schema (Unity Catalog)
El elemento secundario de un catálogo en el Unity Catalog que puede contener tablas, vistas, volúmenes, modelos y funciones. Un esquema es el segundo nivel del espacio de nombres de tres niveles de Unity Catalog (catalog.schema.table-etc). Consulte ¿Qué es Unity Catalog?
proceso sin servidor
Cómputo administrado por Azure Databricks, que reduce la sobrecarga de administración y proporciona cómputo instantáneo para mejorar la productividad del usuario. Véase Conexión a la computación sin servidor.
entidad de servicio
Identidad creada para su uso con herramientas automatizadas, trabajos en ejecución y aplicaciones. Puede restringir el acceso de una entidad de servicio a los recursos mediante permisos, de la misma manera que un usuario de Azure Databricks. A diferencia de un usuario de Azure Databricks, una entidad de seguridad de servicio es una identidad exclusiva de la API; no puede acceder directamente a la interfaz de usuario de Azure Databricks ni a la CLI de Databricks. Consulte entidades de servicio.
receptor (canalizaciones)
Un receptor es el destino de un flujo que escribe en un sistema externo (por ejemplo, Kafka, Kinesis o Delta).
SQL Warehouse
Un recurso de proceso que le permite consultar y explorar datos en Azure Databricks. Consulte Conexión al almacén SQL.
procesamiento de flujos
Un método de procesamiento de datos que le permite definir una consulta en un conjunto de datos ilimitado y luego procesar los datos en lotes pequeños e incrementales. El procesamiento de flujos de Azure Databricks usa Structured Streaming. Consulte los conceptos de Structured Streaming.
streaming
El streaming hace referencia a cualquier contenido multimedia (en directo o grabado) (es decir, un flujo de datos) entregado a equipos y dispositivos móviles a través de Internet y reproducido en tiempo real. Consulte los conceptos de Structured Streaming.
análisis de streaming
Proceso de análisis de datos generados continuamente por diferentes orígenes. Azure Databricks admite el análisis de streaming a través de Structured Streaming, lo que permite el procesamiento y el análisis de datos en directo para obtener información en tiempo real.
Structured Streaming
Un motor de procesamiento de flujos escalable y tolerante a errores basado en el motor de Spark SQL, lo que permite cálculos complejos como consultas de streaming. Consulte los conceptos de Structured Streaming.
tablas de streaming
Una tabla administrada que tiene un flujo que escribe en ella. Consulte Streaming tables (Tablas de streaming)
tabla sincronizada
Una tabla sincronizada es una tabla postgres de solo lectura del catálogo de Unity que sincroniza automáticamente los datos de una tabla de catálogo de Unity con la instancia de base de datos. Consulte Sincronización de datos de tablas de Catálogo de Unity a una instancia de base de datos.
T
tabla
Una tabla reside en un esquema y contiene filas de datos. Todas las tablas creadas en Databricks usan Delta Lake de forma predeterminada. Las tablas respaldadas por Delta Lake también se denominan Tablas Delta. Consulte Introducción a las tablas de Azure Databricks.
Canalización desencadenada
Una canalización que ingiere todos los datos disponibles al inicio de la actualización para cada tabla, ejecutándose en orden de dependencia y finalizando a continuación. Consulte Desencadenado frente al modo de canalización continua.
U
Catálogo de Unity
Una característica de Azure Databricks que proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Azure Databricks. Consulte ¿Qué es Unity Catalog?
V
base de datos vectorial
Base de datos optimizada para almacenar y recuperar incrustaciones. Las incrustaciones son representaciones matemáticas del contenido semántico de los datos, normalmente datos de texto o imagen. Databricks proporciona un índice de búsqueda vectorial que permite usar características de base de datos vectoriales en las tablas Delta. Consulte el Motor de Búsqueda Vectorial de Mosaic AI.
Vista
Tabla virtual definida por una consulta SQL. No almacena datos, sino que proporciona una manera de presentar datos de una o varias tablas, en un formato o abstracción específicos. Consulte ¿Qué es una vista?.
volúmenes (Unity Catalog)
Objetos de catálogo de Unity que permiten la gobernanza en conjuntos de datos no tabulares. Los volúmenes representan un volumen lógico de almacenamiento en una ubicación de almacenamiento de objetos en la nube. Los volúmenes proporcionan funcionalidades de acceso, almacenamiento, gobernanza y organización de archivos. Consulte ¿Qué son los volúmenes de Unity Catalog?.
W
Trabajos de Lakeflow
Conjunto de herramientas que permiten programar y organizar tareas de procesamiento de datos en Azure Databricks. Consulte Trabajos de Lakeflow.
carga de trabajo
Cantidad de capacidad de procesamiento necesaria para realizar una tarea o un grupo de tareas. Azure Databricks identifica dos tipos de cargas de trabajo: ingeniería de datos (trabajo) y análisis de datos (uso general). Consulte Componentes de Azure Databricks.
Área de trabajo
Un entorno organizativo que permite a los usuarios de Databricks desarrollar, examinar y compartir objetos como cuadernos, experimentos, consultas y paneles. Consulte Exploración del área de trabajo.