Clasificación de datos

Importante

Esta característica está en versión preliminar pública.

En esta página se describe cómo usar la clasificación de datos de Databricks en el catálogo de Unity para clasificar y etiquetar automáticamente datos confidenciales en el catálogo.

Los catálogos de datos pueden tener una gran cantidad de datos, a menudo que contienen datos confidenciales conocidos y desconocidos. Es fundamental que los equipos de datos comprendan qué tipo de datos confidenciales existe en cada tabla para que puedan gobernar y democratizar el acceso a estos datos.

Para solucionar este problema, La clasificación de datos de Databricks usa un agente de INTELIGENCIA ARTIFICIAL para clasificar y etiquetar automáticamente tablas en el catálogo. Esto le permite detectar datos confidenciales y aplicar controles de gobernanza sobre los resultados, mediante herramientas como el control de acceso basado en atributos (ABAC) de Unity Catalog. Para obtener una lista de las etiquetas admitidas, consulte Etiquetas de clasificación admitidas.

Con esta característica, puede:

Clasificar datos: el motor usa un sistema de IA agente para clasificar y etiquetar automáticamente las tablas en el catálogo de Unity.
Optimización del costo a través del análisis inteligente: el sistema determina de forma inteligente cuándo examinar los datos mediante el catálogo de Unity y el motor de inteligencia de datos. Esto significa que el examen es incremental y optimizado para asegurarse de que todos los datos nuevos se clasifican sin configuración manual.
Revisar y proteger datos confidenciales: la visualización de los resultados le ayuda a ver los resultados de clasificación y a proteger los datos confidenciales mediante el etiquetado y la creación de directivas de control de acceso para cada clase.

Importante

La clasificación de datos de Databricks usa el almacenamiento predeterminado para almacenar los resultados de clasificación. No se le factura el almacenamiento.

La clasificación de datos de Databricks usa un modelo de lenguaje grande (LLM) para ayudar con la clasificación.

Requisitos

Nota:

La clasificación de datos es una característica de versión preliminar de nivel de área de trabajo y solo puede administrarla un administrador de área de trabajo o cuenta. Para obtener instrucciones, consulte Administración de versiones preliminares de Azure Databricks.

Importante

El modelo que alimenta esta función está disponible mediante las API del modelo de Mosaic AI Serving Foundation. Llama 3.1 tiene licencia bajo la Licencia comunitaria llama 3.1, Copyright © Meta Platforms, Inc. Todos los derechos reservados. Consulte Licencias y términos aplicables para desarrolladores de modelos para obtener más información.

Si los modelos surgen en el futuro que funcionan mejor según las pruebas comparativas internas de Databricks, Databricks puede cambiar los modelos y actualizar la documentación.

Debe tener habilitada la computación sin servidor. Véase Conexión a la computación sin servidor.
Para habilitar la clasificación de datos, debe poseer el catálogo o tener privilegios de USE_CATALOG y MANAGE sobre él.
Para ver la tabla de resultados, debe tener los siguientes permisos: USE CATALOG y USE SCHEMA, además de SELECT en la tabla. Consulte La tabla del sistema de resultados.

Uso de la clasificación de datos

Para usar la clasificación de datos en un catálogo:

Vaya al catálogo y haga clic en la pestaña Detalles .
Haga clic en el interruptor Clasificación de datos para habilitarlo.
Aparece el cuadro de diálogo Habilitar clasificación de datos . De forma predeterminada, se incluyen todos los esquemas. Para incluir solo algunos esquemas, selecciónelos en el menú desplegable Esquemas para incluir .
Haga clic en Habilitar.

Esto crea un trabajo en segundo plano que examina incrementalmente todas las tablas del catálogo o esquemas seleccionados.

El motor de clasificación se basa en el examen inteligente para determinar cuándo examinar una tabla. Las nuevas tablas y columnas de un catálogo normalmente se examinan en un plazo de 24 horas a partir de la creación.

Visualización de los resultados de la clasificación

Para ver los resultados de la clasificación, haga clic en Ver resultados junto al interruptor.

Consulte el botón de resultados para clasificación de datos.

Se abre una página de resultados, en la que se muestran los resultados de clasificación de todas las tablas del catálogo. Para seleccionar otro catálogo, use el selector situado en la parte superior izquierda de la página. Se requiere un almacén SQL sin servidor y se muestra en la esquina superior derecha de la página.

En la página de resultados se enumeran las etiquetas de clasificación identificadas en el catálogo. Las directivas de ABAC existentes que hacen referencia a etiquetas del sistema de clasificación de datos (class.xx) aparecen en la tabla.

Página de resultados que muestra la tabla de clases detectadas.

Para revisar los resultados de una etiqueta de clasificación específica, haga clic en Revisar en la columna situada más a la derecha de la fila correspondiente.

Resultados que muestran columnas con clasificaciones detectadas.

Aparece un panel que muestra las tablas para las que la clasificación de datos ha detectado la etiqueta de clasificación con alta confianza. Revise las tablas, columnas y valores de ejemplo. Los valores de ejemplo solo aparecen si tiene acceso a la tabla de resultados. Consulte La tabla del sistema de resultados.

Si las columnas identificadas coinciden con sus expectativas, puede habilitar el etiquetado automático para la etiqueta de clasificación de este catálogo. Cuando se habilita el etiquetado automático, se etiquetan todas las detecciones existentes y futuras de esta clasificación.

Para habilitar el etiquetado automático, active el interruptor Etiquetado Automático. Más adelante, puede deshabilitar el etiquetado automático con el mismo interruptor. Al deshabilitar el etiquetado, no se aplica ninguna etiqueta futura, pero no se quitan las etiquetas existentes.

Nota:

Al habilitar el etiquetado automático, las etiquetas no se rellenan inmediatamente. Se rellenarán en el siguiente escaneo, que debe entrar en vigor en un plazo de 24 horas. Las clasificaciones posteriores se etiquetarán inmediatamente.

La tabla del sistema de resultados

La clasificación de datos crea una tabla del sistema denominada system.data_classification.results para almacenar los resultados que, de forma predeterminada, solo son accesibles para el administrador de la cuenta. El administrador de la cuenta puede compartir esta tabla. La tabla solo es accesible cuando se utiliza computación sin servidor. Para obtener más información sobre esta tabla, consulte Referencia de tabla del sistema de clasificación de datos.

Importante

La tabla system.data_classification.results de resultados contiene todos los resultados de clasificación en todo el metastore e incluye valores de ejemplo de tablas de cada catálogo. Debe compartir esta tabla únicamente con usuarios que tengan privilegios para ver los resultados de clasificación de todo el metastore, incluidos los valores de muestra.

Los permisos siguientes son necesarios para ver la tabla de resultados: USE CATALOG y USE SCHEMA, además de SELECT en la tabla. Los usuarios con MANAGE o SELECT acceso a un catálogo pueden ver los resultados en la página, pero no pueden ver los valores de ejemplo.

Configuración de controles de gobernanza basados en los resultados de clasificación de datos

Enmascarar datos confidenciales mediante una directiva de ABAC

Databricks recomienda usar el control de acceso basado en atributos (ABAC) de Unity Catalog para crear controles de gobernanza basados en los resultados de la clasificación de datos.

Para crear una directiva, haga clic en Nueva directiva. El formulario de directiva se rellena previamente para enmascarar columnas con la etiqueta de clasificación que se está revisando. Para enmascarar los datos, especifique cualquier función de enmascaramiento registrada en el catálogo de Unity y haga clic en Guardar.

También puede crear una directiva que abarque varias etiquetas de clasificación al cambiar Cuando la columna a cumpla la condición y proporcionando varias etiquetas.

Por ejemplo, para crear una directiva denominada "Confidencial", que enmascara cualquier nombre, correo electrónico o número de teléfono, establezca la condición hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number") en .

En este cuaderno de ejemplo se muestra cómo puede usar la clasificación de datos para ayudar con la detección y eliminación de datos para el cumplimiento del RGPD.

Obtener el cuaderno

Cómo controlar etiquetas incorrectas

Si los datos se etiquetan incorrectamente, puede quitar manualmente la etiqueta. La etiqueta no se volverá a aplicar en exámenes futuros.

Para quitar una etiqueta mediante la interfaz de usuario, vaya a la tabla en el Explorador de catálogos y edite las etiquetas de columna.

Para quitar una etiqueta mediante SQL:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Errores de escaneo

Si se producen errores durante el examen, aparece un botón Errores en la esquina superior derecha de la tabla de resultados.

Haga clic en el botón para mostrar las tablas que han producido un error en el examen y los mensajes de error asociados.

Errores de escaneo de tablas de clasificación de datos.

De forma predeterminada, los errores que se produjeron para las tablas individuales se omiten y se reintentan el día siguiente.

Ver los gastos de clasificación de datos

Para comprender cómo se factura la clasificación de datos, consulte la página de precios. Puede ver los gastos relacionados con la clasificación de datos ejecutando una consulta o viendo el panel de uso.

Nota:

El examen inicial es más costoso que los exámenes posteriores en el mismo catálogo, ya que esos exámenes son incrementales y normalmente incurren en costos más bajos.

Visualización del uso de la tabla del sistema `system.billing.usage`

Puede consultar los gastos de clasificación de datos desde system.billing.usage. Los campos created_by y catalog_id se pueden usar opcionalmente para desglosar los costos:

created_by: Incluir para ver los costos del usuario que activó el uso.
catalog_id: Incluya esta opción para ver los costes por catálogo. El identificador de catálogo se muestra en la system.data_classification.results tabla.

Consulta de ejemplo para los últimos 30 días:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Visualización del uso desde el panel de uso

Si ya tiene un panel de uso configurado en el área de trabajo, puede usarlo para filtrar el uso seleccionando el proyecto de origen de facturación con la etiqueta "Clasificación de datos". Si no tiene configurado un panel de uso, puede importar uno y aplicar el mismo filtrado. Para obtener más información, consulte Paneles de uso.

Etiquetas de clasificación admitidas

En la tabla se enumeran las etiquetas gestionadas por el sistema admitidas por la clasificación de datos.

Clase	Descripción
class.credit_card	Número de tarjeta de crédito
class.dirección_correo_electrónico	Dirección de correo electrónico
class.iban_code	Número de cuenta bancaria internacional (IBAN)
class.ip_address	Dirección de protocolo de Internet (IPv4 o IPv6)
class.location	Ubicación
class.name	Nombre de una persona
class.phone_number // número_de_teléfono	Número de teléfono
class.us_bank_number	Número de banco de EE. UU.
clase.licencia_conducir_us	Licencia de conducir de EE. UU.
class.us_itin	Número de identificación de contribuyente individual de EE. UU.
class.pasaporte_eeuu	Pasaporte de EE. UU.
class.us_ssn	Número de seguridad social de EE. UU.

Limitaciones

No se admiten visualizaciones ni vistas de métricas. Si la vista se basa en tablas existentes, Databricks recomienda clasificar las tablas subyacentes para ver si contienen datos confidenciales.

Retroalimentació

Ha estat útil aquesta pàgina?

Last updated on 2025-11-19

Comparteix via

Clasificación de datos

Requisitos

Uso de la clasificación de datos

Visualización de los resultados de la clasificación

La tabla del sistema de resultados

Configuración de controles de gobernanza basados en los resultados de clasificación de datos

Enmascarar datos confidenciales mediante una directiva de ABAC

Detección y eliminación del RGPD

Detección y eliminación del RGPD mediante el cuaderno de clasificación de datos

Cómo controlar etiquetas incorrectas

Errores de escaneo

Ver los gastos de clasificación de datos

Visualización del uso de la tabla del sistema system.billing.usage

Visualización del uso desde el panel de uso

Etiquetas de clasificación admitidas

Limitaciones

Retroalimentació

Recursos addicionals

Visualización del uso de la tabla del sistema `system.billing.usage`