Tarea de generación de perfiles de datos
La tarea de generación de perfiles de datos calcula diversos perfiles que le ayudan a familiarizarse con un origen de datos y a identificar en los datos problemas que deban corregirse.
Puede utilizar la tarea de generación de perfiles de datos dentro de un paquete de Integration Services para generar perfiles de datos que están almacenados en SQL Server e identificar posibles problemas de calidad de los datos.
Nota
En este tema únicamente se describen las características y requisitos de la tarea de generación de perfiles de datos. Para obtener un tutorial acerca de cómo se utiliza la tarea de generación de perfiles de datos, consulte la sección Generar perfiles de datos con la tarea de generación de perfiles de datos y el visor.
Importante |
---|
La tarea de generación de perfiles de datos solo funciona con datos que estén almacenados en SQL Server 2000 o en versiones posteriores. Esta tarea no funciona con orígenes de datos de otros fabricantes o basados en archivos. Además, para ejecutar un paquete que contiene la tarea de generación de perfiles de datos, debe utilizar una cuenta que tenga permisos de lectura/escritura, incluidos los permisos CREATE TABLE, en la base de datos de tempdb. |
Después de utilizar la tarea para calcular los perfiles de datos y guardarlos en un archivo, puede utilizar el Visor de perfil de datos independiente para revisar el perfil generado. El Visor de perfil de datos también admite la obtención de detalles para ayudarle a entender los problemas de calidad de los datos que se identifican en el perfil generado. Para obtener más información, vea Ver la salida de perfiles en el visor de perfiles de datos.
Importante |
---|
El archivo de salida podría contener datos confidenciales acerca de la base de datos y de los datos que contiene. Para conocer sugerencias acerca de cómo hacer que este archivo sea más seguro, vea Controlar el acceso a los archivos usados por los paquetes. La capacidad de detalle, que está disponible en el Visor de perfil de datos, envía las consultas actuales al origen de datos original. |
Descripción de los perfiles disponibles
La tarea de generación de perfiles de datos puede calcular ocho perfiles de datos diferentes. Cinco de estos perfiles analizan columnas individuales y los otros tres analizan varias columnas o relaciones entre las columnas y las tablas.
Los cinco perfiles siguientes analizan columnas individuales.
Perfiles que analizan columnas individuales |
Descripción |
---|---|
Perfil de distribución de longitud de columnas |
Notifica las diferentes longitudes de valores de cadena existentes en la columna seleccionada y el porcentaje de filas de la tabla que representa cada longitud. Este perfil le ayuda a identificar problemas en los datos, como los valores no válidos. Por ejemplo, genera un perfil de una columna de códigos de estados de Estados Unidos que deberían ser de dos caracteres y detecta valores con más de dos caracteres. |
Perfil de proporción de columnas nulas |
Notifica el porcentaje de valores nulos en la columna seleccionada. Este perfil permite identificar problemas con los datos, como una proporción inesperadamente alta de valores nulos en una columna. Por ejemplo, si al generar un perfil de una columna de códigos postales se detecta un porcentaje excesivamente alto de códigos que faltan. |
Perfil de patrón de columnas |
Notifica un conjunto de expresiones regulares que cubren el porcentaje de valores especificado en una columna de cadenas. Este perfil le ayuda a identificar problemas con los datos, como las cadenas no válidas. Este perfil también puede sugerir expresiones regulares que se pueden usar en el futuro para validar los valores nuevos. Por ejemplo, un perfil del patrón de una columna de códigos postales de Estados Unidos podría generar las expresiones regulares: \d{5}-\d{4}, \d{5} y \d{9}. Si aparecen otras expresiones regulares, es posible que los datos contengan valores no válidos o que tengan un formato incorrecto. |
Perfil de estadísticas de columnas |
Notifica estadísticas, como los valores mínimo, máximo, medio y la desviación estándar para las columnas numéricas, y los valores mínimo y máximo para las columnas datetime. Este perfil le ayuda a identificar problemas existentes en los datos, como las fechas no válidas. Por ejemplo, si al generar un perfil de una columna de fechas históricas descubre una fecha máxima futura. |
Perfil de distribución de valores de columna |
Notifica todos los valores distintos existentes en la columna seleccionada y el porcentaje de filas de la tabla que representa cada valor. También puede notificar los valores existentes en un número de filas de la tabla que supera cierto porcentaje. Este perfil le ayuda a identificar problemas con los datos, como un número incorrecto de valores distintos en una columna. Por ejemplo, si al generar un perfil de una columna que se supone que contiene los estados de Estados Unidos detecta más de 50 valores distintos. |
Los tres perfiles siguientes analizan varias columnas o relaciones entre columnas y tablas.
Perfiles que analizan varias columnas |
Descripción |
---|---|
Perfil de claves candidatas |
Notifica si una columna o un conjunto de columnas es una clave, o una clave aproximada, para la tabla seleccionada. Este perfil le ayuda a identificar problemas con los datos, como por ejemplo, valores duplicados en una posible columna de clave. |
Perfil de dependencia funcional |
Notifica hasta qué punto los valores de una columna (la columna dependiente) dependen de los valores de otra columna o de un conjunto de columnas (la columna determinante). Este perfil le ayuda a identificar problemas con los datos, como valores no válidos. Por ejemplo, al generar un perfil de la dependencia entre una columna que contiene códigos postales de Estados Unidos y una columna que contiene estados de Estados Unidos. El mismo código postal debería tener siempre el mismo estado, pero el perfil detecta incumplimientos de esta dependencia. |
Perfil de inclusión de valores |
Calcula la superposición existente entre los valores de dos columnas o conjuntos de columnas. Este perfil puede determinar si una columna o un conjunto de columnas resulta adecuado para actuar como una clave externa entre las tablas seleccionadas. Este perfil le ayuda a identificar problemas con los datos, como valores no válidos. Por ejemplo, puede generar el perfil de una columna IdProducto de una tabla Ventas y detectar que dicha columna contiene valores que no se encuentran en la columna IdProducto de la tabla Productos. |
Requisitos previos para un perfil válido
Un perfil no es válido si no selecciona tablas y columnas que no están vacías, y las columnas contienen tipos de datos que son válidos para el perfil.
Tipos de datos válidos
Algunos de los perfiles disponibles solo tienen sentido para ciertos tipos de datos. Por ejemplo, no tiene sentido calcular un perfil de patrón de columnas para una columna que contiene valores numéricos o datetime. Por consiguiente, este tipo de perfil no es válido.
Perfil |
Tipos de datos válidos* |
---|---|
ColumnStatisticsProfile |
Columnas de tipo numérico o datetime (no se calcula mean ni stddev para columnas de tipo datetime) |
ColumnNullRatioProfile |
Todas las columnas** |
ColumnValueDistributionProfile |
Columnas de tipo integer, char y datetime |
ColumnLengthDistributionProfile |
Columnas de tipo char |
ColumnPatternProfile |
Columnas de tipo char |
CandidateKeyProfile |
Columnas de tipo integer, char y datetime |
FunctionalDependencyProfile |
Columnas de tipo integer, char y datetime |
InclusionProfile |
Columnas de tipo integer, char y datetime |
* En la tabla anterior de tipos de datos válidos, los tipos integer, char, datetime y numeric incluyen los tipos de datos específicos siguientes:
Los tipos enteros incluyen bit, tinyint, smallint, int y bigint.
Los tipos de caracteres incluyen char, nchar, varchar y nvarchar, pero no incluyen varchar(max) ni nvarchar(max).
Los tipos de fecha y hora incluyen datetime, smalldatetime y timestamp.
Los tipos numéricos incluyen los tipos integer (excepto bit), money, smallmoney, decimal, float, real y numeric.
** No se admiten los tipos image, text, xml, udt y variant para los perfiles distintos del perfil de proporción de columnas nulas.
Tablas y columnas válidas
Si la tabla o la columna está vacía, la tarea de generación de perfiles de datos realiza las acciones siguientes:
Cuando la tabla o la vista seleccionada esté vacía, la tarea de generación de perfiles de datos no calculará ningún perfil.
Cuando todos los valores de la columna seleccionada sean NULL, la tarea de generación de perfiles de datos solo calculará el perfil de proporción de columnas nulas. La tarea no calculará el perfil de distribución de longitud de columnas, el perfil de patrón de columnas, el perfil de estadísticas de columnas ni el perfil de distribución de valores de columna.
Características de la tarea de generación de perfiles de datos
La tarea de generación de perfiles de datos tiene estas prácticas opciones de configuración:
Columnas de carácter comodín: mientras se configura una solicitud de generación de perfil, la tarea acepta el carácter comodín (*) en lugar de un nombre de columna. Esto simplifica la configuración y permite descubrir con facilidad las características de los datos poco familiares. Cuando se ejecuta la tarea, ésta genera perfiles para cada columna con un tipo de datos adecuado.
Perfil rápido: puede seleccionar un perfil rápido para configurar la tarea rápidamente. Un perfil rápido genera perfiles para una tabla o una vista mediante todos los perfiles y valores de configuración predeterminados.
Mensajes de registro personalizados disponibles en la tarea de generación de perfiles de datos
La siguiente tabla contiene las entradas del registro personalizadas para la tarea de generación de perfiles de datos. Para obtener más información, vea Implementar inicios de sesión en paquetes y Mensajes personalizados para registro.
Entrada del registro |
Descripción |
---|---|
DataProfilingTaskTrace |
Proporciona información descriptiva sobre el estado de la tarea. Los mensajes incluyen la información siguiente:
|
Descripción del resultado y de su esquema
La tarea de generación de perfiles de datos genera los perfiles seleccionados en XML y se estructura según el esquema DataProfile.xsd. Puede especificar si este XML generado se guarda en un archivo o en una variable de paquete. Puede ver este esquema en Internet en la dirección https://schemas.microsoft.com/sqlserver/2008/DataDebugger/. Desde la página web puede guardar una copia local del esquema. A continuación, puede ver la copia local del esquema en Microsoft Visual Studio u otro editor de esquemas, en un editor XML o en un editor de texto, como el Bloc de notas.
Este esquema de información sobre la calidad de los datos podría ser útil para:
Intercambiar información sobre la calidad de los datos dentro de las organizaciones y entre ellas.
Generar herramientas personalizadas para trabajar con información sobre la calidad de los datos.
El espacio de nombres de destino se identifica en el esquema como https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.
Utilizar el resultado en el flujo de trabajo condicional de un paquete
Los componentes que generan perfiles de datos no incluyen funcionalidad integrada para implementar la lógica condicional en el flujo de trabajo del paquete de Integration Services basándose en el resultado de la tarea de generación de perfiles de datos. Sin embargo, puede agregar fácilmente esta lógica en una tarea Script con una cantidad de programación mínima. Este código realizaría una consulta XPath en el XML generado y, a continuación, guardaría el resultado en una variable de paquete. Las restricciones de precedencia que conectan la tarea Script con las tareas subsiguientes pueden utilizar una expresión para determinar el flujo de trabajo. Por ejemplo, la tarea Script detecta que el porcentaje de valores NULL de una columna supera un cierto umbral. Cuando esta condición sea True, quizá desee interrumpir el paquete y resolver el problema antes de continuar.
Configurar la tarea de generación de perfiles de datos
La tarea de generación de perfiles de datos se configura mediante el Editor de tareas de generación de perfiles de datos. El editor tiene dos páginas:
Página General
En la página General, se especifica el archivo o la variable para los resultados. También es posible seleccionar Perfil rápido para configurar rápidamente la tarea con objeto de calcular los perfiles utilizando la configuración predeterminada. Para obtener más información, vea Formulario de perfil rápido de tabla única (tarea de generación de perfiles de datos).Página Solicitudes de perfil
En la página Solicitudes de perfil, especifique el origen de datos y seleccione y configure los perfiles de los datos que desea calcular. Para obtener más información sobre los diversos perfiles que puede configurar, vea los temas siguientes:Opciones de Solicitud de perfil de claves candidatas (tarea de generación de perfiles de datos)
Opciones de Solicitud de perfil de patrón de columnas (tarea de generación de perfiles de datos)
Opciones de Solicitud de perfil de dependencia funcional (tarea de generación de perfiles de datos)
Opciones de Solicitud de perfil de inclusión de valores (tarea de generación de perfiles de datos)
|