Opciones de Solicitud de perfil de patrón de columnas (tarea de generación de perfiles de datos)

Se aplica a:SQL Server SSIS Integration Runtime en Azure Data Factory

Utilice el panel Propiedades de la solicitud de la página Solicitudes de perfil para establecer las opciones de Solicitud de perfil de patrón de columnas seleccionadas en el panel de solicitudes. Un perfil de patrón de columnas notifica un conjunto de expresiones regulares que cubren el porcentaje especificado de valores en una columna de cadenas. Este perfil puede ayudarle a identificar problemas en los datos, como cadenas no válidas, y puede sugerir expresiones regulares que se pueden utilizar en el futuro para validar los valores nuevos. Por ejemplo, un perfil de patrón de una columna de códigos postales de Estados Unidos podría generar las expresiones regulares: \d{5}-\d{4}, \d{5} y \d{9}. Si ve otras expresiones regulares, es posible que los datos contengan valores no válidos o tengan un formato incorrecto.

Nota:

Las opciones que se describen en este tema aparecen en la página Solicitudes de perfil del Editor de tareas de generación de perfiles de datos. Para obtener más información sobre esta página del editor, vea Editor de tareas de generación de perfiles de datos (página Solicitudes de perfil).

Para más información sobre cómo usar la tarea de generación de perfiles de datos, vea Configuración de la Tarea de generación de perfiles de datos. Para obtener más información sobre cómo usar el Visor de perfil de datos para analizar la salida de la tarea de generación de perfiles de datos, vea Visor de perfil de datos.

Uso de delimitadores y símbolos

Antes de calcular los patrones para una Solicitud de perfil de patrón de columnas, la tarea de generación de perfiles de datos divide los datos en tokens. Es decir, la tarea separa los valores de cadena en unidades más pequeñas que se conocen como tokens. La tarea separa las cadenas en tokens según los delimitadores y los símbolos que se especifiquen para las propiedades Delimiters y Symbols :

  • Delimiters De forma predeterminada, la lista de delimitadores contiene los caracteres siguientes: espacio, tabulador horizontal (\t), nueva línea (\n) y retorno de carro (\r). Puede especificar delimitadores adicionales, pero no puede quitar los predeterminados.

  • Symbols De forma predeterminada, la lista Symbols contiene los siguientes caracteres: ,.;:-"'~=&/@!?()<>[]{}|#*^%, así como la marca de graduación. Por ejemplo, si los símbolos son "()-", el valor"(425) 123-4567" se convierte en ["(", "425", ")", "123", "-", "4567", ")"].

Un carácter no puede ser delimitador y símbolo a la vez.

Todos los delimitadores se normalizan en un espacio como parte del proceso de división en tokens, mientras que los símbolos se conservan.

Uso de la tabla de etiquetas

Si lo desea, puede agrupar los tokens relacionados con una etiqueta única almacenando las etiquetas y los términos relacionados en una tabla especial que cree en una base de datos de SQL Server. La tabla de etiquetas debe tener dos columnas de cadena, una denominada "Etiqueta" y la otra "Término". Estas columnas pueden ser de tipo char, nchar, varcharo nvarchar, pero no text ni ntext. Puede combinar varias etiquetas y los términos correspondientes en una única tabla. Una solicitud de perfil de patrón de columnas puede utilizar solo una tabla de etiquetas. Puede utilizar un administrador de conexiones de ADO.NET independiente para conectarse a la tabla de etiquetas. Por consiguiente, la tabla de etiquetas se puede encontrar en una base de datos o en un servidor diferente al de los datos de origen.

Por ejemplo, podría agrupar los valores "Este", "Oeste", "Norte" y "Sur" que podrían aparecer en direcciones mediante la etiqueta única "Dirección". La tabla siguiente es un ejemplo de este tipo de tabla de etiquetas.

Etiqueta Término
Dirección East
Dirección West
Dirección North
Dirección South

Podría utilizar otra etiqueta para agrupar las diferentes palabras que expresan la noción de "calle" en una dirección:

Etiqueta Término
Calle Calle
Calle Avenida
Calle Lugar
Calle Función

Según esta combinación de etiquetas, el patrón resultante para una dirección podría parecerse al siguiente:

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

Nota:

El uso de una tabla de etiquetas disminuye el rendimiento de la tarea de generación de perfiles de datos. No utilice más de 10 etiquetas o más de 100 términos por cada etiqueta.

El mismo término puede pertenecer a más de una etiqueta.

Opciones de Propiedades de la solicitud

Para cada Solicitud de perfil de patrón de columnas, el panel Propiedades de la solicitud muestra los grupos de opciones siguientes:

  • Data, que incluye las opciones TableOrView y Column

  • General

  • Opciones

Opciones de Data

ConnectionManager
Seleccione el administrador de conexiones de ADO.NET existente que usa el proveedor de datos .NET para SQL Server (SqlClient) para conectarse a la base de datos de SQL Server que contiene la tabla o la vista con la que se generará el perfil.

TableOrView
Seleccione la tabla o vista existente que contenga la columna de la que se va a generar un perfil.

Para obtener más información, vea la sección "Opciones de TableorView" en este tema.

Columna
Seleccione la columna existente de la que se va a generar un perfil. Seleccione (*) para generar un perfil de todas las columnas.

Para obtener más información, vea la sección "Opciones de Column" en este tema.

Opciones de TableOrView

Esquema
Especifica el esquema al que pertenece la tabla seleccionada. Esta opción es de solo lectura.

Table
Muestra el nombre de la tabla seleccionada. Esta opción es de solo lectura.

Opciones de Column

IsWildCard
Especifica si se ha seleccionado el carácter comodín (*). Esta opción está establecida en True si ha seleccionado (*) para generar un perfil de todas las columnas. Es False si ha seleccionado una columna individual para la que generar un perfil. Esta opción es de solo lectura.

ColumnName
Muestra el nombre de la columna seleccionada. Esta opción está en blanco si ha seleccionado (*) para generar un perfil de todas las columnas. Esta opción es de solo lectura.

StringCompareOptions
Esta opción no se aplica al perfil de patrón de columnas.

Opciones generales

IdSolicitud
Escriba un nombre descriptivo para identificar esta solicitud de perfil. Generalmente, no tiene que cambiar el valor generado automáticamente.

Opciones

MaxNumberOfPatterns
Especifique el número máximo de patrones que desea que calcule el perfil. El valor predeterminado de esta opción es 10. El valor máximo es 100.

PercentageDataCoverageDesired
Especifique el porcentaje de los datos que desea que abarquen los patrones calculados. El valor predeterminado de esta opción es 95 (por ciento).

CaseSensitive
Indica si los patrones deberían distinguir entre mayúsculas y minúsculas. El valor predeterminado de esta opción es False.

Delimitadores
Muestra los caracteres que se deben tratar como equivalente de espacios entre las palabras al dividir el texto en tokens. De forma predeterminada, la lista Delimiters contiene los caracteres siguientes: espacio, tabulador horizontal (\t), nueva línea (\n) y retorno de carro (\r). Puede especificar delimitadores adicionales, pero no puede quitar los predeterminados.

Para obtener más información al respecto, vea "Uso de delimitadores y símbolos" anteriormente en este tema.

Symbols
Muestra los símbolos que se deberían conservar como parte de los patrones. Algunos ejemplos podrían incluir "/" para las fechas, ":" para las horas y "@" para las direcciones de correo electrónico. De forma predeterminada, la lista Symbols contiene los caracteres siguientes: ,.;:-"'~=&/@!?()<>[]{}|#*^%.

Para obtener más información al respecto, vea "Uso de delimitadores y símbolos" anteriormente en este tema.

TagTableConnectionManager
Seleccione el administrador de conexiones de ADO.NET existente que usa el proveedor de datos .NET para SQL Server (SqlClient) para conectarse a la base de datos de SQL Server que contiene la tabla de etiquetas.

Para obtener más información al respecto, vea "Uso de la tabla de etiquetas" anteriormente en este tema.

TagTableName
Seleccione la tabla de etiquetas existente, que debe tener dos columnas de cadenas denominadas Etiqueta y Término.

Para obtener más información al respecto, vea "Uso de la tabla de etiquetas" anteriormente en este tema.

Consulte también

Editor de tareas de generación de perfiles de datos (página General)
Formulario de perfil rápido de tabla única (tarea de generación de perfiles de datos)