Compartir a través de


Opciones de Solicitud de perfil de patrón de columnas (tarea de generación de perfiles de datos)

Utilice el panel Propiedades de la solicitud de la página Solicitudes de perfil para establecer las opciones de Solicitud de perfil de patrón de columnas seleccionadas en el panel de solicitudes. Un perfil de patrón de columnas notifica un conjunto de expresiones regulares que cubren el porcentaje especificado de valores en una columna de cadenas. Este perfil puede ayudarle a identificar problemas en los datos, como cadenas no válidas, y puede sugerir expresiones regulares que se pueden utilizar en el futuro para validar los valores nuevos. Por ejemplo, un perfil de patrón de una columna de códigos postales de Estados Unidos podría generar las expresiones regulares: \d{5}-\d{4}, \d{5} y \d{9}. Si ve otras expresiones regulares, es posible que los datos contengan valores no válidos o tengan un formato incorrecto.

Nota

Las opciones que se describen en este tema aparecen en la página Solicitudes de perfil del Editor de tareas de generación de perfiles de datos. Para obtener más información acerca de esta página del editor, vea Editor de tareas de generación de perfiles de datos (página Solicitudes de perfil).

Para obtener más información acerca de cómo usar la tarea de generación de perfiles de datos, vea Configurar la tarea de generación de perfiles de datos. Para obtener más información acerca de cómo usar el visor de perfiles de datos para analizar la salida de la tarea de generación de perfiles de datos, vea Ver la salida de perfiles en el visor de perfiles de datos.

Uso de delimitadores y símbolos

Antes de calcular los patrones para una Solicitud de perfil de patrón de columnas, la tarea de generación de perfiles de datos convierte los datos en símbolos. Es decir, la tarea separa los valores de cadena en unidades menores que se conocen como símbolos o tokens. La tarea separa las cadenas en tokens según los delimitadores y los símbolos que se especifiquen para las propiedades Delimiters y Symbols:

  • Delimiters   De forma predeterminada, la lista de delimitadores contiene los caracteres siguientes: espacio, tabulador horizontal (\t), nueva línea (\n) y retorno de carro (\r). Puede especificar delimitadores adicionales, pero no puede quitar los predeterminados.

  • Symbols. De forma predeterminada, la lista Symbols contiene los caracteres siguientes: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%. Por ejemplo, si los símbolos son "()-", el valor"(425) 123-4567" se convierte en ["(", "425", ")", "123", "-", "4567", ")"].

Un carácter no puede ser delimitador y símbolo a la vez.

Todos los delimitadores se normalizan en un espacio como parte del proceso de división en tokens, mientras que los símbolos se conservan.

Uso de la tabla de etiquetas

Si lo desea, puede agrupar los tokens relacionados con una etiqueta única almacenando las etiquetas y los términos relacionados en una tabla especial que cree en una base de datos de SQL Server. La tabla de etiquetas debe tener dos columnas de cadena, una denominada "Etiqueta" y la otra "Término". Estas columnas pueden ser de tipo char, nchar, varchar o nvarchar, pero no text ni ntext. Puede combinar varias etiquetas y los términos correspondientes en una única tabla. Una solicitud de perfil de patrón de columnas puede utilizar sólo una tabla de etiquetas. Puede utilizar un administrador de conexión de ADO.NET independiente para conectarse a la tabla de etiquetas. Por consiguiente, la tabla de etiquetas se puede encontrar en una base de datos o en un servidor diferente al de los datos de origen.

Por ejemplo, podría agrupar los valores "Este", "Oeste", "Norte" y "Sur" que podrían aparecer en direcciones mediante la etiqueta única "Dirección". La tabla siguiente es un ejemplo de este tipo de tabla de etiquetas.

Etiqueta

Término

Dirección

Este

Dirección

Oeste

Dirección

Norte

Dirección

Sur

Podría utilizar otra etiqueta para agrupar las diferentes palabras que expresan la noción de "calle" en una dirección:

Etiqueta

Término

Calle

Calle

Calle

Avenida

Calle

Lugar

Calle

Vía

Según esta combinación de etiquetas, el patrón resultante para una dirección podría parecerse al siguiente:

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

Nota

El uso de una tabla de etiquetas disminuye el rendimiento de la tarea de generación de perfiles de datos. No utilice más de 10 etiquetas o más de 100 términos por cada etiqueta.

El mismo término puede pertenecer a más de una etiqueta.

Opciones de Propiedades de la solicitud

Para cada Solicitud de perfil de patrón de columnas, el panel Propiedades de la solicitud muestra los grupos de opciones siguientes:

  • Data, que incluye las opciones TableOrView y Column

  • General

  • Opciones

Opciones de Data

  • ConnectionManager
    Seleccione el administrador de conexión de ADO.NET existente que usa el Proveedor de datos .NET para SQL Server (SqlClient) con el fin de conectarse a la base de datos de SQL Server que contiene la tabla o la vista con la que se va a generar el perfil.

  • TableOrView
    Seleccione la tabla o vista existente que contenga la columna de la que se va a generar un perfil.

    Para obtener más información, vea la sección "Opciones de TableorView" en este tema.

  • Column
    Seleccione la columna existente de la que se va a generar un perfil. Seleccione (*) para generar un perfil de todas las columnas.

    Para obtener más información, vea la sección "Opciones de Column" en este tema.

Opciones de TableOrView

  • Schema
    Especifica el esquema al que pertenece la tabla seleccionada. Esta opción es de sólo lectura.

  • Tabla
    Muestra el nombre de la tabla seleccionada. Esta opción es de sólo lectura.

Opciones de Column

  • IsWildCard
    Especifica si el carácter comodín se ha seleccionado (*). Esta opción está establecida en True si ha seleccionado (*) para generar un perfil de todas las columnas. Es False si ha seleccionado una columna individual para la que generar un perfil. Esta opción es de sólo lectura.

  • ColumnName
    Muestra el nombre de la columna seleccionada. Esta opción está en blanco si ha seleccionado (*) para generar un perfil de todas las columnas. Esta opción es de sólo lectura.

  • StringCompareOptions
    Esta opción no se aplica al perfil de patrón de columnas.

Opciones de General

  • RequestID
    Escriba un nombre descriptivo para identificar esta solicitud de perfil. Generalmente, no tiene que cambiar el valor generado automáticamente.

Opciones

  • MaxNumberOfPatterns
    Especifique el número máximo de patrones que desea que calcule el perfil. El valor predeterminado de esta opción es 10. El valor máximo es 100.

  • PercentageDataCoverageDesired
    Especifique el porcentaje de los datos que desea que abarquen los patrones calculados. El valor predeterminado de esta opción es 95 (por ciento).

  • CaseSensitive
    Indica si los patrones deberían distinguir entre mayúsculas y minúsculas. El valor predeterminado de esta opción es False.

  • Delimiters
    Muestra los caracteres que se deberían tratar como el equivalente de espacios entre las palabras al separar el texto en tokens. De forma predeterminada, la lista Delimiters contiene los caracteres siguientes: espacio, tabulador horizontal (\t), nueva línea (\n) y retorno de carro (\r). Puede especificar delimitadores adicionales, pero no puede quitar los predeterminados.

    Para obtener más información al respecto, vea "Uso de delimitadores y símbolos" anteriormente en este tema.

  • Symbols
    Muestra los símbolos que se deberían conservar como parte de los patrones. Algunos ejemplos podrían incluir "/" para las fechas, ":" para las horas y "@" para las direcciones de correo electrónico. De forma predeterminada, la lista Symbols contiene los caracteres siguientes: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%.

    Para obtener más información al respecto, vea "Uso de delimitadores y símbolos" anteriormente en este tema.

  • TagTableConnectionManager
    Seleccione el administrador de conexión de ADO.NET existente que utiliza el Proveedor de datos .NET para que SQL Server (SqlCliente) se conecte a la base de datos de SQL Server que contiene la tabla de etiquetas.

    Para obtener más información al respecto, vea "Uso de la tabla de etiquetas" anteriormente en este tema.

  • TagTableName
    Seleccione la tabla de etiquetas existente, que debe tener dos columnas de cadenas denominadas Etiqueta y Término.

    Para obtener más información al respecto, vea "Uso de la tabla de etiquetas" anteriormente en este tema.