Compartir a través de


Transformación Búsqueda de términos

La transformación Búsqueda de términos compara los términos extraídos del texto en una columna de entrada de transformación con los términos de una tabla de referencia. A continuación, cuenta la cantidad de veces que un término aparece en la tabla de búsqueda en el conjunto de datos de entrada y escribe el recuento junto con el término de la tabla de referencia en columnas en la salida de la transformación. Esta transformación resulta útil para crear una lista personalizada de palabras basada en el texto de entrada, que incluye estadísticas de frecuencia de aparición de palabras.

Antes de que la transformación Búsqueda de términos realice una búsqueda, extrae palabras del texto en una columna de entrada aplicando el mismo método que la transformación Extracción de términos:

  • El texto se divide en frases.

  • Las frases se dividen en palabras.

  • Las palabras se normalizan.

Para personalizar de forma adicional cuáles son los términos que deben coincidir, la transformación Búsqueda de términos puede configurarse para obtener coincidencias que distingan mayúsculas de minúsculas.

La transformación Búsqueda de términos realiza una búsqueda y devuelve un valor aplicando las siguientes reglas:

  • Si la transformación se configura para obtener coincidencias que distingan mayúsculas de minúsculas, se descartan las coincidencias que no pasan la comparación con distinción de mayúsculas y minúsculas. Por ejemplo, estudiante y ESTUDIANTE se consideran palabras diferentes.

    [!NOTA]

    Una palabra sin mayúsculas puede coincidir con una palabra que aparece con mayúscula inicial al principio de una frase. Por ejemplo, la coincidencia entre estudiante y Estudiante resulta correcta cuando Estudiante es la primera palabra de una frase.

  • Si la forma plural del nombre o frase existe en la tabla de referencia, la búsqueda coincide sólo con la forma plural del nombre o frase. Por ejemplo, se contarían todas las instancias de estudiantes independientemente de las instancias de estudiante.

  • Si sólo se encuentra la forma singular de la palabra en la tabla de referencia, las formas singular y plural de la palabra o frase coinciden con la forma singular. Por ejemplo, si la tabla de búsqueda contiene la palabra estudiante y la transformación encuentra las palabras estudiante y estudiantes, ambas palabras se contarían como coincidencia del término buscado estudiante.

  • Si el texto de la columna de entrada es una frase lematizada, sólo la última palabra en la frase se ve afectada por la normalización. Por ejemplo, la versión lematizada de citas con los médicos es cita con los médicos.

Cuando un elemento de la búsqueda contiene términos que se superponen en el conjunto de referencia (es decir, un subtérmino se encuentra en más de un registro de referencia) la transformación Búsqueda de términos sólo devuelve un resultado de búsqueda. En el siguiente ejemplo se muestra el resultado cuando un elemento de la búsqueda contiene un subtérmino que se superpone. El subtérmino que se superpone en este caso es Windows, que se encuentra en dos términos de referencia. Sin embargo, la transformación no devuelve dos resultados, sino únicamente un solo término de referencia, Microsoft Windows. No se devuelve el segundo término de referencia, Windows XP Home Edition SP1,.

Elemento

Valor

Término de entrada

Microsoft Windows XP Home Edition SP

Términos de referencia

Microsoft Windows, Windows XP Home Edition SP1

Salida

Microsoft Windows

La transformación Búsqueda de términos puede obtener coincidencias de nombres y frases que contienen caracteres especiales, y los datos en la tabla de referencia pueden incluir estos caracteres. Los caracteres especiales son: %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, y ‘.

La transformación Búsqueda de términos sólo puede usar una columna que tenga el tipo de datos DT_WSTR o DT_NTEXT. Si una columna contiene texto, pero no tiene uno de estos tipos de datos, la transformación Conversión de datos puede agregar una columna con el tipo de datos DT_WSTR o DT_NTEXT al flujo de datos y copiar los valores de columnas en la nueva columna. La salida de la transformación Conversión de datos posteriormente se puede usar como la entrada para la transformación Búsqueda de términos. Para obtener más información, vea Transformación Conversión de datos.

Las columnas de entrada de la transformación Búsqueda de términos incluyen la propiedad InputColumnType, que indica el uso de la columna. InputColumnType puede contener los siguientes valores:

  • El valor 0 indica que la columna se pasa a la salida solamente y no se utiliza en la búsqueda.

  • El valor 1 indica que la columna se usa en la búsqueda solamente.

  • El valor 2 indica que la columna se pasa a la salida y también se utiliza en la búsqueda.

Las columnas de salida de la transformación cuya propiedad InputColumnType se establece en 0 ó 2 incluyen la propiedad CustomLineageID para una columna, que contiene el identificador de linaje asignado a la columna por un componente de flujo de datos requerido.

La transformación Búsqueda de términos agrega dos columnas a la salida de la transformación, denominadas de forma predeterminada como Term y Frequency. Term contiene un término de la tabla de búsqueda y Frequency contiene la cantidad de veces que aparece el término de la tabla de referencia en el conjunto de datos de entrada. Estas columnas no incluyen la propiedad CustomLineageID.

La tabla de búsqueda debe ser una tabla en una base de datos de SQL Server 2000, de SQL Server o de Access. Si la salida de la transformación Extracción de términos se guarda en una tabla, esta tabla se puede usar como tabla de referencia, pero también se pueden usar otras tablas. El texto en archivos planos, libros de Excel u otros orígenes se debe importar a una base de datos de SQL Server o de Access antes de poder usar la transformación Búsqueda de términos.

La transformación Búsqueda de términos usa una conexión OLE DB independiente para conectarse a la tabla de referencia. Para obtener más información, vea Administrador de conexión OLE DB.

La transformación Búsqueda de términos funciona en un modo de almacenamiento previo en caché completo. En el tiempo de ejecución, la transformación Búsqueda de términos lee los términos de la tabla de referencia y los almacena en su memoria privada antes de que procese cualquier fila de entrada de transformación.

Debido a que los términos en una columna de entrada pueden repetirse, la salida de la transformación Búsqueda de términos normalmente tiene más filas que la entrada de la transformación.

La transformación tiene una entrada y una salida. No admite salidas de error.

Configurar la transformación Búsqueda de términos

Puede establecer propiedades a través del Diseñador SSIS o mediante programación.

Para obtener más información sobre las propiedades que se pueden establecer en el cuadro de diálogo Editor de transformación Búsqueda de términos, haga clic en uno de los siguientes temas:

Para obtener más información acerca de las propiedades que puede establecer a través del cuadro de diálogo Editor avanzado o mediante programación, haga clic en uno de los temas siguientes:

Para obtener más información sobre cómo establecer propiedades, vea Cómo configurar las propiedades de un componente de flujo de datos.

Icono de Integration Services (pequeño) Manténgase al día con Integration Services

Para obtener las más recientes descargas, artículos, ejemplos y vídeos de Microsoft, así como soluciones seleccionadas de la comunidad, visite la página de Integration Services en MSDN o TechNet:

Para recibir notificaciones automáticas de estas actualizaciones, suscríbase a las fuentes RSS disponibles en la página.