Transformation de recherche de terme
La transformation de recherche de terme met en correspondance des termes extraits de texte d'une colonne d'entrée de transformation avec les termes d'une table de référence. Elle compte ensuite le nombre de fois où un terme de la table de recherche apparaît dans le dataset d'entrée, puis écrit ce nombre et le terme de la table de référence dans les colonnes de la sortie de la transformation. Cette transformation est utile pour créer une liste personnalisée de termes reposant sur le texte d'entrée et complétée de statistiques de fréquence.
Avant d'effectuer une recherche, la transformation de recherche de terme extrait des mots du texte dans une colonne d'entrée à l'aide de la même méthode que la transformation d'extraction de terme :
Le texte est divisé en phrases.
Les phrases sont divisées en mots.
Les mots sont normalisés.
Il est possible de configurer la transformation de recherche de terme de manière à effectuer une mise en correspondance respectant la casse.
La recherche de terme effectue une recherche et renvoie une valeur en suivant les règles ci-dessous :
Si la transformation est configurée pour effectuer des mises en correspondance respectant la casse, les termes ne correspondant pas à la casse sont ignorés. Par exemple, étudiant et ÉTUDIANT sont considérés comme des termes distincts.
Notes
Un mot dont la première lettre est une minuscule peut être mis en correspondance avec un mot dont la première lettre est une majuscule en début de phrase. Par exemple, étudiant et Étudiant sont mis en correspondance si Étudiant est le premier mot de la phrase.
Si une forme plurielle du nom ou de la phrase nominale existe dans la table de référence, la recherche met en correspondance uniquement la forme plurielle du nom ou de la phrase nominale. Par exemple, les instances de étudiants et de étudiant sont comptabilisées de façon distincte.
Si seule la forme singulier du mot se trouve dans la table de référence, les formes singulier et pluriel du mot ou de la phrase sont mises en correspondance avec la forme singulier. Par exemple, si la table de recherche contient étudiant et que la transformation trouve les mots étudiant et étudiants, ces deux mots seront comptabilisées comme des correspondances du terme étudiant.
Si le texte de la colonne d'entrée est une phrase nominale contenant des lemmes, seul le dernier mot de la phrase nominale est affecté par la normalisation. Par exemple, la version avec lemmes de entretiens avec les médecins est entretien avec les médecins.
Lorsqu'un élément de recherche contient des termes débordant du cadre de référence, autrement dit si un sous-terme est trouvé dans plusieurs enregistrements de référence, la transformation de recherche de terme ne renvoie qu'un seul résultat de recherche. L'exemple suivant illustre le résultat trouvé lorsqu'un élément de recherche présente un sous-terme de chevauchement. Dans cet exemple, le sous-terme est Windows, que l'on retrouve dans deux termes de référence. Par contre, la transformation ne renvoie pas deux résultats, mais un seul terme de référence uniquement, Microsoft Windows. Le second terme de référence, Windows XP Home Edition SP1, n'est pas retourné.
Élément |
Valeur |
---|---|
Terme entré |
Microsoft Windows XP Édition familiale SP |
Termes de référence |
Microsoft Windows, Windows XP Édition familiale SP1 |
Output |
Microsoft Windows |
La transformation de recherche de terme peut mettre en correspondance des noms et des phrases nominales contenant des caractères spéciaux. Les données de la table de référence peuvent inclure ces caractères. Les caractères spéciaux sont les suivants : %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “ et ‘.
La transformation de recherche de terme ne peut utiliser qu'une colonne contenant le type de données DT_WSTR ou DT_NTEXT. Si une colonne contient du texte, mais pas l'un de ces types de données, la transformation de conversion de données peut ajouter une colonne avec le type de données DT_WSTR ou DT_NTEXT au flux de données, puis copier les valeurs de la colonne dans cette nouvelle colonne. La sortie de la transformation de conversion de données peut ensuite être utilisée comme entrée de la transformation de recherche de terme. Pour plus d'informations, consultez Transformation de conversion de données.
Les colonnes d'entrée de la transformation Recherche de terme incluent la propriété InputColumnType qui indique l'utilisation de la colonne. InputColumnType peut contenir les valeurs suivantes :
La valeur 0 indique que la colonne est transmise à la sortie uniquement et n'est pas utilisée dans la recherche.
La valeur 1 indique que la colonne est utilisée dans la recherche uniquement.
La valeur 2 indique que la colonne est transmise à la sortie et est utilisée dans la recherche.
Les colonnes de sortie de la transformation, dont la valeur de la propriété InputColumnType est définie sur 0 ou 2, sont accompagnées de la propriété CustomLineageID, qui contient l'identificateur de lignage affecté à la colonne par un composant amont du flux de données.
La transformation de recherche de terme ajoute deux colonnes à la sortie de la transformation, dont les noms par défaut sontTerm et Frequency. Term contient un terme issu de la table de recherche et Frequency contient le nombre d'occurrences du terme de la table de référence dans le jeu de données d'entrée. Ces colonnes n'incluent pas la propriété CustomLineageID.
La table de correspondance doit être une table d'une base de données SQL Server 2000, SQL Server ou Access. Si la sortie de la transformation d'extraction de terme est enregistrée dans une table, cette table peut être utilisée comme table de référence (sachant que les autres tables peuvent également être utilisées). Pour pouvoir utiliser la transformation de recherche de terme sur le texte de fichiers plats, de classeurs Excel ou d'autres sources, il est nécessaire de les importer dans une base de données SQL Server ou Access.
La transformation de recherche de terme utilise une connexion OLE DB distincte pour se connecter à la table de référence. Pour plus d'informations, consultez Gestionnaire de connexions OLE DB.
La transformation de recherche de terme fonctionne en mode de mise en cache globale préalable. Au moment de l'exécution, elle lit les termes de la table de référence et les stocke dans sa mémoire privée avant de traiter toute ligne d'entrée de la transformation.
Dans la mesure où les termes d'une ligne de colonne d'entrée peuvent se répéter, la sortie de la transformation de recherche de terme contient généralement plus de lignes que l'entrée de la transformation.
La transformation comporte une entrée et une sortie. Elle ne prend pas en charge les sorties d'erreurs.
Configuration de la transformation de recherche de terme
Vous pouvez définir les propriétés par le biais du concepteur SSIS ou par programme.
Pour plus d'informations sur les propriétés que vous pouvez définir dans la boîte de dialogue Éditeur de transformation de recherche de terme, cliquez sur l'une des rubriques suivantes :
Éditeur de transformation de recherche de terme (onglet Table de référence)
Éditeur de transformation de recherche de terme (onglet Recherche de terme)
Éditeur de transformation de recherche de terme (onglet Avancé).
Pour plus d'informations sur les propriétés que vous pouvez définir dans la boîte de dialogue Éditeur avancé ou par programme, cliquez sur l'une des rubriques suivantes :
Pour plus d'informations sur la définition des propriétés, consultez Procédure : définir les propriétés d'un composant de flux de données.
|