Extraire les caractéristiques de N-grammes du texte

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Crée des fonctionnalités de dictionnaire N-Gram et en fait la sélection des fonctionnalités

catégorie : Analyse de texte

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module extraire les fonctionnalités N-Gram du module de texte dans Machine Learning Studio (classic), pour faire un texte, et pour extraire uniquement les informations les plus importantes des chaînes de texte longues.

Le module fonctionne en créant un dictionnaire de n-grammes à partir d’une colonne de texte libre que vous spécifiez comme entrée. Le module applique différentes métriques d’informations à la liste n-Gram pour réduire la dimensionnalité des données et identifier les n-grammes qui ont la valeur d’information la plus grande.

Si vous avez déjà créé un vocabulaire de n-grammes, vous pouvez mettre à jour ses statistiques ou le fusionner en utilisant un algorithme de pondération de votre choix.

Étant donné que ce module prend en charge les caractérisation à partir de n-grammes, il peut également être utilisé lors de l’évaluation.

Comment configurer les fonctionnalités d’extraction N-Gram à partir d’un texte

Ces modules prennent en charge les scénarios suivants pour la création, la mise à jour ou l’application d’un dictionnaire n-Gram :

Vous développez un nouveau modèle à l’aide d’une colonne de colonne de texte libre et souhaitez extraire des fonctionnalités de texte basées exclusivement sur les données d’entrée. Consultez les instructions.
Vous disposez d’un ensemble de fonctionnalités de texte et souhaitez mettre à jour les pondérations en traitant de nouvelles entrées de texte. Consultez les instructions.
Vous générez des scores à partir d’un modèle prédictif et vous devez générer et utiliser des entrées de texte avec un dictionnaire n-Gram dans le cadre du processus de notation. Consultez les instructions.

Vous pouvez utiliser l' exemple d’expérience pour référence.

Créer un dictionnaire n-Gram à partir d’une colonne de texte

Ajoutez le module Extract N-Gram Features from Text (Extraire les caractéristiques de N-grammes du texte) à votre expérience et connectez le jeu de données contenant le texte que vous souhaitez traiter.
Pour colonne de texte, choisissez une colonne de type chaîne qui contient le texte que vous souhaitez extraire.

Par défaut, le module sélectionne toutes les colonnes de chaîne. Toutefois, étant donné que le résultat est détaillé, vous devrez peut-être traiter une seule colonne à la fois.
Pour le mode vocabulaire, sélectionnez créer pour indiquer que vous créez une nouvelle liste de fonctionnalités n-Gram.

Pour plus d’informations sur la mise à jour d’un ensemble existant de fonctionnalités n-Gram, consultez cette section.
Pour taille n-grammes, tapez un nombre qui indique la taille maximale du n-grammes à extraire et à stocker.

Par exemple, si vous tapez 3 , unigrammes, bigrammes et trigrammes seront créés.
Pour la taille K-Skip, tapez le nombre maximal de caractères pouvant être différents lors de l’identification des variantes de n-grammes. Si la valeur de k est définie sur 0, n-grammes ne peut être créé qu’à partir d’une séquence de caractères unique et contiguë.

Par exemple, supposons que votre dictionnaire contient le « Computer » UNIGRAMME. Une valeur k égale à 0 signifie que « Computer » est le seul UNIGRAMME valide. Si vous augmentez la valeur de k à 1, vous pouvez ignorer un caractère intermédiaire, ce qui vous permet de trouver des séquences similaires. Un skip-Gram avec une valeur k de 1 différerait d’un caractère de l’UNIGRAMME 0-k . Ainsi, les « conversions » Skip-grammes et « compuuter » sont considérés comme faisant partie de la même entrée de dictionnaire que « Computer ». L’affectation de la valeur 2 à k correspond à des mots encore plus différents.

Pour plus d’informations sur l’utilisation des Skip-grammes dans l’analyse de texte, consultez ce document : génération de candidat et ingénierie de caractéristiques pour la normalisation lexicale supervisée
L’option, fonction de pondération, est requise uniquement si vous fusionnez ou mettez à jour des vocabulaires. Il spécifie comment les termes dans les deux vocabulaires et leurs scores doivent être pondérés les uns par rapport aux autres.
Pour longueur minimale de mot, tapez la longueur de mot minimale des chaînes qui peuvent être analysées.

Par exemple, supposons que la longueur minimale du mot était définie à 3 (valeur par défaut), et que vous disposiez d’une entrée qui comportait un seul mot, et d’une autre de type « belle place ». Les deux lignes sont ignorées.
Pour longueur maximale de mot, tapez le nombre maximal de lettres pouvant être utilisées dans un mot unique dans un n-gramme.

Par défaut, jusqu’à 25 caractères par mot ou par jeton sont autorisés. Les mots plus longs que ceux qui sont supprimés, en partant du principe qu’ils sont éventuellement des séquences de caractères arbitraires plutôt que des éléments lexicaux réels.
Pour la fréquence absolue d’un document n-Gram minimal, tapez un nombre qui indique les occurrences minimales nécessaires à l’inclusion d’un mot ou d’un jeton unique dans le dictionnaire n-Gram.

Par exemple, si vous utilisez la valeur par défaut 5, toute valeur n-gramme ou Skip-Gram doit apparaître au moins cinq fois dans le corpus pour être incluse dans le dictionnaire n-Gram.
Pour le rapport nombre maximal de documents n-Gram, tapez un nombre qui représente ce ratio : le nombre de lignes qui contiennent un n-gramme particulier, sur le nombre de lignes dans le corpus global.

Par exemple, un ratio de 1 indique que, même si un N-grammes spécifique est présent dans chaque ligne, le N-grammes peut être ajouté au dictionnaire de N-grammes. Plus généralement, un mot qui apparaît dans chaque ligne est considéré comme un mot parasite et est supprimé. Pour filtrer les mots parasites dépendants du domaine, essayez de réduire ce ratio.

Important

Le taux d’occurrence de mots particuliers n’est pas uniforme, mais varie d’un document à l’autre. Par exemple, si vous analysez des commentaires de clients sur un produit spécifique, la fréquence du nom du produit peut être très élevée et se rapprocher de celle d’un mot parasite, mais être un terme significatif dans d’autres contextes.
Sélectionnez l’option détecter les lignes hors vocabulaire, si vous souhaitez générer un indicateur pour les lignes qui contiennent des mots qui ne se trouvent pas dans le vocabulaire n-Gram, qui sont appelés des mots « hors vocabulaire » (OOV).

Tous les lexiques sont finis ; par conséquent, votre corpus de texte est presque assuré d’inclure des mots qui ne sont pas dans le lexique ou le dictionnaire n-Gram. Toutefois, ces mots peuvent avoir différents effets sur les modèles de langage, y compris des taux d’erreur plus élevés par rapport aux mots de vocabulaire (IV). En fonction de votre domaine, ces mots OOV peuvent représenter des mots de contenu importants.

En identifiant les lignes qui contiennent ces mots, vous pouvez compenser les effets de ces termes ou gérer séparément les termes et les lignes associées.
Sélectionnez l’option marquer le début de la phrasepour ajouter une séquence de caractères spéciale qui indique le début d’une phrase dans votre dictionnaire n-Gram. Le fait de préfixer n-grammes qui commencent une phrase par un caractère spécial est courant dans l’analyse de texte et peut être utile pour analyser les limites de la formation.

Azure ML Studio (classic) insère le symbole ||| . Vous ne pouvez pas spécifier de caractère personnalisé.
Sélectionnez l’option normaliser les vecteurs de fonctionnalité n-Gram si vous souhaitez normaliser les vecteurs de fonctionnalité. Dans ce cas, chaque vecteur de fonctionnalité n-gramme est divisé par sa norme L2.

La normalisation est utilisée par défaut.
Affectez la valeur true à utiliser la sélection de fonctionnalités basée sur un filtre si vous souhaitez activer des options supplémentaires pour la gestion de la taille de votre vecteur de fonctionnalité de texte.
- La sélection des fonctionnalités peut être utile pour réduire la dimensionnalité de vos n-grammes.
- Lorsque vous n’appliquez pas la sélection de filtre, tous les n-grammes possibles sont créés, ce qui augmente la couverture au détriment de la mise à disposition du dictionnaire et peut inclure de nombreux termes peu fréquents.
- Dans un corpus de petite taille, l’utilisation de la sélection des fonctionnalités peut réduire de manière considérable le nombre de termes créés.
- Pour plus d’informations, consultez sélection de fonctionnalités basées sur les filtres.
Si vous utilisez la sélection des fonctionnalités, vous devez sélectionner une méthode dans la liste déroulante méthode de notation des fonctionnalités :
- PearsonCorrelation: calcule la corrélation de Pearson basée sur la valeur de colonne d’étiquette et le vecteur de texte.
- MutualInformation: calcule un score d’information mutuel, en fonction de la valeur de la colonne d’étiquette et du vecteur de texte.
- KendallCorrelation: calcule la corrélation de Kendall, en fonction de la valeur de la colonne d’étiquette et du vecteur de texte.
- SpearmanCorrelation: calcule la corrélation du spearisme, en fonction de la valeur de la colonne d’étiquette et du vecteur de texte.
- ChiSquared: utilise la méthode de khi-deux pour calculer la corrélation entre la valeur de la colonne d’étiquette et le vecteur de texte.
- FisherScore: calcule le score de Fisher pour la valeur de colonne d’étiquette et le vecteur de texte.
- Sélectiondes fonctionnalités basée sur le nombre : crée de nouvelles fonctionnalités en fonction du nombre de valeurs. Une colonne d’étiquette n’est pas requise avec cette méthode.
Selon la méthode choisie, définissez l’une des options suivantes :
- Nombre de fonctionnalités souhaitées: obligatoire si vous utilisez une méthode de sélection de fonctionnalités autre que la sélection de fonctionnalités basée sur le nombre.
  
  Dans le processus de sélection des fonctionnalités, les n-grammes obtiennent un score de fonctionnalité et les n-grammes sont classés par score. La valeur que vous définissez ici détermine le nombre de fonctionnalités les plus classées en sortie. N-grammes avec des scores de fonctionnalités inférieurs sont ignorés.
- Nombre minimal d’éléments non nuls: obligatoire si vous utilisez la sélection de fonctionnalités basée sur le nombre.
  
  Tapez un nombre entier qui représente le nombre minimal d’instances totales requises pour les nombres de tableaux pour une fonctionnalité potentielle.
Exécutez l’expérience.

Consultez cette section pour obtenir une explication des résultats et leur format.

Mettre à jour un dictionnaire n-Gram existant ou fusionner des dictionnaires

Ajoutez le module Extract N-Gram Features from Text (Extraire les caractéristiques de N-grammes du texte) à votre expérience et connectez le jeu de données contenant le texte que vous souhaitez traiter au port Dataset (Jeu de données).
Pour colonne de texte, choisissez la colonne de texte qui contient le texte dont vous souhaitez faire un groupement. Par défaut, le module sélectionne toutes les colonnes de type string. Pour des résultats optimaux, traitez une seule colonne à la fois.
Ajoutez le jeu de données enregistré contenant un dictionnaire de N-grammes généré précédemment et connectez-le au port Input vocabulary (Vocabulaire d’entrée). Vous pouvez également connecter la sortie de vocabulaire de résultat d’une instance en amont des fonctionnalités d’extraction N-Gram à partir du module de texte .

Pour fusionner ou mettre à jour le vocabulaire, le schéma du vocabulaire d’entrée doit correspondre exactement au format attendu. Ne supprimez pas les colonnes ou ajoutez des colonnes au vocabulaire d’entrée.
Pour le mode vocabulaire, sélectionnez l’une des options de mise à jour suivantes dans la liste déroulante :
- ReadOnly: représente le corpus d’entrée en termes de vocabulaire d’entrée. Autrement dit, au lieu de calculer les fréquences des termes à partir du nouveau jeu de données de texte (sur l’entrée de gauche), les pondérations n-Gram du vocabulaire d’entrée sont appliquées telles quelles.
  
  Conseil
  
  Utilisez cette option lorsque vous notez un classifieur de texte.
- Mise à jour: crée un vocabulaire n-Gram à partir du corpus d’entrée et le fusionne avec le vocabulaire d’entrée. En d’autres termes, vous pouvez ajouter de nouvelles entrées au vocabulaire créé à partir du vocabulaire d’entrée, ou vous pouvez mettre à jour des entrées existantes.
  
  Conseil
  
  Utilisez cette option pour les mises à jour incrémentielles du vocabulaire avec les lots de données entrants.
- Fusion: génère un nouveau vocabulaire n-Gram à partir du corpus d’entrée.
  
  Cette option est utile si vous transmettez un vocabulaire en arrière-plan en tant qu’entrée au module et que vous souhaitez réduire le poids des mots vides. En d’autres termes, chaque entrée ayant un score de fréquence de document élevé dans le vocabulaire en arrière-plan se verra attribuer un score de fréquence de document inversé inférieur dans le vocabulaire créé.
  
  Conseil
  
  Utilisez cette option si vous ne souhaitez pas ajouter de nouvelles entrées au vocabulaire créé à partir de l’entrée et souhaitez uniquement ajuster les scores des entrées existantes.
L’option, Choisissez la fonction de pondération, est requise si vous fusionnez ou mettez à jour des vocabulaires. La fonction de pondération spécifie comment les scores DF et IDF dans les deux vocabulaires doivent être pondérés les uns par rapport aux autres :
- Binary Weight (Pondération binaire) : affecte une valeur de présence binaire aux N-grammes extraits. En d’autres termes, la valeur de chaque n-gramme est 1 lorsqu’elle existe dans le document donné, et 0 dans le cas contraire.
- Tf Weight: attribue un score de fréquence des termes (tf) aux n-grammes extraits. La valeur de chaque N-grammes est sa fréquence d’occurrence dans le document donné.
- Poids IDF: attribue un score de fréquence de document inversé (IDF) aux n-grammes extraits. La valeur de chaque N-grammes est le journal de taille de corpus divisé par sa fréquence d’occurrence dans le corpus. C'est: IDF = log of corpus_size / document_frequency
- Tf-IDF Weight: affecte un score de fréquence de terme/de document inversé (tf/IDF) aux n-grammes extraits. La valeur de chaque N-grammes est son score TF multiplié par son score IDF.
- Graph Weight: attribue le score aux n-grammes extraits en fonction du classement du graphique TextRank. TextRank est un modèle de classement basé sur un graphique pour le traitement de texte. les algorithmes de classement Graph sont essentiellement un moyen de décider de l’importance en fonction des informations globales. Pour plus d’informations, consultez TextRank : intégration de l’ordre dans les textes par Rada Mihalcea et Paul Tara.
Pour toutes les autres options, consultez les descriptions des propriétés dans la section précédente.
Exécutez l’expérience.

Consultez cette section pour obtenir une explication des résultats et leur format.

Noter ou publier un modèle qui utilise des N-grammes

Copiez le module Extract N-Gram Features from Text (Extraire les caractéristiques de N-grammes du texte) du flux de données d’apprentissage dans le flux de données de notation.
Connectez la sortie Result Vocabulary (Vocabulaire de résultat) du flux de données d’apprentissage au Input Vocabulary (Vocabulaire d’entrée) sur le flux de travail de notation.
Dans le flux de travail de notation, modifiez le module Extract N-Gram Features from Text (Extraire les caractéristiques de N-grammes du texte) et apportez les modifications suivantes, sans toucher au reste :
- Définissez le paramètre Vocabulary mode (Mode vocabulaire) sur ReadOnly.
- Modifiez l’option utiliser la sélection de fonctionnalités basée sur les filtres sur False .
Pour publier l’expérience, enregistrez le Result Vocabulary (Vocabulaire de résultat) en tant que jeu de données.

Ensuite, connectez le jeu de données enregistré au module Extract N-Gram Features from Text (Extraire les caractéristiques de N-grammes du texte) dans votre graphique de notation.

Résultats

Le module extraire les fonctionnalités N-Gram du module de texte crée deux types de sortie :

Jeu de données de résultats: Résumé du texte analysé avec les n-grammes qui ont été extraits. Les colonnes que vous n’avez pas sélectionnées dans l’option colonne de texte sont transmises à la sortie. Pour chaque colonne de texte que vous analysez, le module génère les colonnes suivantes :
- NgramsString: chaîne contenant toutes les n-grammes uniques.
- NumUniqueNgrams: nombre de n-grammes extraits à l’aide des propriétés spécifiées.
- Matrice éparse d’occurrences n-Gram: le module génère une colonne pour chaque n-gramme trouvé dans le corpus total et ajoute un score dans chaque colonne pour indiquer le poids du n-gramme pour cette ligne.
Result vocabulary (Vocabulaire de résultat) : Le vocabulaire contient le dictionnaire de N-grammes réel, ainsi que les notes de fréquence de termes qui sont générées dans le cadre de l’analyse. Vous pouvez enregistrer le jeu de données pour une réutilisation avec un autre ensemble d’entrées ou pour une mise à jour ultérieure. Vous pouvez également mettre à jour les scores ou réutiliser le vocabulaire pour la modélisation et le calcul de score.

Exemples de résultats

Pour illustrer la façon dont vous pouvez utiliser les résultats, l’exemple suivant utilise le jeu de données d’évaluation de livre Amazon disponible dans Studio (Classic). Le dataaset a été filtré pour afficher uniquement les révisions dont le score est de 4 ou 5, et les révisions dont la longueur de chaîne est inférieure à 300 caractères.

À partir de ce jeu de données, un examen succinct a été sélectionné, contenant uniquement 92 mots. Ici, le nom de l’auteur a été remplacé par Xxx et le titre du livre a été remplacé par Yyy :

"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."

Jeu de données de résultats pour l’exemple de texte de révision

Pour cet exemple, le module a généré les colonnes suivantes :

NumUniqueNgrams: pour cette révision de 92 mots, en utilisant les paramètres par défaut, 11 n-grammes ont été extraits de l’exemple de révision.

Lorsque la longueur n-gramme a été augmentée à 3 et que la valeur Skip-Gram définie est égale à 1, 15 n-grammes ont été trouvés.

Quand la sélection des fonctionnalités a été appliquée à la valeur par défaut, aucun n-gramme n’a été extrait.
NgramsString: avec les paramètres par défaut, ces n-grammes ont été retournés : ["son", "Best", "One", "High", "recommender", "This", "roman", "his_best", "highly_recommend", "recommend_this", "this_novel"]

Avec une longueur n-Gram de 3 et une valeur Skip-Gram égale à 1, ces n-grammes ont été renvoyés : ["son", "Best", "One", "High", "recommendation", "This", "nouvelles", "his_best", "highly_recommend", "recommend_this", "this_novel", "best_one", "one_best", "highly_this", "highly_recommend_this"]
Matrice éparse d’occurrences n-Gram

Pour cette révision particulière, les résultats comprenaient les colonnes suivantes :

ReviewText. animateur ReviewText. [and_highly] ReviewText. parfaitement ReviewText. [highly_recommend]

0 0 0,301511 0,301511

Conseil

Si vous ne parvenez pas à afficher une colonne particulière, attachez le module Sélectionner des colonnes dans le jeu de données à la sortie, puis utilisez la fonction de recherche pour filtrer les colonnes par nom.

ReviewText. animateur	ReviewText. [and_highly]	ReviewText. parfaitement	ReviewText. [highly_recommend]
0	0	0,301511	0,301511

Vocabulaire de résultat pour l’exemple de texte de révision

Le vocabulaire contient le dictionnaire de N-grammes réel, ainsi que les notes de fréquence de termes qui sont générées dans le cadre de l’analyse. Vous pouvez enregistrer le jeu de données pour une réutilisation avec un autre ensemble d’entrées ou pour une mise à jour ultérieure. Les scores DF et IDF sont générés, quelles que soient les autres options. Lorsque vous combinez des vocabulaires, ces valeurs stockées sont utilisées comme entrée pour la fonction de pondération choisie.

ID: identificateur généré pour chaque n-gramme unique.
Ngram: n-Gram. Les espaces ou autres séparateurs de mots sont remplacés par le caractère de soulignement.
DF : Note de fréquence de terme pour le N-grammes dans le corpus d’origine.
IDF : Note de fréquence de document inverse pour le N-grammes dans le corpus d’origine.

Il est possible de mettre à jour manuellement ce DataSet ; Toutefois, soyez vigilant, car vous pouvez introduire des erreurs. Par exemple :

Une erreur est signalée si le module trouve des lignes en double avec la même clé dans le vocabulaire d’entrée. Veillez à ce qu’il n’y ait pas deux lignes contenant le même mot dans vocabulaire.
Le schéma d’entrée des jeux de données de vocabulaire doit correspondre exactement, y compris les noms de colonnes et les types de colonnes.
La colonne ID et la colonne de note DF doivent être de type entier.
La colonne IDF doit être de type float (virgule flottante).

Notes techniques

Nous vous recommandons d’expérimenter des plages de valeurs différentes pour la longueur n-gramme, le nombre de passes en grammes et l’utilisation de la sélection de caractéristiques pour déterminer la dimensionnalité de votre corpus de texte et le rapport optimal des fonctionnalités.

Pour plus d’informations sur les n-grammes et les Skip-grammes, consultez les ressources suivantes :

Évaluation automatique des résumés à l’aide des statistiques de Co-Occurrence N-gramme

Entrées attendues

Nom	Type	Description
Dataset	Table de données	Données d’entrée
Vocabulaire d’entrée	Table de données	Vocabulaire d’entrée

Paramètres du module

Nom	Type	Plage	Facultatif	Default	Description
Nombre minimal d'éléments non nuls	Entier	>=1	S’applique uniquement lors de l’utilisation de la méthode suivante : Basé sur un nombre	1	Spécifier le nombre de fonctionnalités en sortie (pour la méthode CountBased)
Colonne de texte	Sélection de colonnes		Obligatoire	StringFeature	Nom ou index de base 1 de la colonne de texte
Mode vocabulaire	Mode vocabulaire	Créer Lecture seule Update Fusionner	Obligatoire	Créer	Spécifier comment le vocabulaire n-Gram doit être créé à partir du corpus
Taille N-grammes	Entier	>=1	Obligatoire	1	Indiquer la taille maximale de n-grammes à créer
K-ignorer la taille	Entier	>=0	Obligatoire	0	Indiquer la taille k-Skip
Pondération, fonction	Pondération, fonction	Poids binaire Poids de TF Poids IDF Poids TF-IDF poids Graph	Obligatoire	Poids binaire	Choisir la fonction de pondération à appliquer à chaque valeur n-gramme
Longueur minimale des mots	Entier	>=1	Obligatoire	3	Spécifier la longueur minimale des mots à inclure dans n-grammes
Longueur maximale des mots	Integer	>= 2	Obligatoire	25	Spécifier la longueur maximale des mots à inclure dans n-grammes
Fréquence absolue du document n-Gram minimal	Float	>= 1,0	Obligatoire	5,0	Fréquence absolue du document n-Gram minimal
Ratio de document n-gramme maximal	Float	>= 0,0001	Obligatoire	1.0	Ratio de document n-gramme maximal
Détecter les lignes hors vocabulaire	Boolean		Obligatoire	true	Détecter les lignes qui contiennent des mots qui ne sont pas dans le vocabulaire n-Gram (OOV)
Marquer le début de la phrase	Boolean		Obligatoire	false	Indiquer si une marque de début doit être ajoutée à n-grammes
Normaliser les vecteurs de fonctionnalité n-Gram	Boolean		Obligatoire		Normaliser les vecteurs de fonctionnalité n-Gram. Si la valeur est true, le vecteur de fonctionnalité n-gramme est divisé par sa norme L2.
Utiliser la sélection de fonctionnalités basée sur les filtres	Type true false	True False	Obligatoire	True	Utiliser la sélection de caractéristiques basée sur les filtres pour réduire la dimensionnalité
Méthode de notation des fonctionnalités	Méthode de calcul de score	Corrélation de Pearson Informations mutuelles Corrélation de Kendall Corrélation de Spearman Test du Khi-deux Score de Fisher Basé sur un nombre	S’applique uniquement lorsque l’option utiliser la sélection de fonctionnalités basée sur un filtre a la valeur true	Score de Fisher	Choisissez la méthode à utiliser pour calculer les scores
Colonne cible	Sélection de colonnes		S’applique lors de l’utilisation de l’une des méthodes suivantes : Corrélation de Pearson Informations mutuelles Corrélation de Kendall Corrélation de Spearman Test du Khi-deux Score de Fisher		Spécifier la colonne cible
Nombre de fonctionnalités souhaitées	Entier	>=1	S’applique lors de l’utilisation de l’une des méthodes suivantes : Corrélation de Pearson Informations mutuelles Corrélation de Kendall Corrélation de Spearman Test du Khi-deux Score de Fisher	1	Spécifier le nombre de fonctionnalités dans les résultats de sortie

Sorties

Nom	Type	Description
Jeu de données de résultats	Table de données	Fonctionnalités extraites
Vocabulaire de résultat	Table de données	Vocabulaire de résultat

Voir aussi

Analyse de texte
liste A-Z de Modules Machine Learning