Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La fonction utilise l’IA ai.similarity générative pour comparer deux expressions de chaîne, puis calculer un score de similarité sémantique. Elle n’utilise qu’une seule ligne de code. Vous pouvez comparer des valeurs de texte à partir d’une colonne d’un DataFrame avec une seule valeur de texte commune ou avec des valeurs de texte jumelées dans une autre colonne.
Note
- Cet article traite de l’utilisation de ai.similarité avec pandas. Pour utiliser ai.similarity avec PySpark, consultez cet article.
- Consultez d’autres fonctions IA dans cet article de vue d’ensemble.
- Découvrez comment personnaliser la configuration des fonctions IA.
Aperçu
La fonction ai.similarity étend la classe Série pandas.
Pour calculer la similarité sémantique de chaque ligne d’entrée pour une valeur de texte commune unique, appelez la fonction sur une colonne de texte pandas DataFrame . La fonction peut également calculer la similarité sémantique de chaque ligne pour les valeurs paires correspondantes dans une autre colonne qui a les mêmes dimensions que la colonne d’entrée.
La fonction retourne une série pandas qui contient des scores de similarité, qui peuvent être stockés dans une nouvelle colonne DataFrame.
Syntaxe
df["similarity"] = df["col1"].ai.similarity("value")
Paramètres
| Nom | Descriptif |
|---|---|
other Obligatoire |
Chaîne qui contient l’une ou l’autre des chaînes suivantes : - Valeur de texte commune unique utilisée pour calculer les scores de similarité pour chaque ligne d’entrée. - Une autre série pandas avec les mêmes dimensions que l’entrée. Il contient des valeurs de texte à utiliser pour calculer des scores de similarité pairwise pour chaque ligne d’entrée. |
Retours
La fonction retourne une série pandas qui contient des scores de similarité pour chaque ligne de texte d’entrée. Les scores de similarité de sortie sont relatifs, et ils sont mieux utilisés pour le classement. Les valeurs de score peuvent aller de -1 (opposés) à 1* (identiques). Une valeur de score de 0 indique que les valeurs ne sont pas liées dans leur signification.
Example
# This code uses AI. Always review output for mistakes.
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.
df = pd.DataFrame([
("Bill Gates"),
("Satya Nadella"),
("Joan of Arc")
], columns=["name"])
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)
Cet exemple de cellule de code fournit la sortie suivante :
Contenu connexe
Utilisez ai.similarity avec PySpark.
Détecter les sentiments avec ai.analyze_sentiment.
Catégoriser du texte avec ai.class.
Extrayez des entités avec ai_extract.
Corrigez la grammaire avec ai.fix_grammar.
Répondez aux invites d’utilisateur personnalisées avec ai.generate_response.
Résumez le texte avec ai.summarize.
Traduire du texte avec ai.translate.
En savoir plus sur l’ensemble complet de fonctions IA.
Personnalisez la configuration des fonctions IA.
Avons-nous manqué une fonctionnalité dont vous avez besoin ? Suggèrez-le sur le forum Idées de structure.