Partager via


Utiliser ai.similarité avec pandas

La fonction utilise l’IA ai.similarity générative pour comparer deux expressions de chaîne, puis calculer un score de similarité sémantique. Elle n’utilise qu’une seule ligne de code. Vous pouvez comparer des valeurs de texte à partir d’une colonne d’un DataFrame avec une seule valeur de texte commune ou avec des valeurs de texte jumelées dans une autre colonne.

Note

Aperçu

La fonction ai.similarity étend la classe Série pandas.

Pour calculer la similarité sémantique de chaque ligne d’entrée pour une valeur de texte commune unique, appelez la fonction sur une colonne de texte pandas DataFrame . La fonction peut également calculer la similarité sémantique de chaque ligne pour les valeurs paires correspondantes dans une autre colonne qui a les mêmes dimensions que la colonne d’entrée.

La fonction retourne une série pandas qui contient des scores de similarité, qui peuvent être stockés dans une nouvelle colonne DataFrame.

Syntaxe

df["similarity"] = df["col1"].ai.similarity("value")

Paramètres

Nom Descriptif
other
Obligatoire
Chaîne qui contient l’une ou l’autre des chaînes suivantes :
- Valeur de texte commune unique utilisée pour calculer les scores de similarité pour chaque ligne d’entrée.
- Une autre série pandas avec les mêmes dimensions que l’entrée. Il contient des valeurs de texte à utiliser pour calculer des scores de similarité pairwise pour chaque ligne d’entrée.

Retours

La fonction retourne une série pandas qui contient des scores de similarité pour chaque ligne de texte d’entrée. Les scores de similarité de sortie sont relatifs, et ils sont mieux utilisés pour le classement. Les valeurs de score peuvent aller de -1 (opposés) à 1* (identiques). Une valeur de score de 0 indique que les valeurs ne sont pas liées dans leur signification.

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

Cet exemple de cellule de code fournit la sortie suivante :

Capture d’écran d’une trame de données avec des colonnes « name » et « similarité ». La colonne « similarité » contient des scores de similarité pour les noms et le mot d’entrée.