Utiliser ai.similarité avec pandas

La fonction utilise l’IA ai.similarity générative pour comparer deux expressions de chaîne, puis calculer un score de similarité sémantique. Elle n’utilise qu’une seule ligne de code. Vous pouvez comparer des valeurs de texte à partir d’une colonne d’un DataFrame avec une seule valeur de texte commune ou avec des valeurs de texte jumelées dans une autre colonne.

Note

Cet article traite de l’utilisation de ai.similarité avec pandas. Pour utiliser ai.similarity avec PySpark, consultez cet article.
Consultez d’autres fonctions IA dans cet article de vue d’ensemble.
Découvrez comment personnaliser la configuration des fonctions IA.

Aperçu

La fonction ai.similarity étend la classe Série pandas.

Pour calculer la similarité sémantique de chaque ligne d’entrée pour une valeur de texte commune unique, appelez la fonction sur une colonne de texte pandas DataFrame . La fonction peut également calculer la similarité sémantique de chaque ligne pour les valeurs paires correspondantes dans une autre colonne qui a les mêmes dimensions que la colonne d’entrée.

La fonction retourne une série pandas qui contient des scores de similarité, qui peuvent être stockés dans une nouvelle colonne DataFrame.

df["similarity"] = df["col1"].ai.similarity("value")

df["similarity"] = df["col1"].ai.similarity(df["col2"])

Paramètres

Nom	Descriptif
`other` Obligatoire	Chaîne qui contient l’une ou l’autre des chaînes suivantes : - Valeur de texte commune unique utilisée pour calculer les scores de similarité pour chaque ligne d’entrée. - Une autre série pandas avec les mêmes dimensions que l’entrée. Il contient des valeurs de texte à utiliser pour calculer des scores de similarité pairwise pour chaque ligne d’entrée.

Retours

La fonction retourne une série pandas qui contient des scores de similarité pour chaque ligne de texte d’entrée. Les scores de similarité de sortie sont relatifs, et ils sont mieux utilisés pour le classement. Les valeurs de score peuvent aller de -1 (opposés) à 1* (identiques). Une valeur de score de 0 indique que les valeurs ne sont pas liées dans leur signification.

Example

Comparer avec une seule valeur
Comparer avec des valeurs par paire

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

Cet exemple de cellule de code fournit la sortie suivante :

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

Cet exemple de cellule de code fournit la sortie suivante :

Utilisez ai.similarity avec PySpark.
Détecter les sentiments avec ai.analyze_sentiment.
Catégoriser du texte avec ai.class.
Générer des incorporations vectorielles avec ai.embed.
Extrayez des entités avec ai_extract.
Corrigez la grammaire avec ai.fix_grammar.
Répondez aux invites d’utilisateur personnalisées avec ai.generate_response.
Résumez le texte avec ai.summarize.
Traduire du texte avec ai.translate.
En savoir plus sur l’ensemble complet de fonctions IA.
Personnalisez la configuration des fonctions IA.
Avons-nous manqué une fonctionnalité dont vous avez besoin ? Suggèrez-le sur le forum Idées de structure.

Rétroaction

Cette page vous a-t-elle été utile ?

Last updated on 2025-11-13