Freigeben über


Verwenden von ai.similarity mit Pandas

Die ai.similarity Funktion verwendet generative KI, um zwei Zeichenfolgenausdrücke zu vergleichen und dann eine semantische Ähnlichkeitsbewertung zu berechnen. Es verwendet nur eine einzelne Codezeile. Sie können Textwerte aus einer Spalte eines DataFrame mit einem einzelnen allgemeinen Textwert oder mit paarweise Textwerten in einer anderen Spalte vergleichen.

Hinweis

Überblick

Die ai.similarity-Funktion erweitert die Klasse der Pandas-Serie.

Um die semantische Ähnlichkeit jeder Eingabezeile für einen einzelnen gemeinsamen Textwert zu berechnen, rufen Sie die Funktion in einer Pandas DataFrame-Textspalte auf. Die Funktion kann auch die semantische Ähnlichkeit jeder Zeile für entsprechende paarweise Werte in einer anderen Spalte berechnen, die dieselben Dimensionen wie die Eingabespalte aufweist.

Die Funktion gibt eine Pandas-Serie zurück, die Ähnlichkeitsbewertungen enthält, die in einer neuen DataFrame-Spalte gespeichert werden können.

Syntax

df["similarity"] = df["col1"].ai.similarity("value")

Die Parameter

Name Description
other
Erforderlich
Eine Zeichenfolge , die eine der folgenden Elemente enthält:
– Ein einzelner gemeinsamer Textwert, der zum Berechnen von Ähnlichkeitsbewertungen für jede Eingabezeile verwendet wird.
- Eine weitere Pandas-Serie mit den gleichen Dimensionen wie die Eingabe. Sie enthält Textwerte, die verwendet werden sollen, um paarweise Ähnlichkeitsbewertungen für jede Eingabezeile zu berechnen.

Rückkehr

Die Funktion gibt eine Pandas-Serie zurück, die Ähnlichkeitsbewertungen für jede Eingabetextzeile enthält. Die Ähnlichkeitswerte der Ausgabe sind relativ und werden am besten für das Ranking verwendet. Bewertungswerte können von -1 (Gegensätzen) bis 1* (identisch) liegen. Ein Scorewert von 0 gibt an, dass die Werte in der Bedeutung nicht miteinander verknüpft sind.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

Diese Beispielcodezelle stellt die folgende Ausgabe bereit:

Screenshot eines Datenrahmens mit den Spalten