Freigeben über


Verwenden von ai.similarity mit PySpark

Die ai.similarity Funktion verwendet generative KI, um zwei Zeichenfolgenausdrücke zu vergleichen und dann eine semantische Ähnlichkeitsbewertung zu berechnen. Es verwendet nur eine einzelne Codezeile. Sie können Textwerte aus einer Spalte eines DataFrame mit einem einzelnen allgemeinen Textwert oder mit paarweise Textwerten in einer anderen Spalte vergleichen.

Hinweis

Überblick

Die ai.similarity Funktion ist für Spark DataFrames verfügbar. Sie müssen den Namen einer vorhandenen Eingabespalte als Parameter angeben. Sie müssen auch einen einzelnen gemeinsamen Textwert für Vergleiche oder den Namen einer anderen Spalte für paarweise Vergleiche angeben.

Die Funktion gibt einen neuen DataFrame zurück, der Ähnlichkeitsbewertungen für jede Zeile von Eingabetext enthält, die sich in einer Ausgabespalte befindet.

Syntax

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

Die Parameter

Name Description
input_col
Erforderlich
Eine Zeichenfolge , die den Namen einer vorhandenen Spalte mit Eingabetextwerten enthält, die zum Berechnen von Ähnlichkeitsbewertungen verwendet werden sollen.
other oder other_col
Erforderlich
Nur einer dieser Parameter ist erforderlich. Der other Parameter ist eine Zeichenfolge , die einen einzelnen allgemeinen Textwert enthält, der zum Berechnen von Ähnlichkeitsbewertungen für jede Eingabezeile verwendet wird. Der other_col Parameter ist eine Zeichenfolge , die den Namen einer zweiten vorhandenen Spalte mit Textwerten angibt, die zum Berechnen von paarweise Ähnlichkeitsbewertungen verwendet werden.
output_col
Wahlfrei
Eine Zeichenfolge , die den Namen einer neuen Spalte enthält, um berechnete Ähnlichkeitsbewertungen für jede Eingabetextzeile zu speichern. Wenn Sie diesen Parameter nicht festlegen, wird für die Ausgabespalte ein Standardname generiert.
error_col
Wahlfrei
Eine Zeichenfolge , die den Namen einer neuen Spalte enthält, in der alle OpenAI-Fehler gespeichert werden, die aus der Verarbeitung der einzelnen Eingabetextzeilen resultieren. Wenn Sie diesen Parameter nicht festlegen, wird für die Fehlerspalte ein Standardname generiert. Wenn eine Eingabezeile keine Fehler aufweist, weist diese Spalte einen null Wert auf.

Rückkehr

Die Funktion gibt einen Spark DataFrame zurück, der eine neue Spalte enthält, die generierte Ähnlichkeitsbewertungen für jede Eingabetextzeile enthält. Die Ähnlichkeitswerte der Ausgabe sind relativ und werden am besten für das Ranking verwendet. Bewertungswerte können von -1* (Gegensätzen) bis 1 (identisch) liegen. Eine Bewertung von 0 weist darauf hin, dass die Werte in der Bedeutung nicht miteinander verknüpft sind.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

Diese Beispielcodezelle stellt die folgende Ausgabe bereit:

Screenshot eines Datenrahmens mit den Spalten