Verwenden von ai.similarity mit PySpark

Die ai.similarity Funktion verwendet generative KI, um zwei Zeichenfolgenausdrücke zu vergleichen und dann eine semantische Ähnlichkeitsbewertung zu berechnen. Es verwendet nur eine einzelne Codezeile. Sie können Textwerte aus einer Spalte eines DataFrame mit einem einzelnen allgemeinen Textwert oder mit paarweise Textwerten in einer anderen Spalte vergleichen.

Hinweis

In diesem Artikel wird die Verwendung von ai.similarity mit PySpark behandelt. Informationen zur Verwendung von ai.similarity mit Pandas finden Sie in diesem Artikel.
Weitere KI-Funktionen finden Sie in diesem Übersichtsartikel.
Erfahren Sie, wie Sie die Konfiguration von KI-Funktionen anpassen.

Überblick

Die ai.similarity Funktion ist für Spark DataFrames verfügbar. Sie müssen den Namen einer vorhandenen Eingabespalte als Parameter angeben. Sie müssen auch einen einzelnen gemeinsamen Textwert für Vergleiche oder den Namen einer anderen Spalte für paarweise Vergleiche angeben.

Die Funktion gibt einen neuen DataFrame zurück, der Ähnlichkeitsbewertungen für jede Zeile von Eingabetext enthält, die sich in einer Ausgabespalte befindet.

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

df.ai.similarity(input_col="col1", other_col="col2", output_col="similarity")

Die Parameter

Name	Description
`input_col` Erforderlich	Eine Zeichenfolge , die den Namen einer vorhandenen Spalte mit Eingabetextwerten enthält, die zum Berechnen von Ähnlichkeitsbewertungen verwendet werden sollen.
`other` oder `other_col` Erforderlich	Nur einer dieser Parameter ist erforderlich. Der `other` Parameter ist eine Zeichenfolge , die einen einzelnen allgemeinen Textwert enthält, der zum Berechnen von Ähnlichkeitsbewertungen für jede Eingabezeile verwendet wird. Der `other_col` Parameter ist eine Zeichenfolge , die den Namen einer zweiten vorhandenen Spalte mit Textwerten angibt, die zum Berechnen von paarweise Ähnlichkeitsbewertungen verwendet werden.
`output_col` Wahlfrei	Eine Zeichenfolge , die den Namen einer neuen Spalte enthält, um berechnete Ähnlichkeitsbewertungen für jede Eingabetextzeile zu speichern. Wenn Sie diesen Parameter nicht festlegen, wird für die Ausgabespalte ein Standardname generiert.
`error_col` Wahlfrei	Eine Zeichenfolge , die den Namen einer neuen Spalte enthält, in der alle OpenAI-Fehler gespeichert werden, die aus der Verarbeitung der einzelnen Eingabetextzeilen resultieren. Wenn Sie diesen Parameter nicht festlegen, wird für die Fehlerspalte ein Standardname generiert. Wenn eine Eingabezeile keine Fehler aufweist, weist diese Spalte einen `null` Wert auf.

Rückkehr

Die Funktion gibt einen Spark DataFrame zurück, der eine neue Spalte enthält, die generierte Ähnlichkeitsbewertungen für jede Eingabetextzeile enthält. Die Ähnlichkeitswerte der Ausgabe sind relativ und werden am besten für das Ranking verwendet. Bewertungswerte können von -1* (Gegensätzen) bis 1 (identisch) liegen. Eine Bewertung von 0 weist darauf hin, dass die Werte in der Bedeutung nicht miteinander verknüpft sind.

Example

Vergleichen mit einem einzelnen Wert
Vergleichen mit paarweisen Werten

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

Diese Beispielcodezelle stellt die folgende Ausgabe bereit:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture")
    ], ["names", "industries"])

similarity = df.ai.similarity(input_col="names", other_col="industries", output_col="similarity")
display(similarity)

Diese Beispielcodezelle stellt die folgende Ausgabe bereit:

Verwenden Sie ai.similarity mit Pandas.
Erkennen sie die Stimmung mit ai.analyze_sentiment.
Kategorisieren von Text mit ai.klassifizieren.
Generieren Sie Vektoreinbettungen mit ai.embed.
Extrahieren Sie Entitäten mit ai_extract.
Korrigieren Sie die Grammatik mit ai.fix_grammar.
Beantworten von benutzerdefinierten Benutzeraufforderungen mit ai.generate_response
Fassen Sie Text mit ai.summarize zusammen.
Übersetzen Sie Text mit ai.translate.
Erfahren Sie mehr über den vollständigen Satz von KI-Funktionen.
Passen Sie die Konfiguration von KI-Funktionen an.
Haben wir ein Feature verpasst, das Sie benötigen? Schlagen Sie es im Forum für Fabric-Ideen vor.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-13