Freigeben über


Verwenden von ai.klassifizieren mit PySpark

Die ai.classify Funktion verwendet generative KI zum Kategorisieren von Eingabetext gemäß benutzerdefinierten Bezeichnungen, die Sie auswählen, mit einer einzelnen Codezeile.

Hinweis

Überblick

Die ai.classify Funktion ist für Spark DataFrames verfügbar. Sie müssen den Namen einer vorhandenen Eingabespalte als Parameter zusammen mit einer Liste mit Klassifizierungsbezeichnungen angeben.

Die Funktion gibt einen neuen DataFrame mit Beschriftungen zurück, die jeder Zeile von Eingabetext entsprechen, die in einer Ausgabespalte gespeichert sind.

Syntax

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Die Parameter

Name Description
labels
Erforderlich
Ein Array von Zeichenfolgen, die den Satz von Klassifizierungsbezeichnungen darstellen, die mit Textwerten in der Eingabespalte übereinstimmen sollen.
input_col
Erforderlich
Eine Zeichenfolge , die den Namen einer vorhandenen Spalte mit Eingabetextwerten enthält, die gemäß den benutzerdefinierten Bezeichnungen klassifiziert werden sollen.
output_col
Wahlfrei
Eine Zeichenfolge , die den Namen einer neuen Spalte enthält, in der Sie eine Klassifizierungsbezeichnung für jede Eingabetextzeile speichern möchten. Wenn Sie diesen Parameter nicht festlegen, wird für die Ausgabespalte ein Standardname generiert.
error_col
Wahlfrei
Eine Zeichenfolge, die den Namen einer neuen Spalte enthält. In der neuen Spalte werden alle OpenAI-Fehler gespeichert, die aus der Verarbeitung jeder Zeile von Eingabetext resultieren. Wenn Sie diesen Parameter nicht festlegen, wird für die Fehlerspalte ein Standardname generiert. Wenn keine Fehler für eine Zeile mit Eingabe vorhanden sind, ist der Wert in dieser Spalte null.

Rückkehr

Die Funktion gibt einen Spark DataFrame zurück, der eine neue Spalte enthält, die Klassifizierungsbezeichnungen enthält, die jeder Eingabetextzeile entsprechen. Wenn ein Textwert nicht klassifiziert werden kann, lautet das entsprechende Etikett null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Diese Beispielcodezelle stellt die folgende Ausgabe bereit:

Screenshot eines Datenrahmens mit den Spalten