Del via


Brug ai.classify med PySpark

Funktionen ai.classify bruger generativ AI til at kategorisere inputtekst i henhold til brugerdefinerede etiketter, du vælger, med en enkelt kodelinje.

Notat

Oversigt

Funktionen ai.classify er tilgængelig for Spark DataFrames. Du skal angive navnet på en eksisterende inputkolonne som en parameter sammen med en liste over klassificeringsmærkater.

Funktionen returnerer en ny DataFrame med etiketter, der svarer til hver række med inputtekst, der er gemt i en outputkolonne.

Syntaks

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parametre

Navn Beskrivelse
labels
Påkrævet
En matrix af strenge , der repræsenterer det sæt klassifikationsetiketter, der skal matche tekstværdierne i inputkolonnen.
input_col
Påkrævet
En streng , der indeholder navnet på en eksisterende kolonne med inputtekstværdier, der skal klassificeres i henhold til de brugerdefinerede etiketter.
output_col
Valgfrit
En streng , der indeholder navnet på en ny kolonne, hvor du vil gemme en klassificeringsetiket for hver inputtekstrække. Hvis du ikke angiver denne parameter, genereres der et standardnavn for outputkolonnen.
error_col
Valgfrit
En streng , der indeholder navnet på en ny kolonne. Den nye kolonne gemmer alle OpenAI-fejl, der opstår ved behandling af hver række med inputtekst. Hvis du ikke angiver denne parameter, genereres der et standardnavn for fejlkolonnen. Hvis der ikke er nogen fejl for en række med input, er værdien i denne kolonne null.

Returnerer

Funktionen returnerer en Spark DataFrame , der indeholder en ny kolonne, der indeholder klassificeringsmærkater, der svarer til hver inputtekstrække. Hvis en tekstværdi ikke kan klassificeres, er den tilsvarende etiket null.

Eksempel

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Denne eksempelkodecelle indeholder følgende output:

Skærmbillede af en dataramme med kolonnerne