Del via


Bruk ai.classify med PySpark

Funksjonen ai.classify bruker generativ AI for å kategorisere inndatatekst i henhold til egendefinerte etiketter du velger, med en enkelt kodelinje.

Note

Oversikt

Funksjonen ai.classify er tilgjengelig for Spark DataFrames. Du må angi navnet på en eksisterende inndatakolonne som en parameter, sammen med en liste over klassifiseringsetiketter.

Funksjonen returnerer en ny DataFrame med etiketter som samsvarer med hver rad med inndatatekst, lagret i en utdatakolonne.

Syntaks

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parametere

Name Beskrivelse
labels
Obligatorisk
En matrise med strenger som representerer settet med klassifiseringsetiketter som samsvarer med tekstverdier i inndatakolonnen.
input_col
Obligatorisk
En streng som inneholder navnet på en eksisterende kolonne med inndatatekstverdier som skal klassifiseres i henhold til de egendefinerte etikettene.
output_col
Valgfritt
En streng som inneholder navnet på en ny kolonne der du vil lagre en klassifiseringsetikett for hver inndatatekstrad. Hvis du ikke angir denne parameteren, genereres et standardnavn for utdatakolonnen.
error_col
Valgfritt
En streng som inneholder navnet på en ny kolonne. Den nye kolonnen lagrer eventuelle OpenAI-feil som skyldes behandling av hver rad med inndatatekst. Hvis du ikke angir denne parameteren, genereres et standardnavn for feilkolonnen. Hvis det ikke er noen feil for en rad med inndata, er verdien i denne kolonnen null.

Returnerer

Funksjonen returnerer en Spark DataFrame som inneholder en ny kolonne som inneholder klassifiseringsetiketter som samsvarer med hver inndatatekstrad. Hvis en tekstverdi ikke kan klassifiseres, er den tilsvarende etiketten null.

Eksempel

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Denne eksempelkodecellen gir følgende utdata:

Skjermbilde av en dataramme med «beskrivelser»- og «kategori»-kolonner. «Kategori»-kolonnen viser kategorinavnet for hver beskrivelse.