Condividi tramite


Usare ai.classify con PySpark

La ai.classify funzione usa l'intelligenza artificiale generativa per classificare il testo di input in base alle etichette personalizzate scelte, con una singola riga di codice.

Annotazioni

Informazioni generali

La ai.classify funzione è disponibile per i dataframe Spark. È necessario specificare il nome di una colonna di input esistente come parametro, insieme a un elenco di etichette di classificazione.

La funzione restituisce un nuovo dataframe con etichette che corrispondono a ogni riga di testo di input, archiviata in una colonna di output.

Sintassi

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parametri

Nome Description
labels
Obbligatorio
Matrice di stringhe che rappresenta il set di etichette di classificazione da associare ai valori di testo nella colonna di input.
input_col
Obbligatorio
Stringa contenente il nome di una colonna esistente con valori di testo di input da classificare in base alle etichette personalizzate.
output_col
Opzionale
Stringa contenente il nome di una nuova colonna in cui si vuole archiviare un'etichetta di classificazione per ogni riga di testo di input. Se non si imposta questo parametro, viene generato un nome predefinito per la colonna di output.
error_col
Opzionale
Stringa contenente il nome di una nuova colonna. La nuova colonna archivia tutti gli errori OpenAI risultanti dall'elaborazione di ogni riga di testo di input. Se non si imposta questo parametro, viene generato un nome predefinito per la colonna di errore. Se non sono presenti errori per una riga di input, il valore in questa colonna è null.

Restituzioni

La funzione restituisce un dataframe Spark che include una nuova colonna contenente etichette di classificazione che corrispondono a ogni riga di testo di input. Se non è possibile classificare un valore di testo, l'etichetta corrispondente è null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Questa cella di codice di esempio fornisce l'output seguente:

Screenshot di un frame di dati con le colonne 'description' e 'category'. La colonna 'category' elenca il nome della categoria di ogni descrizione.