Sdílet prostřednictvím


Použití ai.classify s PySpark

Funkce ai.classify používá generování umělé inteligence k kategorizaci vstupního textu podle vlastních popisků, které zvolíte, s jedním řádkem kódu.

Poznámka:

Přehled

Funkce ai.classify je k dispozici pro datové rámce Sparku. Jako parametr musíte zadat název existujícího vstupního sloupce spolu se seznamem popisků klasifikace.

Funkce vrátí nový datový rámec s popisky, které odpovídají každému řádku vstupního textu uloženému ve výstupním sloupci.

Syntaxe

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parametry

Název Description
labels
Povinné
Poleřetězců, které představují sadu klasifikačních štítků pro přiřazení k textovým hodnotám ve vstupním sloupci.
input_col
Povinné
Řetězec, který obsahuje název existujícího sloupce se vstupními textovými hodnotami pro klasifikaci podle vlastních popisků.
output_col
Volitelný
Řetězec, který obsahuje název nového sloupce, do kterého chcete uložit popisek klasifikace pro každý vstupní textový řádek. Pokud tento parametr nenastavíte, pro výstupní sloupec se vygeneruje výchozí název.
error_col
Volitelný
Řetězec , který obsahuje název nového sloupce. Nový sloupec ukládá všechny chyby OpenAI, které jsou výsledkem zpracování každého řádku vstupního textu. Pokud tento parametr nenastavíte, pro sloupec s chybou se vygeneruje výchozí název. Pokud u řádku vstupu nejsou žádné chyby, hodnota v tomto sloupci je null.

Návraty

Funkce vrátí datový rámec Sparku , který obsahuje nový sloupec, který obsahuje popisky klasifikace, které odpovídají každému vstupnímu textovému řádku. Pokud textovou hodnotu nelze klasifikovat, odpovídající popisek je null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Tato ukázková buňka kódu poskytuje následující výstup:

Snímek obrazovky datového rámce se sloupci popisy a kategorie Sloupec