Zdieľať cez


Použitie ai.classify s PySpark

Funkcia ai.classify využíva generatívnu umelú inteligenciu na kategorizáciu vstupného textu podľa vlastných označení, ktoré si vyberiete, pomocou jedného riadka kódu.

Poznámka

Overview

Táto ai.classify funkcia je k dispozícii pre údajové rámce Spark. Ako parameter musíte zadať názov existujúceho vstupného stĺpca spolu so zoznamom označení klasifikácie.

Funkcia vráti nový údajový rámec s označeniami, ktoré zodpovedajú každému riadku vstupného textu uloženému vo výstupnom stĺpci.

Syntax

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parametre

Name Popis
labels
Povinné
Polereťazcov, ktoré predstavuje množinu označení klasifikácie, ktoré sa majú zhodovať s textovými hodnotami vo vstupnom stĺpci.
input_col
Povinné
Reťazec, ktorý obsahuje názov existujúceho stĺpca so vstupnými textovými hodnotami na klasifikáciu podľa vlastných označení.
output_col
Voliteľné
Reťazec, ktorý obsahuje názov nového stĺpca, do ktorého chcete uložiť označenie klasifikácie pre každý riadok vstupného textu. Ak tento parameter nenastavíte, pre výstupný stĺpec sa vygeneruje predvolený názov.
error_col
Voliteľné
Reťazec, ktorý obsahuje názov nového stĺpca. Nový stĺpec ukladá všetky chyby typu OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nenastavíte, pre chybový stĺpec sa vygeneruje predvolený názov. Ak sa v riadku vstupu nenachádzajú žiadne chyby, hodnota v tomto stĺpci je null.

Vrátené hodnoty

Funkcia vráti údajový rámec Spark , ktorý obsahuje nový stĺpec, ktorý obsahuje označenia klasifikácie, ktoré zodpovedajú každému riadku vstupného textu. Ak textovú hodnotu nemožno klasifikovať, zodpovedajúce označenie je null.

Príklad

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Táto príkladová bunka kódu poskytuje nasledujúci výstup:

Snímka obrazovky údajového rámca so stĺpcami