Zdieľať cez


Kategorizovanie textu pomocou funkcie ai.classify

Funkcia ai.classify používa Generatívnu AI na kategorizovanie vstupného textu podľa vlastných označení, ktoré si vyberiete – to všetko s jedným riadkom kódu.

Strojárstvo údajov preplňovania funkcií AI tým, že do rúk dáva výkon vstavaných modelov veľkých jazykov služby Fabric. Ďalšie informácie nájdete článku s prehľadom.

Dôležitý

Táto funkcia je v ukážkena použitie v runtime služby Fabric 1.3 a novších verziách.

  • Prečítajte si požiadavky uvedené v článku s prehľadomvrátane inštalácií knižnice , ktoré sú dočasne potrebné na používanie funkcií AI.
  • V predvolenom nastavení sú funkcie AI aktuálne napájané modelom gpt-3.5-turbo (0125). Ďalšie informácie o vyúčtovaní a spotrebných sadzbách nájdete v tomto článku.
  • Napriek tomu, že základný model dokáže pracovať v niekoľkých jazykoch, väčšina funkcií AI je optimalizovaná na používanie v textoch v anglickom jazyku.
  • Počas počiatočného zavádzania funkcií AI sú používatelia dočasne obmedzení na 1 000 žiadostí za minútu so vstavaným koncovým bodom AI služby Fabric.

Tip

Odporúčame používať funkciu ai.classify s aspoň dvomi vstupnými označeniami.

Použitie ai.classify s pandas

Funkcia ai.classify rozširuje triedu pandas series. Ak chcete priradiť používateľom zadané označenia ku každému vstupnému riadku, zavolajte funkciu v textovom stĺpci pandas DataFrame.

Funkcia vráti pandas series, ktorá obsahuje označenia klasifikácie, ktoré môžu byť uložené v novom stĺpci údajového rámca.

Syntax

df["classification"] = df["text"].ai.classify("category1", "category2", "category3")

Parametre

Názov popisu
labels
Požadovaný
Jeden alebo viacero reťazcov predstavujúce množinu označení klasifikácie, ktoré sa majú zhodovať so vstupnými textovými hodnotami.

Vráti

Funkcia vráti pandas series, ktorá obsahuje označenie klasifikácie pre každý vstupný textový riadok. Ak textovú hodnotu nemožno klasifikovať, zodpovedajúce označenie je null.

Príklad

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Použitie ai.classify v PySparku

Funkcia ai.classify je k dispozícii aj pre Údajové rámce služby Spark. Názov existujúceho vstupného stĺpca musí byť zadaný ako parameter spolu so zoznamom označení klasifikácie.

Funkcia vráti nový údajový rámec s označeniami, ktoré zodpovedajú každému riadku vstupného textu uloženému vo výstupnom stĺpci.

Syntax

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parametre

Názov popisu
labels
Požadovaný
Pole reťazcov, ktoré predstavujú množinu označení klasifikácie, ktoré sa majú zhodovať s textovými hodnotami vo vstupnom stĺpci.
input_col
Požadovaný
Reťazec , ktorý obsahuje názov existujúceho stĺpca so vstupnými textovými hodnotami, ktoré sa majú klasifikovať podľa vlastných označení.
output_col
Voliteľný
Reťazec , ktorý obsahuje názov nového stĺpca na uloženie označenia klasifikácie pre každý riadok vstupného textu. Ak tento parameter nie je nastavený, pre výstupný stĺpec sa vygeneruje predvolený názov.
error_col
Voliteľný
reťazec, ktorý obsahuje názov nového stĺpca. Nový stĺpec ukladá všetky chyby typu OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nie je nastavený, pre stĺpec chyby sa vygeneruje predvolený názov. Ak sa v riadku vstupu nenachádzajú žiadne chyby, hodnota v tomto stĺpci je null.

Vráti

Funkcia vráti Údajový rámec Spark s novým stĺpcom, ktorý obsahuje označenia klasifikácie, ktoré zodpovedajú každému vstupnému textovému riadku. Ak textovú hodnotu nemožno klasifikovať, zodpovedajúce označenie je null.

Príklad

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)