Kategorizovanie textu pomocou funkcie `ai.classify`

2025-03-05

Funkcia ai.classify používa Generatívnu AI na kategorizovanie vstupného textu podľa vlastných označení, ktoré si vyberiete – to všetko s jedným riadkom kódu.

Strojárstvo údajov preplňovania funkcií AI tým, že do rúk dáva výkon vstavaných modelov veľkých jazykov služby Fabric. Ďalšie informácie nájdete článku s prehľadom.

Dôležitý

Táto funkcia je v ukážkena použitie v runtime služby Fabric 1.3 a novších verziách.

Prečítajte si požiadavky uvedené v článku s prehľadomvrátane inštalácií knižnice , ktoré sú dočasne potrebné na používanie funkcií AI.
V predvolenom nastavení sú funkcie AI aktuálne napájané modelom gpt-3.5-turbo (0125). Ďalšie informácie o vyúčtovaní a spotrebných sadzbách nájdete v tomto článku.
Napriek tomu, že základný model dokáže pracovať v niekoľkých jazykoch, väčšina funkcií AI je optimalizovaná na používanie v textoch v anglickom jazyku.
Počas počiatočného zavádzania funkcií AI sú používatelia dočasne obmedzení na 1 000 žiadostí za minútu so vstavaným koncovým bodom AI služby Fabric.

Tip

Odporúčame používať funkciu ai.classify s aspoň dvomi vstupnými označeniami.

Použitie `ai.classify` s pandas

Funkcia ai.classify rozširuje triedu pandas series. Ak chcete priradiť používateľom zadané označenia ku každému vstupnému riadku, zavolajte funkciu v textovom stĺpci pandas DataFrame.

Funkcia vráti pandas series, ktorá obsahuje označenia klasifikácie, ktoré môžu byť uložené v novom stĺpci údajového rámca.

Syntax

df["classification"] = df["text"].ai.classify("category1", "category2", "category3")

Parametre

Názov	popisu
`labels` Požadovaný	Jeden alebo viacero reťazcov predstavujúce množinu označení klasifikácie, ktoré sa majú zhodovať so vstupnými textovými hodnotami.

Vráti

Funkcia vráti pandas series, ktorá obsahuje označenie klasifikácie pre každý vstupný textový riadok. Ak textovú hodnotu nemožno klasifikovať, zodpovedajúce označenie je null.

Príklad

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Použitie `ai.classify` v PySparku

Funkcia ai.classify je k dispozícii aj pre Údajové rámce služby Spark. Názov existujúceho vstupného stĺpca musí byť zadaný ako parameter spolu so zoznamom označení klasifikácie.

Funkcia vráti nový údajový rámec s označeniami, ktoré zodpovedajú každému riadku vstupného textu uloženému vo výstupnom stĺpci.

Syntax

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parametre

Názov	popisu
`labels` Požadovaný	Pole reťazcov, ktoré predstavujú množinu označení klasifikácie, ktoré sa majú zhodovať s textovými hodnotami vo vstupnom stĺpci.
`input_col` Požadovaný	Reťazec , ktorý obsahuje názov existujúceho stĺpca so vstupnými textovými hodnotami, ktoré sa majú klasifikovať podľa vlastných označení.
`output_col` Voliteľný	Reťazec , ktorý obsahuje názov nového stĺpca na uloženie označenia klasifikácie pre každý riadok vstupného textu. Ak tento parameter nie je nastavený, pre výstupný stĺpec sa vygeneruje predvolený názov.
`error_col` Voliteľný	reťazec, ktorý obsahuje názov nového stĺpca. Nový stĺpec ukladá všetky chyby typu OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nie je nastavený, pre stĺpec chyby sa vygeneruje predvolený názov. Ak sa v riadku vstupu nenachádzajú žiadne chyby, hodnota v tomto stĺpci je `null`.

Vráti

Funkcia vráti Údajový rámec Spark s novým stĺpcom, ktorý obsahuje označenia klasifikácie, ktoré zodpovedajú každému vstupnému textovému riadku. Ak textovú hodnotu nemožno klasifikovať, zodpovedajúce označenie je null.

Príklad

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Vypočítajte podobnosť s ai.similarity.
Zistiť náladu pomocou ai.analyze_sentiment.
Extrahovanie entít pomocou ai_extract.
Oprava gramatiky pomocou ai.fix_grammar.
Sumarizácia textu pomocou ai.summarize.
Preklad textu pomocou ai.translate.
Odpovedanie na vlastné výzvy používateľa pomocou ai.generate_response.
Ďalšie informácie o úplnej množine funkcií umelej inteligencie nájdete tu.
Naučte sa prispôsobiť konfiguráciu funkcií AI tu.
Chýbala vám funkcia, ktorú potrebujete? Navrhnite ho na fóre Fabric Ideas.

Zdieľať cez

Kategorizovanie textu pomocou funkcie ai.classify

Použitie ai.classify s pandas

Syntax

Parametre

Vráti

Príklad

Použitie ai.classify v PySparku

Syntax

Parametre

Vráti

Príklad

Súvisiaci obsah

Pripomienky

Ďalšie zdroje informácií

Kategorizovanie textu pomocou funkcie `ai.classify`

Použitie `ai.classify` s pandas

Použitie `ai.classify` v PySparku