Zdieľať cez


Sumarizácia textu pomocou funkcie ai.summarize

Funkcia ai.summarize používa Generatívnu AI na vytvorenie súhrnov vstupného textu – buď hodnôt z jedného stĺpca údajového rámca alebo hodnôt vo všetkých stĺpcoch, s jedným riadkom kódu.

Strojárstvo údajov preplňovania funkcií AI tým, že do rúk dáva výkon vstavaných modelov veľkých jazykov služby Fabric. Ďalšie informácie nájdete článku s prehľadom.

Dôležitý

Táto funkcia je v ukážkena použitie v runtime služby Fabric 1.3 a novších verziách.

  • Prečítajte si požiadavky uvedené v článku s prehľadomvrátane inštalácií knižnice , ktoré sú dočasne potrebné na používanie funkcií AI.
  • V predvolenom nastavení sú funkcie AI aktuálne napájané modelom gpt-3.5-turbo (0125). Ďalšie informácie o vyúčtovaní a spotrebných sadzbách nájdete v tomto článku.
  • Napriek tomu, že základný model dokáže pracovať v niekoľkých jazykoch, väčšina funkcií AI je optimalizovaná na používanie v textoch v anglickom jazyku.
  • Počas počiatočného zavádzania funkcií AI sú používatelia dočasne obmedzení na 1 000 žiadostí za minútu so vstavaným koncovým bodom AI služby Fabric.

Použitie ai.summarize s pandas

Funkcia ai.summarize rozširuje triedu pandas series. Zavolajte funkciu na pandas DataFrame textovom stĺpci a sumarizuje každú hodnotu riadka iba z tohto stĺpca. Prípadne môžete zavolať funkciu ai.summarize na celom prvku DataFrame a sumarizovať hodnoty vo všetkých stĺpcoch.

Funkcia vráti pandas series, ktorá obsahuje súhrny, ktoré môžu byť uložené v novom stĺpci údajového rámca.

Syntax

df["summaries"] = df["text"].ai.summarize()

Parametre

Žiadny

Vráti

pandas series, ktorá obsahuje súhrny pre každý vstupný textový riadok. Ak je vstupný text null, výsledok je null.

Príklad

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

Použitie ai.summarize v PySparku

Funkcia ai.summarize je k dispozícii aj pre Údajové rámce služby Spark. Ak ako parameter zadáte názov existujúceho vstupného stĺpca, funkcia sumarizuje každú hodnotu iba z tohto stĺpca. V opačnom prípade funkcia sumarizuje hodnoty vo všetkých stĺpcoch prvku DataFrame, riadok po riadku.

Funkcia vráti nový údajový rámec so súhrnmi pre každý riadok vstupného textu z jedného stĺpca alebo zo všetkých stĺpcov, uložený vo výstupnom stĺpci.

Syntax

df.ai.summarize(input_col="text", output_col="summaries")

Parametre

Názov popisu
input_col
Voliteľný
Reťazec , ktorý obsahuje názov existujúceho stĺpca so vstupnými textovými hodnotami na sumarizáciu. Ak tento parameter nie je nastavený, funkcia zosumarizuje hodnoty vo všetkých stĺpcoch v prvku DataFrame namiesto hodnôt zo konkrétneho stĺpca.
output_col
Voliteľný
reťazca, ktorý obsahuje názov nového stĺpca na ukladanie súhrnov pre každý vstupný textový riadok. Ak tento parameter nie je nastavený, pre výstupný stĺpec sa vygeneruje predvolený názov.
error_col
Voliteľný
Reťazec , ktorý obsahuje názov nového stĺpca na uloženie všetkých chýb typu OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nie je nastavený, pre stĺpec chyby sa vygeneruje predvolený názov. Ak vstupný riadok neobsahuje žiadne chyby, hodnota v tomto stĺpci je null.

Vráti

Údajový rámec služby Spark s novým stĺpcom, ktorý obsahuje súhrnný text pre každý vstupný textový riadok. Ak je vstupný text null, výsledok je null. Ak nie je zadaný žiadny vstupný stĺpec, funkcia sumarizuje hodnoty vo všetkých stĺpcoch v prvku DataFrame.

Príklad

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)