Zdieľať cez


Použitie ai.summarize s PySparkom

Funkcia ai.summarize využíva generatívnu umelú inteligenciu na vytváranie súhrnov vstupného textu s jedným riadkom kódu. Funkcia môže buď sumarizovať hodnoty z jedného stĺpca údajového rámca, alebo hodnoty vo všetkých stĺpcoch.

Poznámka

Overview

Táto ai.summarize funkcia je k dispozícii aj pre údajové rámce Spark. Ak ako parameter zadáte názov existujúceho vstupného stĺpca, funkcia sumarizuje každú hodnotu iba z tohto stĺpca. V opačnom prípade funkcia sumarizuje hodnoty vo všetkých stĺpcoch prvku DataFrame, riadok po riadku.

Funkcia vráti nový údajový rámec so súhrnmi pre každý riadok vstupného textu z jedného stĺpca alebo zo všetkých stĺpcov, uložený vo výstupnom stĺpci.

Syntax

df.ai.summarize(input_col="text", output_col="summaries")

Parametre

Name Popis
input_col
Voliteľné
Reťazec, ktorý obsahuje názov existujúceho stĺpca so vstupnými textovými hodnotami na zhrnutie. Ak tento parameter nenastavíte, funkcia sumarizuje hodnoty vo všetkých stĺpcoch v údajovom rámci, a nie hodnoty z konkrétneho stĺpca.
instructions
Voliteľné
Reťazec, ktorý obsahuje viac kontextu pre AI model, napríklad špecifikuje výstupnú dĺžku, tón alebo viac. Presnejšie pokyny prinesú lepšie výsledky.
error_col
Voliteľné
Reťazec, ktorý obsahuje názov nového stĺpca na uloženie všetkých chýb OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nenastavíte, pre chybový stĺpec sa vygeneruje predvolený názov. Ak vstupný riadok neobsahuje žiadne chyby, hodnota v tomto stĺpci je null.
output_col
Voliteľné
Reťazec, ktorý obsahuje názov nového stĺpca na ukladanie súhrnov pre každý riadok vstupného textu. Ak tento parameter nenastavíte, pre výstupný stĺpec sa vygeneruje predvolený názov.

Vrátené hodnoty

Funkcia vráti údajový rámec Spark , ktorý obsahuje nový stĺpec, ktorý obsahuje súhrnný text pre každý riadok vstupného textu. Ak je vstupný text null, výsledok je null. Ak nie je zadaný žiadny vstupný stĺpec, funkcia sumarizuje hodnoty vo všetkých stĺpcoch v prvku DataFrame.

Príklad

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Táto príkladová bunka kódu poskytuje nasledujúci výstup:

Snímka obrazovky zobrazujúca údajový rámec. Stĺpec