Sdílet prostřednictvím


Použití ai.summarize s PySpark

Funkce ai.summarize používá generující AI k vytváření souhrnů vstupního textu s jedním řádkem kódu. Funkce může shrnout hodnoty z jednoho sloupce datového rámce nebo hodnot ve všech sloupcích.

Poznámka:

Přehled

Funkce ai.summarize je také k dispozici pro datové rámce Sparku . Pokud jako parametr zadáte název existujícího vstupního sloupce, funkce sumarizuje každou hodnotu ze samotného sloupce. V opačném případě funkce sumarizuje hodnoty napříč všemi sloupci datového rámce, řádek po řádku.

Funkce vrátí nový datový rámec se souhrny pro každý vstupní textový řádek, z jednoho sloupce nebo napříč všemi sloupci uloženými ve výstupním sloupci.

Syntaxe

df.ai.summarize(input_col="text", output_col="summaries")

Parametry

Název Description
input_col
Volitelný
Řetězec , který obsahuje název existujícího sloupce se vstupními textovými hodnotami, které se mají shrnout. Pokud tento parametr nenastavíte, funkce shrnuje hodnoty napříč všemi sloupci v datovém rámci místo hodnot z konkrétního sloupce.
instructions
Volitelný
Řetězec, který obsahuje více kontextu pro model AI, například určení délky výstupu, tónu nebo více. Přesnější pokyny přinesou lepší výsledky.
error_col
Volitelný
Řetězec , který obsahuje název nového sloupce pro uložení všech chyb OpenAI, které jsou výsledkem zpracování každého vstupního textového řádku. Pokud tento parametr nenastavíte, vygeneruje se pro sloupec s chybou výchozí název. Pokud vstupní řádek neobsahuje žádné chyby, hodnota v tomto sloupci je null.
output_col
Volitelný
Řetězec , který obsahuje název nového sloupce pro ukládání souhrnů pro každý vstupní textový řádek. Pokud tento parametr nenastavíte, vygeneruje se pro výstupní sloupec výchozí název.

Návraty

Funkce vrátí datový rámec Sparku , který obsahuje nový sloupec, který obsahuje souhrnný text pro každý vstupní textový řádek. Pokud je vstupní text null, výsledek je null. Pokud není zadán žádný vstupní sloupec, funkce shrnuje hodnoty napříč všemi sloupci v datovém rámci.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Tato ukázková buňka kódu poskytuje následující výstup:

Snímek obrazovky znázorňující datový rámec Sloupec