Använd ai.summarize med PySpark

Funktionen ai.summarize använder generativ AI för att skapa sammanfattningar av indatatext med en enda kodrad. Funktionen kan antingen sammanfatta värden från en kolumn i en DataFrame eller värden i alla kolumner.

Anmärkning

Översikt

Funktionen ai.summarize är också tillgänglig för Spark DataFrames. Om du anger namnet på en befintlig indatakolumn som en parameter sammanfattar funktionen varje värde enbart från den kolumnen. Annars sammanfattar funktionen värden i alla kolumner i DataFrame, rad för rad.

Funktionen returnerar en ny DataFrame med sammanfattningar för varje textrad för indata, från en enda kolumn eller över alla kolumner som lagras i en utdatakolumn.

Syntax

df.ai.summarize(input_col="text", output_col="summaries")

Parameterar

Namn Description
input_col
Valfritt
En sträng som innehåller namnet på en befintlig kolumn med indatatextvärden som ska sammanfattas. Om du inte anger den här parametern sammanfattar funktionen värden i alla kolumner i DataFrame i stället för värden från en specifik kolumn.
instructions
Valfritt
En sträng som innehåller mer kontext för AI-modellen, till exempel att ange utdatalängd, ton eller mer. Mer exakta instruktioner ger bättre resultat.
error_col
Valfritt
En sträng som innehåller namnet på en ny kolumn för att lagra eventuella OpenAI-fel som uppstår när varje textrad bearbetas. Om du inte anger den här parametern genereras ett standardnamn för felkolumnen. Om en indatarad inte har några fel är värdet i den här kolumnen null.
output_col
Valfritt
En sträng som innehåller namnet på en ny kolumn som ska lagra sammanfattningar för varje textrad. Om du inte anger den här parametern genereras ett standardnamn för utdatakolumnen.

Retur

Funktionen returnerar en Spark DataFrame som innehåller en ny kolumn som innehåller sammanfattad text för varje textrad. Om indatatexten är nullblir resultatet null. Om ingen indatakolumn har angetts sammanfattar funktionen värden i alla kolumner i DataFrame.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Den här exempelkodcellen innehåller följande utdata:

Skärmbild som visar en dataram. Kolumnen