Använd ai.summarize med PySpark

Funktionen ai.summarize använder generativ AI för att skapa sammanfattningar av indatatext med en enda kodrad. Funktionen kan antingen sammanfatta värden från en kolumn i en DataFrame eller värden i alla kolumner.

Anmärkning

Den här artikeln beskriver hur du använder ai.summarize med PySpark. Mer information om hur du använder ai.summarize med Pandas finns i den här artikeln.
Se andra AI-funktioner i den här översiktsartikeln.
Lär dig hur du anpassar konfigurationen av AI-funktioner.

Översikt

Funktionen ai.summarize är också tillgänglig för Spark DataFrames. Om du anger namnet på en befintlig indatakolumn som en parameter sammanfattar funktionen varje värde enbart från den kolumnen. Annars sammanfattar funktionen värden i alla kolumner i DataFrame, rad för rad.

Funktionen returnerar en ny DataFrame med sammanfattningar för varje textrad för indata, från en enda kolumn eller över alla kolumner som lagras i en utdatakolumn.

df.ai.summarize(input_col="text", output_col="summaries")

df.ai.summarize(output_col="summaries")

Parameterar

Namn	Description
`input_col` Valfritt	En sträng som innehåller namnet på en befintlig kolumn med indatatextvärden som ska sammanfattas. Om du inte anger den här parametern sammanfattar funktionen värden i alla kolumner i DataFrame i stället för värden från en specifik kolumn.
`instructions` Valfritt	En sträng som innehåller mer kontext för AI-modellen, till exempel att ange utdatalängd, ton eller mer. Mer exakta instruktioner ger bättre resultat.
`error_col` Valfritt	En sträng som innehåller namnet på en ny kolumn för att lagra eventuella OpenAI-fel som uppstår när varje textrad bearbetas. Om du inte anger den här parametern genereras ett standardnamn för felkolumnen. Om en indatarad inte har några fel är värdet i den här kolumnen `null`.
`output_col` Valfritt	En sträng som innehåller namnet på en ny kolumn som ska lagra sammanfattningar för varje textrad. Om du inte anger den här parametern genereras ett standardnamn för utdatakolumnen.

Retur

Funktionen returnerar en Spark DataFrame som innehåller en ny kolumn som innehåller sammanfattad text för varje textrad. Om indatatexten är nullblir resultatet null. Om ingen indatakolumn har angetts sammanfattar funktionen värden i alla kolumner i DataFrame.

Example

Sammanfatta värden från en enda kolumn
Sammanfatta värden i alla kolumner

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Den här exempelkodcellen innehåller följande utdata:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(output_col="summaries")
display(summaries)

Den här exempelkodcellen innehåller följande utdata:

Använd ai.summarize med Pandas.
Identifiera sentiment med ai.analyze_sentiment.
Kategorisera text med ai.classify.
Generera vektorbäddningar med ai.embed.
Extrahera entiteter med ai_extract.
Åtgärda grammatik med ai.fix_grammar.
Svara på anpassade användarfrågor med ai.generate_response.
Beräkna likhet med ai.similarity.
Översätt text med ai.translate.
Läs mer om den fullständiga uppsättningen AI-funktioner.
Anpassa konfigurationen av AI-funktioner.
Missade vi en funktion som du behöver? Föreslå det på forumet Fabric Ideas.

Feedback

Var den här sidan till hjälp?

Last updated on 2025-11-21