Freigeben über


Verwenden von ai.summarize mit PySpark

Die ai.summarize Funktion verwendet generative KI, um Zusammenfassungen von Eingabetext mit einer einzigen Codezeile zu erzeugen. Die Funktion kann Werte aus einer Spalte eines DataFrame oder Werte in allen Spalten zusammenfassen.

Hinweis

Überblick

Die ai.summarize-Funktion ist auch für Spark DataFramesverfügbar. Wenn Sie den Namen einer vorhandenen Eingabespalte als Parameter angeben, fasst die Funktion jeden Wert allein aus dieser Spalte zusammen. Andernfalls fasst die Funktion Werte in allen Spalten des DataFrame zusammen, Zeile nach Zeile.

Die Funktion gibt einen neuen DataFrame mit Zusammenfassungen für jede Eingabetextzeile aus einer einzelnen Spalte oder über alle Spalten zurück, die in einer Ausgabespalte gespeichert sind.

Syntax

df.ai.summarize(input_col="text", output_col="summaries")

Die Parameter

Name Description
input_col
Wahlfrei
Eine Zeichenfolge , die den Namen einer vorhandenen Spalte mit zu zusammenfassenden Eingabetextwerten enthält. Wenn Sie diesen Parameter nicht festlegen, fasst die Funktion Werte in allen Spalten im DataFrame zusammen, anstatt werte aus einer bestimmten Spalte.
instructions
Wahlfrei
Eine Zeichenfolge , die mehr Kontext für das KI-Modell enthält, z. B. angeben der Ausgabelänge, des Tons oder mehr. Präzisere Anweisungen liefern bessere Ergebnisse.
error_col
Wahlfrei
Eine Zeichenfolge , die den Namen einer neuen Spalte enthält, um alle OpenAI-Fehler zu speichern, die aus der Verarbeitung der einzelnen Eingabetextzeilen resultieren. Wenn Sie diesen Parameter nicht festlegen, wird für die Fehlerspalte ein Standardname generiert. Wenn eine Eingabezeile keine Fehler aufweist, lautet nullder Wert in dieser Spalte .
output_col
Wahlfrei
Eine Zeichenfolge , die den Namen einer neuen Spalte enthält, um Zusammenfassungen für jede Eingabetextzeile zu speichern. Wenn Sie diesen Parameter nicht festlegen, wird für die Ausgabespalte ein Standardname generiert.

Rückkehr

Die Funktion gibt einen Spark DataFrame zurück, der eine neue Spalte enthält, die zusammengefassten Text für jede Eingabetextzeile enthält. Wenn der Eingabetext lautet null, lautet nulldas Ergebnis . Wenn keine Eingabespalte angegeben wird, fasst die Funktion Werte in allen Spalten im DataFrame zusammen.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Diese Beispielcodezelle stellt die folgende Ausgabe bereit:

Screenshot eines Datenrahmens. Die Spalte