Condividi tramite


Usare ai.summarize con PySpark

La ai.summarize funzione usa l'intelligenza artificiale generativa per produrre riepiloghi di testo di input, con una singola riga di codice. La funzione può riepilogare i valori di una colonna di un dataframe o valori in tutte le colonne.

Annotazioni

Informazioni generali

La ai.summarize funzione è disponibile anche per i dataframe Spark. Se si specifica il nome di una colonna di input esistente come parametro, la funzione riepiloga ogni valore da tale colonna. In caso contrario, la funzione riepiloga i valori in tutte le colonne del dataframe, riga per riga.

La funzione restituisce un nuovo dataframe con riepiloghi per ogni riga di testo di input, da una singola colonna o in tutte le colonne archiviate in una colonna di output.

Sintassi

df.ai.summarize(input_col="text", output_col="summaries")

Parametri

Nome Description
input_col
Opzionale
Stringa contenente il nome di una colonna esistente con valori di testo di input da riepilogare. Se non si imposta questo parametro, la funzione riepiloga i valori in tutte le colonne del dataframe, anziché i valori di una colonna specifica.
instructions
Opzionale
Stringa che contiene più contesto per il modello AI, ad esempio specificando la lunghezza dell'output, il tono o altro. Istruzioni più precise produrranno risultati migliori.
error_col
Opzionale
Stringa contenente il nome di una nuova colonna per archiviare eventuali errori OpenAI risultanti dall'elaborazione di ogni riga di testo di input. Se non si imposta questo parametro, viene generato un nome predefinito per la colonna di errore. Se una riga di input non contiene errori, il valore in questa colonna è null.
output_col
Opzionale
Stringa contenente il nome di una nuova colonna in cui archiviare i riepiloghi per ogni riga di testo di input. Se non si imposta questo parametro, viene generato un nome predefinito per la colonna di output.

Restituzioni

La funzione restituisce un dataframe Spark che include una nuova colonna contenente testo riepilogato per ogni riga di testo di input. Se il testo di input è null, il risultato è null. Se non viene specificata alcuna colonna di input, la funzione riepiloga i valori in tutte le colonne del dataframe.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Questa cella di codice di esempio fornisce l'output seguente:

Screenshot che mostra un frame di dati. La colonna