Compartir a través de


Uso de ai.summarize con PySpark

La ai.summarize función usa ia generativa para generar resúmenes de texto de entrada, con una sola línea de código. La función puede resumir valores de una columna de un dataframe o valores en todas las columnas.

Nota:

Información general

La función ai.summarize también está disponible para DataFrames de Spark. Si especifica el nombre de una columna de entrada existente como parámetro, la función resume solo cada valor de esa columna. De lo contrario, la función resume los valores de todas las columnas del DataFrame, fila por fila.

La función devuelve un nuevo DataFrame con resúmenes para cada fila de texto de entrada, de una sola columna o de todas las columnas, almacenadas en una columna de salida.

Syntax

df.ai.summarize(input_col="text", output_col="summaries")

Parámetros

Nombre Description
input_col
Opcional
Cadena que contiene el nombre de una columna existente con valores de texto de entrada que deben resumirse. Si no establece este parámetro, la función resume los valores de todas las columnas del DataFrame, en lugar de valores de una columna específica.
instructions
Opcional
Cadena que contiene más contexto para el modelo de IA, como especificar longitud de salida, tono o más. Las instrucciones más precisas producirán mejores resultados.
error_col
Opcional
Cadena que contiene el nombre de una nueva columna para almacenar los errores de OpenAI que se producen al procesar cada fila de texto de entrada. Si no establece este parámetro, se genera un nombre predeterminado para la columna de error. Si una fila de entrada no tiene errores, el valor de esta columna es null.
output_col
Opcional
Cadena que contiene el nombre de una nueva columna para almacenar resúmenes para cada fila de texto de entrada. Si no establece este parámetro, se genera un nombre predeterminado para la columna de salida.

Devoluciones

La función devuelve un DataFrame de Spark que incluye una nueva columna que contiene texto resumido para cada fila de texto de entrada. Si el texto de entrada es null, el resultado es null. Si no se especifica ninguna columna de entrada, la función resume los valores de todas las columnas del DataFrame.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Esta celda de código de ejemplo proporciona la siguiente salida:

Captura de pantalla que muestra una trama de datos. La columna