Partager via


Utiliser ai.summarize avec PySpark

La fonction utilise l’IA ai.summarize générative pour produire des résumés de texte d’entrée, avec une seule ligne de code. La fonction peut synthétiser des valeurs d’une colonne d’un DataFrame ou des valeurs sur toutes les colonnes.

Note

Aperçu

La fonction ai.summarize est également disponible pour DataFrames Spark. Si vous spécifiez le nom d’une colonne d’entrée existante en tant que paramètre, la fonction récapitule chaque valeur de cette colonne seule. Sinon, la fonction récapitule les valeurs sur toutes les colonnes du DataFrame, ligne par ligne.

La fonction retourne un nouveau DataFrame avec des résumés pour chaque ligne de texte d’entrée, à partir d’une seule colonne ou sur toutes les colonnes, stockées dans une colonne de sortie.

Syntaxe

df.ai.summarize(input_col="text", output_col="summaries")

Paramètres

Nom Descriptif
input_col
Optional
Chaîne qui contient le nom d’une colonne existante avec des valeurs de texte d’entrée à synthétiser. Si vous ne définissez pas ce paramètre, la fonction récapitule les valeurs sur toutes les colonnes du DataFrame, au lieu de valeurs d’une colonne spécifique.
instructions
Optional
Chaîne qui contient plus de contexte pour le modèle d'intelligence artificielle, comme la spécification de la longueur de sortie, du ton, ou d'autres paramètres. Des instructions plus précises donnent de meilleurs résultats.
error_col
Optional
Chaîne qui contient le nom d’une nouvelle colonne pour stocker les erreurs OpenAI résultant du traitement de chaque ligne de texte d’entrée. Si vous ne définissez pas ce paramètre, un nom par défaut est généré pour la colonne d’erreur. Si une ligne d’entrée n’a aucune erreur, la valeur de cette colonne est null.
output_col
Optional
Chaîne qui contient le nom d’une nouvelle colonne pour stocker des résumés pour chaque ligne de texte d’entrée. Si vous ne définissez pas ce paramètre, un nom par défaut est généré pour la colonne de sortie.

Retours

La fonction retourne un DataFrame Spark qui inclut une nouvelle colonne qui contient du texte résumé pour chaque ligne de texte d’entrée. Si le texte d’entrée est null, le résultat est null. Si aucune colonne d’entrée n’est spécifiée, la fonction récapitule les valeurs de toutes les colonnes du DataFrame.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Cet exemple de cellule de code fournit la sortie suivante :

Capture d’écran montrant une trame de données. La colonne « summary » contient un résumé de la colonne « description » uniquement, dans la ligne correspondante.