Utiliser ai.class avec PySpark

La fonction utilise l’IA ai.classify générative pour catégoriser le texte d’entrée en fonction des étiquettes personnalisées que vous choisissez, avec une seule ligne de code.

Note

Cet article traite de l’utilisation de ai.class avec PySpark. Pour utiliser ai.class avec pandas, consultez cet article.
Consultez d’autres fonctions IA dans cet article de vue d’ensemble.
Découvrez comment personnaliser la configuration des fonctions IA.

Aperçu

La ai.classify fonction est disponible pour les DataFrames Spark. Vous devez spécifier le nom d’une colonne d’entrée existante en tant que paramètre, ainsi qu’une liste d’étiquettes de classification.

La fonction retourne un nouveau DataFrame avec des étiquettes qui correspondent à chaque ligne de texte d’entrée, stockée dans une colonne de sortie.

Syntaxe

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Paramètres

Nom	Descriptif
`labels` Obligatoire	Tableau de chaînes qui représente l’ensemble d’étiquettes de classification à mettre en correspondance avec les valeurs de texte dans la colonne d’entrée.
`input_col` Obligatoire	Chaîne qui contient le nom d’une colonne existante avec des valeurs de texte d’entrée à classifier en fonction des étiquettes personnalisées.
`output_col` Optional	Chaîne qui contient le nom d’une nouvelle colonne dans laquelle vous souhaitez stocker une étiquette de classification pour chaque ligne de texte d’entrée. Si vous ne définissez pas ce paramètre, un nom par défaut est généré pour la colonne de sortie.
`error_col` Optional	Chaîne qui contient le nom d’une nouvelle colonne. La nouvelle colonne stocke toutes les erreurs OpenAI résultant du traitement de chaque ligne de texte d’entrée. Si vous ne définissez pas ce paramètre, un nom par défaut est généré pour la colonne d’erreur. En l’absence d’erreurs pour une ligne d’entrée, la valeur de cette colonne est `null`.

Retours

La fonction retourne un DataFrame Spark qui inclut une nouvelle colonne qui contient des étiquettes de classification qui correspondent à chaque ligne de texte d’entrée. Si une valeur de texte ne peut pas être classifiée, l’étiquette correspondante est null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Cet exemple de cellule de code fournit la sortie suivante :

Utilisez ai.classify avec pandas.
Détecter les sentiments avec ai.analyze_sentiment.
Générer des incorporations vectorielles avec ai.embed.
Extrayez des entités avec ai_extract.
Corrigez la grammaire avec ai.fix_grammar.
Répondez aux invites d’utilisateur personnalisées avec ai.generate_response.
Calculez la similarité avec ai.similarité.
Résumez le texte avec ai.summarize.
Traduire du texte avec ai.translate.
En savoir plus sur l’ensemble complet de fonctions IA.
Personnalisez la configuration des fonctions IA.
Avons-nous manqué une fonctionnalité dont vous avez besoin ? Suggèrez-le sur le forum Idées de structure.

Rétroaction

Cette page vous a-t-elle été utile ?

Last updated on 2025-11-21