Partager via


Utiliser ai.class avec PySpark

La fonction utilise l’IA ai.classify générative pour catégoriser le texte d’entrée en fonction des étiquettes personnalisées que vous choisissez, avec une seule ligne de code.

Note

Aperçu

La ai.classify fonction est disponible pour les DataFrames Spark. Vous devez spécifier le nom d’une colonne d’entrée existante en tant que paramètre, ainsi qu’une liste d’étiquettes de classification.

La fonction retourne un nouveau DataFrame avec des étiquettes qui correspondent à chaque ligne de texte d’entrée, stockée dans une colonne de sortie.

Syntaxe

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Paramètres

Nom Descriptif
labels
Obligatoire
Tableau de chaînes qui représente l’ensemble d’étiquettes de classification à mettre en correspondance avec les valeurs de texte dans la colonne d’entrée.
input_col
Obligatoire
Chaîne qui contient le nom d’une colonne existante avec des valeurs de texte d’entrée à classifier en fonction des étiquettes personnalisées.
output_col
Optional
Chaîne qui contient le nom d’une nouvelle colonne dans laquelle vous souhaitez stocker une étiquette de classification pour chaque ligne de texte d’entrée. Si vous ne définissez pas ce paramètre, un nom par défaut est généré pour la colonne de sortie.
error_col
Optional
Chaîne qui contient le nom d’une nouvelle colonne. La nouvelle colonne stocke toutes les erreurs OpenAI résultant du traitement de chaque ligne de texte d’entrée. Si vous ne définissez pas ce paramètre, un nom par défaut est généré pour la colonne d’erreur. En l’absence d’erreurs pour une ligne d’entrée, la valeur de cette colonne est null.

Retours

La fonction retourne un DataFrame Spark qui inclut une nouvelle colonne qui contient des étiquettes de classification qui correspondent à chaque ligne de texte d’entrée. Si une valeur de texte ne peut pas être classifiée, l’étiquette correspondante est null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Cet exemple de cellule de code fournit la sortie suivante :

Capture d’écran d’une trame de données avec les colonnes « descriptions » et « catégorie ». La colonne « catégorie » répertorie le nom de la catégorie de chaque description.