Compartir a través de


Uso de ai.classify con PySpark

La ai.classify función usa ia generativa para clasificar el texto de entrada según las etiquetas personalizadas que elija, con una sola línea de código.

Nota:

Información general

La ai.classify función está disponible para DataFrames de Spark. Debe especificar el nombre de una columna de entrada existente como parámetro, junto con una lista de etiquetas de clasificación.

La función devuelve un nuevo DataFrame con etiquetas que coinciden con cada fila de texto de entrada, almacenada en una columna de salida.

Syntax

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parámetros

Nombre Description
labels
Obligatorio
Matriz de cadenas que representa el conjunto de etiquetas de clasificación para que coincidan con los valores de texto de la columna de entrada.
input_col
Obligatorio
Cadena que contiene el nombre de una columna existente con datos de texto de entrada para clasificar según las etiquetas personalizadas.
output_col
Opcional
Una cadena que contiene el nombre de una nueva columna en la que desea almacenar una etiqueta de clasificación para cada fila de texto de entrada. Si no establece este parámetro, se genera un nombre predeterminado para la columna de salida.
error_col
Opcional
Cadena que contiene el nombre de una nueva columna. La nueva columna almacena los errores de OpenAI resultantes del procesamiento de cada fila de texto de entrada. Si no establece este parámetro, se genera un nombre predeterminado para la columna de error. Si no hay ningún error para una fila de entrada, el valor de esta columna es null.

Devoluciones

La función devuelve un DataFrame de Spark que incluye una nueva columna que contiene etiquetas de clasificación que coinciden con cada fila de texto de entrada. Si no se puede clasificar un valor de texto, la etiqueta correspondiente es null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Esta celda de código de ejemplo proporciona la siguiente salida:

Captura de pantalla de una trama de datos con columnas