Compartir a través de


Uso ai.embed con PySpark

La ai.embed función usa IA generativa para convertir texto en embeddings vectoriales. Estos vectores permiten a la inteligencia artificial comprender las relaciones entre los textos, por lo que puede buscar, agrupar y comparar contenido en función del significado en lugar de la redacción exacta. Con una sola línea de código, puede generar incrustaciones vectoriales a partir de una columna de un dataframe.

Nota:

Información general

La ai.embed función está disponible para DataFrames de Spark. Debe especificar el nombre de una columna de entrada existente como parámetro.

La función devuelve un nuevo dataframe que incluye incrustaciones para cada fila de texto de entrada, en una columna de salida.

Syntax

df.ai.embed(input_col="col1", output_col="embed")

Parámetros

Nombre Description
input_col
Obligatorio
Cadena que contiene el nombre de una columna existente con valores de texto de entrada que se van a usar para calcular incrustaciones.
output_col
Opcional
Cadena que contiene el nombre de una nueva columna para almacenar incrustaciones calculadas para cada fila de texto de entrada. Si no establece este parámetro, se genera un nombre predeterminado para la columna de salida.
error_col
Opcional
Cadena que contiene el nombre de una nueva columna que almacena los errores de OpenAI que se producen al procesar cada fila de texto de entrada. Si no establece este parámetro, se genera un nombre predeterminado para la columna de error. Si una fila de entrada no tiene errores, esta columna tiene un null valor.

Devoluciones

La función devuelve un DataFrame de Spark que incluye una nueva columna que contiene incrustaciones generadas para cada fila de texto de entrada. Las incrustaciones son del tipo [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). El número de elementos de DenseVector depende de las dimensiones del modelo de inserción, que se pueden configurar en las funciones de IA.

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Esta celda de código de ejemplo proporciona la siguiente salida:

Captura de pantalla de una trama de datos con columnas