Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
La ai.embed función usa IA generativa para convertir texto en embeddings vectoriales. Estos vectores permiten a la inteligencia artificial comprender las relaciones entre los textos, por lo que puede buscar, agrupar y comparar contenido en función del significado en lugar de la redacción exacta. Con una sola línea de código, puede generar incrustaciones vectoriales a partir de una columna de un dataframe.
Nota:
- En este artículo se describe el uso de ai.embed con PySpark. Para usar ai.embed con pandas, consulte este artículo.
- Consulte otras funciones de IA en este artículo de información general.
- Aprenda a personalizar la configuración de las funciones de IA.
Información general
La ai.embed función está disponible para DataFrames de Spark. Debe especificar el nombre de una columna de entrada existente como parámetro.
La función devuelve un nuevo dataframe que incluye incrustaciones para cada fila de texto de entrada, en una columna de salida.
Syntax
df.ai.embed(input_col="col1", output_col="embed")
Parámetros
| Nombre | Description |
|---|---|
input_col Obligatorio |
Cadena que contiene el nombre de una columna existente con valores de texto de entrada que se van a usar para calcular incrustaciones. |
output_col Opcional |
Cadena que contiene el nombre de una nueva columna para almacenar incrustaciones calculadas para cada fila de texto de entrada. Si no establece este parámetro, se genera un nombre predeterminado para la columna de salida. |
error_col Opcional |
Cadena que contiene el nombre de una nueva columna que almacena los errores de OpenAI que se producen al procesar cada fila de texto de entrada. Si no establece este parámetro, se genera un nombre predeterminado para la columna de error. Si una fila de entrada no tiene errores, esta columna tiene un null valor. |
Devoluciones
La función devuelve un DataFrame de Spark que incluye una nueva columna que contiene incrustaciones generadas para cada fila de texto de entrada. Las incrustaciones son del tipo [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). El número de elementos de DenseVector depende de las dimensiones del modelo de inserción, que se pueden configurar en las funciones de IA.
Example
# This code uses AI. Always review output for mistakes.
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.
df = spark.createDataFrame([
("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
], ["descriptions"])
embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)
Esta celda de código de ejemplo proporciona la siguiente salida:
Contenido relacionado
Utiliza ai.embed con pandas.
Detectar opiniones con ai.analyze_sentiment.
Clasificar texto con ai.classify.
Extraiga entidades con ai_extract.
Corrija la gramática con ai.fix_grammar.
Responda a las solicitudes de usuario personalizadas con ai.generate_response.
Calcule la similitud con ai.similarity.
Resumir texto con ai.summarize.
Traducir texto con ai.translate.
Obtenga más información sobre el conjunto completo de funciones de inteligencia artificial.
Personalice la configuración de las funciones de IA.
¿Perdimos una característica que necesita? Sugerirlo en el foro de Ideas de Fabric.