Uso de ai.extract con PySpark

La ai.extract función usa ia generativa para examinar el texto de entrada y extraer tipos específicos de información designada por etiquetas que elija (por ejemplo, ubicaciones o nombres). Solo usa una sola línea de código.

Nota:

En este artículo se describe el uso de ai.extract con PySpark. Para usar ai.extract con pandas, consulte este artículo.
Consulte otras funciones de IA en este artículo de información general.
Aprenda a personalizar la configuración de las funciones de IA.

Información general

La ai.extract función está disponible para DataFrames de Spark. Debe especificar el nombre de una columna de entrada existente como parámetro, junto con una lista de tipos de entidad que se van a extraer de cada fila de texto.

La función devuelve un nuevo DataFrame, con una columna independiente para cada tipo de entidad especificado que contiene valores extraídos para cada fila de entrada.

Syntax

df.ai.extract(labels=["entity1", "entity2", "entity3"], input_col="input")

Parámetros

Nombre	Description
`labels` Obligatorio	Matriz de cadenas que representa el conjunto de tipos de entidad que se van a extraer de los valores de texto de la columna de entrada.
`input_col` Obligatorio	Cadena que contiene el nombre de una columna existente con valores de texto de entrada para buscar las entidades personalizadas.
`aifunc.ExtractLabel` Opcional	Una o más definiciones de etiqueta que describen los campos que se van a extraer. Para obtener más información, consulte la tabla ExtractLabel Parameters (Parámetros de ExtractLabel).
`error_col` Opcional	Cadena que contiene el nombre de una nueva columna para almacenar los errores de OpenAI que se producen al procesar cada fila de texto de entrada. Si no establece este parámetro, se genera un nombre predeterminado para la columna de error. Si una fila de entrada no tiene errores, el valor de esta columna es `null`.

Parámetros de ExtraerEtiqueta

Nombre	Description
`label` Obligatorio	Cadena que representa la entidad que se va a extraer de los valores de texto introducidos.
`description` Opcional	Un string que proporciona contexto adicional para el modelo de IA. Puede incluir requisitos, contexto o instrucciones para que la inteligencia artificial tenga en cuenta al realizar la extracción.
`max_items` Opcional	Un valor int que especifica el número máximo de elementos que se van a extraer para esta etiqueta.
`type` Opcional	Tipo de esquema JSON para el valor extraído. Los tipos admitidos para esta clase incluyen `string`, `number`, `integer`, `boolean`, `object`y `array`.
`properties` Opcional	Más propiedades de esquema JSON para el tipo como diccionario. Puede incluir propiedades admitidas como "items" para arrays, "propiedades" para objetos, "enum" para tipos enum, etc. Consulte el uso de ejemplo en este artículo.
`raw_col` Opcional	Cadena que establece el nombre de columna para la respuesta LLM sin procesar. La respuesta sin procesar proporciona una lista de pares de diccionario para cada etiqueta de entidad, incluidos "razón" y "texto_extraído".

Devoluciones

La función devuelve un DataFrame de Spark con una nueva columna para cada tipo de entidad especificado. La columna o columnas contienen las entidades extraídas para cada fila de texto de entrada. Si la función identifica más de una coincidencia para una entidad, devuelve solo una de esas coincidencias. Si no se encuentra ninguna coincidencia, el resultado es null.

El tipo de valor devuelto predeterminado es una lista de cadenas para cada etiqueta. Si los usuarios eligen especificar un tipo diferente en la aifunc.ExtractLabel configuración, como "type=integer", la salida será una lista de int de Python. Si los usuarios especifican "max_items=1" en la aifunc.ExtractLabel configuración, solo se devuelve un elemento del tipo para esa etiqueta.

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",),
        ("Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey.",)
    ], ["descriptions"])

df_entities = df.ai.extract(labels=["name", "profession", "city"], input_col="descriptions")
display(df_entities)

Esta celda de código de ejemplo proporciona la siguiente salida:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Alex Rivera, a 24-year-old midfielder from Barcelona, scored 12 goals last season, with an impressive 5 goals in one game.",),
        ("Jordan Smith, a 29-year-old striker from Manchester, scored exactly 1 goal in every game, for a total of 34 goals.",)
    ], ["bio"])

df = df.ai.extract(
        aifunc.ExtractLabel(
            label = "goals", 
            description = "total goals only", 
            max_items = 1, 
            type = "integer"
        ), 
        input_col="bio"
    )
display(df)

Esta celda de código de ejemplo proporciona la siguiente salida:

Utilice ai.extract con pandas.
Detectar opiniones con ai.analyze_sentiment.
Clasificar texto con ai.classify.
Genere incrustaciones de vectores con ai.embed.
Corrija la gramática con ai.fix_grammar.
Responda a las solicitudes de usuario personalizadas con ai.generate_response.
Calcule la similitud con ai.similarity.
Resumir texto con ai.summarize.
Traducir texto con ai.translate.
Obtenga más información sobre el conjunto completo de funciones de inteligencia artificial.
Personalice la configuración de las funciones de IA.
¿Perdimos una característica que necesita? Sugerirlo en el foro de Ideas de Fabric.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-11-21