Compartir a través de


Uso de ai.extract con pandas

La ai.extract función usa ia generativa para examinar el texto de entrada y extraer tipos específicos de información designada por etiquetas que elija (por ejemplo, ubicaciones o nombres). Solo usa una sola línea de código.

Nota:

Información general

La función ai.extract extiende la clase de la serie de pandas. Para extraer tipos de entidad personalizados de cada fila de entrada, llame a la función en una columna de texto dataFrame de Pandas .

A diferencia de otras funciones de IA, ai.extract devuelve un DataFrame de Pandas, en lugar de una serie, con una columna independiente para cada tipo de entidad especificado que contiene valores extraídos para cada fila de entrada.

Syntax

df_entities = df["text"].ai.extract("entity1", "entity2", "entity3")

Parámetros

Nombre Description
labels
Obligatorio
Una o varias cadenas que representan el conjunto de tipos de entidad que se van a extraer de los valores de texto de entrada.
aifunc.ExtractLabel
Opcional
Una o más definiciones de etiqueta que describen los campos que se van a extraer. Para obtener más información, consulte la tabla ExtractLabel Parameters (Parámetros de ExtractLabel).

Parámetros de ExtraerEtiqueta

Nombre Description
label
Obligatorio
Cadena que representa la entidad que se va a extraer de los valores de texto introducidos.
description
Opcional
Un string que proporciona contexto adicional para el modelo de IA. Puede incluir requisitos, contexto o instrucciones para que la inteligencia artificial tenga en cuenta al realizar la extracción.
max_items
Opcional
Un valor int que especifica el número máximo de elementos que se van a extraer para esta etiqueta.
type
Opcional
Tipo de esquema JSON para el valor extraído. Los tipos admitidos para esta clase incluyen string, number, integer, boolean, objecty array.
properties
Opcional
Más propiedades de esquema JSON para el tipo como diccionario. Puede incluir propiedades admitidas como "items" para arrays, "propiedades" para objetos, "enum" para tipos enum, etc. Consulte el uso de ejemplo en este artículo.
raw_col
Opcional
Cadena que establece el nombre de columna para la respuesta LLM sin procesar. La respuesta sin procesar proporciona una lista de pares de diccionario para cada etiqueta de entidad, incluidos "razón" y "texto_extraído".

Devoluciones

La función devuelve un DataFrame de pandas con una columna para cada tipo de entidad especificado. La columna o columnas contienen las entidades extraídas para cada fila de texto de entrada. Si la función identifica más de una coincidencia para una entidad, devuelve solo una de esas coincidencias. Si no se encuentra ninguna coincidencia, el resultado es null.

El tipo de valor devuelto predeterminado es una lista de cadenas para cada etiqueta. Si los usuarios eligen especificar un tipo diferente en la aifunc.ExtractLabel configuración, como "type=integer", la salida será una lista de int de Python. Si los usuarios especifican "max_items=1" en la aifunc.ExtractLabel configuración, solo se devuelve un elemento del tipo para esa etiqueta.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([
        "MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Esta celda de código de ejemplo proporciona la siguiente salida:

Captura de pantalla que muestra una nueva trama de datos con las columnas