Compartir a través de


Uso de ai.similarity con pandas

La ai.similarity función usa ia generativa para comparar dos expresiones de cadena y, a continuación, calcular una puntuación de similitud semántica. Solo usa una sola línea de código. Puede comparar valores de texto de una columna de un dataframe con un único valor de texto común o con valores de texto en pares en otra columna.

Nota:

Información general

La función ai.similarity extiende la clase de la serie de pandas.

Para calcular la similitud semántica de cada fila de entrada para un único valor de texto común, llame a la función en una columna de texto dataFrame de Pandas . La función también puede calcular la similitud semántica de cada fila para los valores emparejados correspondientes en otra columna que tiene las mismas dimensiones que la columna de entrada.

La función devuelve una serie pandas que contiene puntuaciones de similitud, que se pueden almacenar en una nueva columna DataFrame.

Syntax

df["similarity"] = df["col1"].ai.similarity("value")

Parámetros

Nombre Description
other
Obligatorio
Cadena que contiene:
: un único valor de texto común, que se usa para calcular puntuaciones de similitud para cada fila de entrada.
- Otra serie pandas con las mismas dimensiones que la entrada. Contiene valores de texto que se usarán para calcular puntuaciones de similitud en pares para cada fila de entrada.

Devoluciones

La función devuelve una serie pandas que contiene puntuaciones de similitud para cada fila de texto de entrada. Las puntuaciones de similitud de salida son relativas y son más efectivas para la ordenación. Los valores de puntuación pueden oscilar entre -1 (opuestos) y 1* (idénticos). Un valor de puntuación de 0 indica que los valores no están relacionados en el significado.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

Esta celda de código de ejemplo proporciona la siguiente salida:

Captura de pantalla de una trama de datos con columnas