Condividi tramite


Usare ai.similarity con pandas

La ai.similarity funzione usa l'intelligenza artificiale generativa per confrontare due espressioni stringa e quindi calcolare un punteggio di somiglianza semantica. Usa solo una singola riga di codice. È possibile confrontare i valori di testo di una colonna di un dataframe con un singolo valore di testo comune o con valori di testo abbinati in un'altra colonna.

Annotazioni

Informazioni generali

La ai.similarity funzione estende la classe Pandas Series .

Per calcolare la somiglianza semantica di ogni riga di input per un singolo valore di testo comune, chiamare la funzione in una colonna di testo Pandas DataFrame . La funzione può anche calcolare la somiglianza semantica di ogni riga per i valori pairwise corrispondenti in un'altra colonna con le stesse dimensioni della colonna di input.

La funzione restituisce una serie pandas che contiene punteggi di somiglianza, che possono essere archiviati in una nuova colonna DataFrame.

Sintassi

df["similarity"] = df["col1"].ai.similarity("value")

Parametri

Nome Description
other
Obbligatorio
Stringa che contiene uno dei due elementi seguenti:
- Singolo valore di testo comune, usato per calcolare i punteggi di somiglianza per ogni riga di input.
- Un'altra serie pandas con le stesse dimensioni dell'input. Contiene valori di testo da usare per calcolare i punteggi di somiglianza pairwise per ogni riga di input.

Restituzioni

La funzione restituisce una serie pandas che contiene punteggi di somiglianza per ogni riga di testo di input. I punteggi di somiglianza dell'output sono relativi e vengono usati meglio per la classificazione. I valori di punteggio possono variare da -1 (opposti) a 1* (identici). Un valore di punteggio di 0 indica che i valori non sono correlati nel significato.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

Questa cella di codice di esempio fornisce l'output seguente:

Screenshot di una tabella di dati con colonne 'nome' e 'somiglianza'. La colonna