Zdieľať cez


Použite ai.similarity s pandami

Funkcia ai.similarity používa generatívne AI na porovnanie dvoch reťazcových výrazov a následný výpočet skóre sémantickej podobnosti. Používa iba jeden riadok kódu. Textové hodnoty z jedného stĺpca údajového rámca môžete porovnať s jednou bežnou textnou hodnotou alebo s párovými textovými hodnotami v inom stĺpci.

Poznámka

Overview

Táto ai.similarity funkcia rozširuje triedu série pandas .

Ak chcete vypočítať sémantickú podobnosť každého vstupného riadka pre jednu bežnú textovú hodnotu, zavolajte funkciu v textovom stĺpci údajového rámca pandas . Funkcia môže tiež vypočítať sémantickú podobnosť každého riadka pre zodpovedajúce párové hodnoty v inom stĺpci, ktorý má rovnaké rozmery ako vstupný stĺpec.

Funkcia vráti rad pandas, ktorý obsahuje skóre podobnosti, ktoré je možné uložiť do nového stĺpca údajového rámca.

Syntax

df["similarity"] = df["col1"].ai.similarity("value")

Parametre

Name Popis
other
Povinné
Reťazec, ktorý obsahuje:
- Jedna spoločná textová hodnota, ktorá sa používa na výpočet skóre podobnosti pre každý vstupný riadok.
- Ďalšia séria pand s rovnakými rozmermi ako vstup. Obsahuje textové hodnoty, ktoré sa používajú na výpočet skóre párovej podobnosti pre každý vstupný riadok.

Vrátené hodnoty

Funkcia vráti rad pandas , ktorý obsahuje skóre podobnosti pre každý riadok vstupného textu. Skóre podobnosti výstupu je relatívne a najlepšie sa používa na hodnotenie. Hodnoty skóre sa môžu pohybovať od -1 (protiklady) po 1* (identické). Hodnota skóre 0 označuje, že hodnoty významovo nesúvisia.

Príklad

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

Táto príkladová bunka kódu poskytuje nasledujúci výstup:

Snímka obrazovky údajového rámca so stĺpcami