Del via


Bruk ai.similarity med pandaer

Funksjonen ai.similarity bruker generativ AI til å sammenligne to strenguttrykk og deretter beregne en semantisk likhetspoengsum. Den bruker bare en enkelt kodelinje. Du kan sammenligne tekstverdier fra én kolonne i en DataFrame med én felles tekstverdi eller med tekstverdier i en annen kolonne.

Note

Oversikt

Funksjonen ai.similarityutvider pandas Series-klassen .

Hvis du vil beregne den semantiske likheten til hver inndatarad for én enkelt felles tekstverdi, kaller du funksjonen på en pandas DataFrame-tekstkolonne . Funksjonen kan også beregne den semantiske likheten til hver rad for tilsvarende parvise verdier i en annen kolonne som har samme dimensjoner som inndatakolonnen.

Funksjonen returnerer en pandaserie som inneholder likhetspoengsum, som kan lagres i en ny DataFrame-kolonne.

Syntaks

df["similarity"] = df["col1"].ai.similarity("value")

Parametere

Name Beskrivelse
other
Obligatorisk
En streng som inneholder enten:
- En enkelt felles tekstverdi, som brukes til å beregne likhetspoeng for hver inndatarad.
- En annen pandaserie med samme dimensjoner som inngangen. Den inneholder tekstverdier som skal brukes til å beregne parvise likhetspoeng for hver inndatarad.

Returnerer

Funksjonen returnerer en pandaserie som inneholder likhetspoeng for hver inndatatekstrad. Resultatene for utdatasamsentitet er relative, og de brukes best til rangering. Poengverdier kan variere fra -1 (motsetninger) til 1* (identiske). En poengsumverdi på 0 indikerer at verdiene ikke er relatert i betydning.

Eksempel

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

Denne eksempelkodecellen gir følgende utdata:

Skjermbilde av en dataramme med kolonnene «navn» og «likhet». Likhetskolonnen inneholder likhetspoeng for navnene og inndataordet.