Bruk ai.similarity med PySpark

Funksjonen ai.similarity bruker generativ AI til å sammenligne to strenguttrykk og deretter beregne en semantisk likhetspoengsum. Den bruker bare en enkelt kodelinje. Du kan sammenligne tekstverdier fra én kolonne i en DataFrame med én felles tekstverdi eller med tekstverdier i en annen kolonne.

Note

Denne artikkelen dekker bruk av ai.similarity med PySpark. For å bruke ai.similarity med pandaer, se denne artikkelen.
Se andre AI-funksjoner i denne oversiktsartikkelen.
Lær hvordan du tilpasser konfigurasjonen av AI-funksjoner.

Oversikt

Funksjonen ai.similarity er tilgjengelig for Spark DataFrames. Du må angi navnet på en eksisterende inndatakolonne som parameter. Du må også angi én vanlig tekstverdi for sammenligninger, eller navnet på en annen kolonne for sammenligninger på parvise måter.

Funksjonen returnerer en ny DataFrame som inneholder likhetspoeng for hver rad med inndatatekst som er i en utdatakolonne.

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

df.ai.similarity(input_col="col1", other_col="col2", output_col="similarity")

Parametere

Name	Beskrivelse
`input_col` Obligatorisk	En streng som inneholder navnet på en eksisterende kolonne med inndatatekstverdier som skal brukes til å beregne likhetspoeng.
`other` eller `other_col` Obligatorisk	Bare én av disse parameterne kreves. Parameteren `other` er en streng som inneholder en enkelt felles tekstverdi som brukes til å beregne likhetspoeng for hver rad med inndata. Parameteren `other_col` er en streng som angir navnet på en andre eksisterende kolonne, med tekstverdier som brukes til å beregne parvise likhetspoengsummer.
`output_col` Valgfritt	En streng som inneholder navnet på en ny kolonne for å lagre beregnede likhetsresultater for hver inndatatekstrad. Hvis du ikke angir denne parameteren, genereres et standardnavn for utdatakolonnen.
`error_col` Valgfritt	En streng som inneholder navnet på en ny kolonne som lagrer eventuelle OpenAI-feil som skyldes behandling av hver inndatatekstrad. Hvis du ikke angir denne parameteren, genereres et standardnavn for feilkolonnen. Hvis en inndatarad ikke har noen feil, har denne kolonnen en `null` verdi.

Returnerer

Funksjonen returnerer en Spark DataFrame som inneholder en ny kolonne som inneholder genererte likhetspoengsummer for hver inndatatekstrad. Resultatene for utdatasamsentitet er relative, og de brukes best til rangering. Poengverdier kan variere fra -1* (motsetninger) til 1 (identiske). En poengsum på 0 indikerer at verdiene ikke er relatert i betydning.

Eksempel

Sammenlign med én enkelt verdi
Sammenlign med parvise verdier

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

Denne eksempelkodecellen gir følgende utdata:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture")
    ], ["names", "industries"])

similarity = df.ai.similarity(input_col="names", other_col="industries", output_col="similarity")
display(similarity)

Denne eksempelkodecellen gir følgende utdata:

Bruk ai.similarity med pandaer.
Oppdag sentiment med ai.analyze_sentiment.
Kategoriser tekst med ai.classify.
Generer vektorinnlegginger med ai.embed.
Trekk ut enheter med ai_extract.
Fiks grammatikk med ai.fix_grammar.
Svar på tilpassede brukerprompts med ai.generate_response
Oppsummer tekst med ai.summarize.
Oversett tekst med ai.translate.
Finn ut mer om hele settet med AI-funksjoner.
Tilpass konfigurasjonen av AI-funksjoner.
Gikk vi glipp av en funksjon du trenger? Foreslå det på Fabric Ideas-forumet.

Tilbakemeldinger

Var denne siden nyttig?

Last updated on 2025-11-21