Brug ai.similarity med PySpark

Funktionen ai.similarity bruger generativ AI til at sammenligne to strengudtryk og derefter beregne en semantisk lighedsscore. Den bruger kun en enkelt kodelinje. Du kan sammenligne tekstværdier fra én kolonne i en DataFrame med en enkelt fælles tekstværdi eller med parvise tekstværdier i en anden kolonne.

Notat

Denne artikel omhandler brug af ai.similarity med PySpark. For at bruge ai.similarity med pandaer, se denne artikel.
Se andre AI-funktioner i denne oversigtsartikel.
Få mere at vide om, hvordan du tilpasser konfigurationen af AI-funktioner.

Oversigt

Funktionen ai.similarity er tilgængelig for Spark DataFrames. Du skal angive navnet på en eksisterende inputkolonne som en parameter. Du skal også angive en enkelt fælles tekstværdi for sammenligninger eller navnet på en anden kolonne til parvise sammenligninger.

Funktionen returnerer en ny DataFrame, der indeholder lighedsscorer for hver række med inputtekst, der er i en outputkolonne.

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

df.ai.similarity(input_col="col1", other_col="col2", output_col="similarity")

Parametre

Navn	Beskrivelse
`input_col` Påkrævet	En streng , der indeholder navnet på en eksisterende kolonne med inputtekstværdier, der skal bruges til beregning af lighedsscorer.
`other` eller `other_col` Påkrævet	Der kræves kun én af disse parametre. Parameteren `other` er en streng , der indeholder en enkelt fælles tekstværdi, der bruges til at beregne lighedsscore for hver inputrække. Parameteren `other_col` er en streng , der angiver navnet på en anden eksisterende kolonne med tekstværdier, der bruges til at beregne parvise lighedsscorer.
`output_col` Valgfrit	En streng , der indeholder navnet på en ny kolonne til lagring af beregnede lighedsscorer for hver inputtekstrække. Hvis du ikke angiver denne parameter, genereres der et standardnavn for outputkolonnen.
`error_col` Valgfrit	En streng , der indeholder navnet på en ny kolonne, der gemmer eventuelle OpenAI-fejl, der skyldes behandling af hver inputtekstrække. Hvis du ikke angiver denne parameter, genereres der et standardnavn for fejlkolonnen. Hvis der ikke er nogen fejl i en inputrække, har denne kolonne en `null` værdi.

Returnerer

Funktionen returnerer en Spark DataFrame , der indeholder en ny kolonne, der indeholder genererede lighedsscorer for hver inputtekstrække. Output-lighedsscores er relative, og de bruges bedst til rangering. Scoreværdier kan variere fra -1* (modsætninger) til 1 (identiske). En score på 0 angiver, at værdierne ikke er relateret i betydning.

Eksempel

Sammenlign med en enkelt værdi
Sammenlign med parvise værdier

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

Denne eksempelkodecelle indeholder følgende output:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture")
    ], ["names", "industries"])

similarity = df.ai.similarity(input_col="names", other_col="industries", output_col="similarity")
display(similarity)

Denne eksempelkodecelle indeholder følgende output:

Brug ai.similarity med pandaer.
Registrer synspunkter med ai.analyze_sentiment.
Kategoriser tekst med ai.classify.
Generer vektorindlejringer med ai.embed.
Udtræk enheder med ai_extract.
Ret grammatik med ai.fix_grammar.
Svar på brugerdefinerede brugerprompts med ai.generate_response
Opsummer tekst med ai.summarize.
Oversæt tekst med ai.translate.
Få mere at vide om det komplette sæt af AI-funktioner.
Tilpas konfigurationen af AI-funktioner.
Gik vi glip af en funktion, du har brug for? Foreslå det på Fabric Ideas forum.

Feedback

Var denne side nyttig?

Last updated on 2025-11-21