Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
Funktionen ai.similarity bruger generativ AI til at sammenligne to strengudtryk og derefter beregne en semantisk lighedsscore. Den bruger kun en enkelt kodelinje. Du kan sammenligne tekstværdier fra én kolonne i en DataFrame med en enkelt fælles tekstværdi eller med parvise tekstværdier i en anden kolonne.
Notat
- Denne artikel omhandler brug af ai.similarity med PySpark. For at bruge ai.similarity med pandaer, se denne artikel.
- Se andre AI-funktioner i denne oversigtsartikel.
- Få mere at vide om, hvordan du tilpasser konfigurationen af AI-funktioner.
Oversigt
Funktionen ai.similarity er tilgængelig for Spark DataFrames. Du skal angive navnet på en eksisterende inputkolonne som en parameter. Du skal også angive en enkelt fælles tekstværdi for sammenligninger eller navnet på en anden kolonne til parvise sammenligninger.
Funktionen returnerer en ny DataFrame, der indeholder lighedsscorer for hver række med inputtekst, der er i en outputkolonne.
Syntaks
df.ai.similarity(input_col="col1", other="value", output_col="similarity")
Parametre
| Navn | Beskrivelse |
|---|---|
input_col Påkrævet |
En streng , der indeholder navnet på en eksisterende kolonne med inputtekstværdier, der skal bruges til beregning af lighedsscorer. |
other eller other_col Påkrævet |
Der kræves kun én af disse parametre. Parameteren other er en streng , der indeholder en enkelt fælles tekstværdi, der bruges til at beregne lighedsscore for hver inputrække. Parameteren other_col er en streng , der angiver navnet på en anden eksisterende kolonne med tekstværdier, der bruges til at beregne parvise lighedsscorer. |
output_col Valgfrit |
En streng , der indeholder navnet på en ny kolonne til lagring af beregnede lighedsscorer for hver inputtekstrække. Hvis du ikke angiver denne parameter, genereres der et standardnavn for outputkolonnen. |
error_col Valgfrit |
En streng , der indeholder navnet på en ny kolonne, der gemmer eventuelle OpenAI-fejl, der skyldes behandling af hver inputtekstrække. Hvis du ikke angiver denne parameter, genereres der et standardnavn for fejlkolonnen. Hvis der ikke er nogen fejl i en inputrække, har denne kolonne en null værdi. |
Returnerer
Funktionen returnerer en Spark DataFrame , der indeholder en ny kolonne, der indeholder genererede lighedsscorer for hver inputtekstrække. Output-lighedsscores er relative, og de bruges bedst til rangering. Scoreværdier kan variere fra -1* (modsætninger) til 1 (identiske). En score på 0 angiver, at værdierne ikke er relateret i betydning.
Eksempel
# This code uses AI. Always review output for mistakes.
df = spark.createDataFrame([
("Bill Gates",),
("Sayta Nadella",),
("Joan of Arc",)
], ["names"])
similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)
Denne eksempelkodecelle indeholder følgende output:
Relateret indhold
Registrer synspunkter med ai.analyze_sentiment.
Kategoriser tekst med ai.classify.
Generer vektorindlejringer med ai.embed.
Udtræk enheder med ai_extract.
Ret grammatik med ai.fix_grammar.
Svar på brugerdefinerede brugerprompts med ai.generate_response
Opsummer tekst med ai.summarize.
Oversæt tekst med ai.translate.
Få mere at vide om det komplette sæt af AI-funktioner.
Tilpas konfigurationen af AI-funktioner.
Gik vi glip af en funktion, du har brug for? Foreslå det på Fabric Ideas forum.