Zdieľať cez


Použite ai.similarity s PySpark

Funkcia ai.similarity používa generatívne AI na porovnanie dvoch reťazcových výrazov a následný výpočet skóre sémantickej podobnosti. Používa iba jeden riadok kódu. Textové hodnoty z jedného stĺpca údajového rámca môžete porovnať s jednou bežnou textnou hodnotou alebo s párovými textovými hodnotami v inom stĺpci.

Poznámka

Overview

Táto ai.similarity funkcia je k dispozícii pre údajové rámce Spark. Názov existujúceho vstupného stĺpca musíte zadať ako parameter. Pre párové porovnania musíte tiež zadať jednu spoločnú textovú hodnotu pre porovnania alebo názov iného stĺpca.

Funkcia vráti nový údajový rámec, ktorý obsahuje skóre podobnosti pre každý riadok vstupného textu, ktorý sa nachádza vo výstupnom stĺpci.

Syntax

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

Parametre

Name Popis
input_col
Povinné
Reťazec, ktorý obsahuje názov existujúceho stĺpca so vstupnými textovými hodnotami, ktoré sa majú použiť na výpočet skóre podobnosti.
other alebo other_col
Povinné
Vyžaduje sa len jeden z týchto parametrov. Parameter other je reťazec , ktorý obsahuje jednu spoločnú textovú hodnotu, ktorá sa používa na výpočet skóre podobnosti pre každý riadok vstupu. Parameter other_col je reťazec , ktorý označuje názov druhého existujúceho stĺpca s textovými hodnotami používanými na výpočet skóre párovej podobnosti.
output_col
Voliteľné
Reťazec, ktorý obsahuje názov nového stĺpca na uloženie vypočítaných skóre podobnosti pre každý riadok vstupného textu. Ak tento parameter nenastavíte, pre výstupný stĺpec sa vygeneruje predvolený názov.
error_col
Voliteľné
Reťazec, ktorý obsahuje názov nového stĺpca, ktorý ukladá všetky chyby OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nenastavíte, pre chybový stĺpec sa vygeneruje predvolený názov. Ak vstupný riadok neobsahuje žiadne chyby, tento stĺpec má null hodnotu.

Vrátené hodnoty

Funkcia vráti údajový rámec Sparku , ktorý obsahuje nový stĺpec, ktorý obsahuje vygenerované skóre podobnosti pre každý riadok vstupného textu. Skóre podobnosti výstupu je relatívne a najlepšie sa používa na hodnotenie. Hodnoty skóre sa môžu pohybovať od -1* (protiklady) po 1 (identické). Skóre označuje 0 , že hodnoty významovo nesúvisia.

Príklad

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

Táto príkladová bunka kódu poskytuje nasledujúci výstup:

Snímka obrazovky údajového rámca so stĺpcami