Nota
Prístup na túto stránku vyžaduje autorizáciu. Môžete sa pokúsiť prihlásiť alebo zmeniť adresár.
Prístup na túto stránku vyžaduje autorizáciu. Môžete skúsiť zmeniť adresáre.
Funkcia ai.similarity používa generatívne AI na porovnanie dvoch reťazcových výrazov a následný výpočet skóre sémantickej podobnosti. Používa iba jeden riadok kódu. Textové hodnoty z jedného stĺpca údajového rámca môžete porovnať s jednou bežnou textnou hodnotou alebo s párovými textovými hodnotami v inom stĺpci.
Poznámka
- Tento článok sa zaoberá používaním ai.podobnosti s PySparkom. Ak chcete použiť ai.podobnosť s pandami, pozrite si tento článok.
- Ďalšie funkcie umelej inteligencie nájdete v tomto prehľadnom článku.
- Naučte sa, ako prispôsobiť konfiguráciu funkcií AI.
Overview
Táto ai.similarity funkcia je k dispozícii pre údajové rámce Spark. Názov existujúceho vstupného stĺpca musíte zadať ako parameter. Pre párové porovnania musíte tiež zadať jednu spoločnú textovú hodnotu pre porovnania alebo názov iného stĺpca.
Funkcia vráti nový údajový rámec, ktorý obsahuje skóre podobnosti pre každý riadok vstupného textu, ktorý sa nachádza vo výstupnom stĺpci.
Syntax
df.ai.similarity(input_col="col1", other="value", output_col="similarity")
Parametre
| Name | Popis |
|---|---|
input_col Povinné |
Reťazec, ktorý obsahuje názov existujúceho stĺpca so vstupnými textovými hodnotami, ktoré sa majú použiť na výpočet skóre podobnosti. |
other alebo other_col Povinné |
Vyžaduje sa len jeden z týchto parametrov. Parameter other je reťazec , ktorý obsahuje jednu spoločnú textovú hodnotu, ktorá sa používa na výpočet skóre podobnosti pre každý riadok vstupu. Parameter other_col je reťazec , ktorý označuje názov druhého existujúceho stĺpca s textovými hodnotami používanými na výpočet skóre párovej podobnosti. |
output_col Voliteľné |
Reťazec, ktorý obsahuje názov nového stĺpca na uloženie vypočítaných skóre podobnosti pre každý riadok vstupného textu. Ak tento parameter nenastavíte, pre výstupný stĺpec sa vygeneruje predvolený názov. |
error_col Voliteľné |
Reťazec, ktorý obsahuje názov nového stĺpca, ktorý ukladá všetky chyby OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nenastavíte, pre chybový stĺpec sa vygeneruje predvolený názov. Ak vstupný riadok neobsahuje žiadne chyby, tento stĺpec má null hodnotu. |
Vrátené hodnoty
Funkcia vráti údajový rámec Sparku , ktorý obsahuje nový stĺpec, ktorý obsahuje vygenerované skóre podobnosti pre každý riadok vstupného textu. Skóre podobnosti výstupu je relatívne a najlepšie sa používa na hodnotenie. Hodnoty skóre sa môžu pohybovať od -1* (protiklady) po 1 (identické). Skóre označuje 0 , že hodnoty významovo nesúvisia.
Príklad
# This code uses AI. Always review output for mistakes.
df = spark.createDataFrame([
("Bill Gates",),
("Sayta Nadella",),
("Joan of Arc",)
], ["names"])
similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)
Táto príkladová bunka kódu poskytuje nasledujúci výstup:
Súvisiaci obsah
Použite ai.podobnosť s pandami.
Zistite sentiment pomocou ai.analyze_sentiment.
Kategorizujte text pomocou ai.classify.
Generujte vektorové embeddingy pomocou ai.embed.
Extrahujte entity pomocou ai_extract.
Opravte gramatiku pomocou ai.fix_grammar.
Odpovedajte na vlastné používateľské výzvy pomocou ai.generate_response
Zhrňte text pomocou ai.summarize.
Preložte text pomocou ai.translate.
Prečítajte si viac o úplnej sade funkcií umelej inteligencie.
Prispôsobte konfiguráciu funkcií AI.
Chýbala vám funkcia, ktorú potrebujete? Navrhnite ho na fóre Fabric Ideas.