Nota
Prístup na túto stránku vyžaduje autorizáciu. Môžete sa pokúsiť prihlásiť alebo zmeniť adresár.
Prístup na túto stránku vyžaduje autorizáciu. Môžete skúsiť zmeniť adresáre.
Funkcia ai.embed využíva generatívnu AI na prevod textu na vektorové embeddingy. Tieto vektory umožňujú AI pochopiť vzťahy medzi textami, takže môžete vyhľadávať, zoskupovať a porovnávať obsah na základe významu, nie presného znenia. Jedným riadkom kódu môžete generovať vektorové embeddingy zo stĺpca v DataFrame.
Poznámka
- Tento článok sa venuje používaniu ai.embed s PySparkom. Ak chcete použiť ai.embed s pandas, pozrite si tento článok.
- Ďalšie funkcie umelej inteligencie nájdete v tomto prehľadnom článku.
- Naučte sa, ako prispôsobiť konfiguráciu funkcií AI.
Prehľad
Táto ai.embed funkcia je k dispozícii pre údajové rámce Spark. Názov existujúceho vstupného stĺpca musíte zadať ako parameter.
Funkcia vráti nový DataFrame, ktorý obsahuje embeddingy pre každý riadok vstupného textu vo výstupnom stĺpci.
Syntax
df.ai.embed(input_col="col1", output_col="embed")
Parametre
| Názov | Description |
|---|---|
input_col Požaduje sa |
Reťazec, ktorý obsahuje názov existujúceho stĺpca s hodnotami vstupného textu na výpočet embeddingov. |
output_col Voliteľné |
Reťazec, ktorý obsahuje názov nového stĺpca na uloženie vypočítaných vložení pre každý riadok vstupného textu. Ak tento parameter nenastavíte, pre výstupný stĺpec sa vygeneruje predvolený názov. |
error_col Voliteľné |
Reťazec, ktorý obsahuje názov nového stĺpca, ktorý ukladá všetky chyby OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nenastavíte, pre chybový stĺpec sa vygeneruje predvolený názov. Ak vstupný riadok neobsahuje žiadne chyby, tento stĺpec má null hodnotu. |
Vrátené hodnoty
Funkcia vracia Spark DataFrame , ktorý obsahuje nový stĺpec obsahujúci generované embeddingy pre každý riadok vstupného textu. Embeddingy sú typu [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Počet prvkov v DenseVector závisí od rozmerov embedding modelu, ktoré sú konfigurovateľné v AI funkciách
Príklad
# This code uses AI. Always review output for mistakes.
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.
df = spark.createDataFrame([
("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
], ["descriptions"])
embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)
Táto príkladová bunka kódu poskytuje nasledujúci výstup:
Súvisiaci obsah
Použi ai.embed s pandami.
Zistite sentiment pomocou ai.analyze_sentiment.
Kategorizujte text pomocou ai.classify.
Extrahujte entity pomocou ai_extract.
Opravte gramatiku pomocou ai.fix_grammar.
Odpovedzte na vlastné výzvy používateľov pomocou ai.generate_response.
Vypočítajte podobnosť s ai.podobnosťou.
Zhrňte text pomocou ai.summarize.
Preložte text pomocou ai.translate.
Prečítajte si viac o úplnej sade funkcií umelej inteligencie.
Prispôsobte konfiguráciu funkcií AI.
Chýbala vám funkcia, ktorú potrebujete? Navrhnite ho na fóre Fabric Ideas.