Použite ai.embed s PySpark

Funkcia ai.embed využíva generatívnu AI na prevod textu na vektorové embeddingy. Tieto vektory umožňujú AI pochopiť vzťahy medzi textami, takže môžete vyhľadávať, zoskupovať a porovnávať obsah na základe významu, nie presného znenia. Jedným riadkom kódu môžete generovať vektorové embeddingy zo stĺpca v DataFrame.

Poznámka

Tento článok sa venuje používaniu ai.embed s PySparkom. Ak chcete použiť ai.embed s pandas, pozrite si tento článok.
Ďalšie funkcie umelej inteligencie nájdete v tomto prehľadnom článku.
Naučte sa, ako prispôsobiť konfiguráciu funkcií AI.

Prehľad

Táto ai.embed funkcia je k dispozícii pre údajové rámce Spark. Názov existujúceho vstupného stĺpca musíte zadať ako parameter.

Funkcia vráti nový DataFrame, ktorý obsahuje embeddingy pre každý riadok vstupného textu vo výstupnom stĺpci.

Syntax

df.ai.embed(input_col="col1", output_col="embed")

Parametre

Názov	Description
`input_col` Požaduje sa	Reťazec, ktorý obsahuje názov existujúceho stĺpca s hodnotami vstupného textu na výpočet embeddingov.
`output_col` Voliteľné	Reťazec, ktorý obsahuje názov nového stĺpca na uloženie vypočítaných vložení pre každý riadok vstupného textu. Ak tento parameter nenastavíte, pre výstupný stĺpec sa vygeneruje predvolený názov.
`error_col` Voliteľné	Reťazec, ktorý obsahuje názov nového stĺpca, ktorý ukladá všetky chyby OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nenastavíte, pre chybový stĺpec sa vygeneruje predvolený názov. Ak vstupný riadok neobsahuje žiadne chyby, tento stĺpec má `null` hodnotu.

Vrátené hodnoty

Funkcia vracia Spark DataFrame , ktorý obsahuje nový stĺpec obsahujúci generované embeddingy pre každý riadok vstupného textu. Embeddingy sú typu [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Počet prvkov v DenseVector závisí od rozmerov embedding modelu, ktoré sú konfigurovateľné v AI funkciách

Príklad

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Táto príkladová bunka kódu poskytuje nasledujúci výstup:

Použi ai.embed s pandami.
Zistite sentiment pomocou ai.analyze_sentiment.
Kategorizujte text pomocou ai.classify.
Extrahujte entity pomocou ai_extract.
Opravte gramatiku pomocou ai.fix_grammar.
Odpovedzte na vlastné výzvy používateľov pomocou ai.generate_response.
Vypočítajte podobnosť s ai.podobnosťou.
Zhrňte text pomocou ai.summarize.
Preložte text pomocou ai.translate.
Prečítajte si viac o úplnej sade funkcií umelej inteligencie.
Prispôsobte konfiguráciu funkcií AI.
Chýbala vám funkcia, ktorú potrebujete? Navrhnite ho na fóre Fabric Ideas.

Spätná väzba

Bola táto stránka užitočná?

Last updated on 2025-11-21