Použití ai.embed s PySpark

Funkce ai.embed používá generující AI k převodu textu na vektorové vkládání. Tyto vektory umožňují umělé inteligenci porozumět vztahům mezi texty, takže můžete vyhledávat, seskupovat a porovnávat obsah na základě významu, a ne přesného formulace. S jedním řádkem kódu můžete vygenerovat vektorové vkládání ze sloupce do datového rámce.

Poznámka:

Tento článek popisuje použití ai.embed s PySpark. Pokud chcete použít ai.embed s knihovnou pandas, přečtěte si tento článek.
Další funkce AI najdete v tomto článku s přehledem.
Zjistěte, jak přizpůsobit konfiguraci funkcí AI.

Přehled

Funkce ai.embed je k dispozici pro datové rámce Sparku. Jako parametr musíte zadat název existujícího vstupního sloupce.

Funkce vrátí nový datový rámec, který obsahuje vkládání pro každý řádek vstupního textu ve výstupním sloupci.

Syntaxe

df.ai.embed(input_col="col1", output_col="embed")

Parametry

Název	Description
`input_col` Povinné	Řetězec, který obsahuje název existujícího sloupce se vstupními textovými hodnotami, které se mají použít pro výpočet embeddingů.
`output_col` Volitelný	Řetězec, který obsahuje název nového sloupce pro ukládání vypočtených embeddingů pro každý vstupní textový řádek. Pokud tento parametr nenastavíte, vygeneruje se pro výstupní sloupec výchozí název.
`error_col` Volitelný	Řetězec , který obsahuje název nového sloupce, který ukládá všechny chyby OpenAI, které jsou výsledkem zpracování každého vstupního textového řádku. Pokud tento parametr nenastavíte, vygeneruje se pro sloupec s chybou výchozí název. Pokud vstupní řádek neobsahuje žádné chyby, má tento sloupec hodnotu `null`.

Návraty

Funkce vrátí datový rámec Sparku , který obsahuje nový sloupec, který obsahuje vygenerované vkládání pro každý vstupní textový řádek. Vkládání jsou typu [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Počet prvků v DenseVectoru závisí na rozměrech vloženého modelu, které lze konfigurovat ve funkcích AI.

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Tato ukázková buňka kódu poskytuje následující výstup:

Použijte ai.embed s pandas.
Zjištění mínění pomocí ai.analyze_sentiment
Kategorizace textu pomocí ai.classify
Extrahujte entity pomocí ai_extract.
Oprava gramatiky pomocí ai.fix_grammar
Odpovězte na vlastní výzvy uživatelů pomocí ai.generate_response.
Spočítejte podobnost pomocí ai.podobnosti.
Shrnout text pomocí ai.summarize
Přeloží text pomocí ai.translate.
Přečtěte si další informace o úplné sadě funkcí AI.
Přizpůsobte konfiguraci funkcí umělé inteligence.
Chybí nám funkce, kterou potřebujete? Navrhněte to na fóru Fabric Ideas.

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-11-21