Sdílet prostřednictvím


Použití ai.embed s PySpark

Funkce ai.embed používá generující AI k převodu textu na vektorové vkládání. Tyto vektory umožňují umělé inteligenci porozumět vztahům mezi texty, takže můžete vyhledávat, seskupovat a porovnávat obsah na základě významu, a ne přesného formulace. S jedním řádkem kódu můžete vygenerovat vektorové vkládání ze sloupce do datového rámce.

Poznámka:

Přehled

Funkce ai.embed je k dispozici pro datové rámce Sparku. Jako parametr musíte zadat název existujícího vstupního sloupce.

Funkce vrátí nový datový rámec, který obsahuje vkládání pro každý řádek vstupního textu ve výstupním sloupci.

Syntaxe

df.ai.embed(input_col="col1", output_col="embed")

Parametry

Název Description
input_col
Povinné
Řetězec, který obsahuje název existujícího sloupce se vstupními textovými hodnotami, které se mají použít pro výpočet embeddingů.
output_col
Volitelný
Řetězec, který obsahuje název nového sloupce pro ukládání vypočtených embeddingů pro každý vstupní textový řádek. Pokud tento parametr nenastavíte, vygeneruje se pro výstupní sloupec výchozí název.
error_col
Volitelný
Řetězec , který obsahuje název nového sloupce, který ukládá všechny chyby OpenAI, které jsou výsledkem zpracování každého vstupního textového řádku. Pokud tento parametr nenastavíte, vygeneruje se pro sloupec s chybou výchozí název. Pokud vstupní řádek neobsahuje žádné chyby, má tento sloupec hodnotu null.

Návraty

Funkce vrátí datový rámec Sparku , který obsahuje nový sloupec, který obsahuje vygenerované vkládání pro každý vstupní textový řádek. Vkládání jsou typu [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Počet prvků v DenseVectoru závisí na rozměrech vloženého modelu, které lze konfigurovat ve funkcích AI.

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Tato ukázková buňka kódu poskytuje následující výstup:

Snímek obrazovky datového rámce se sloupci 'popisy' a 'embed'. Sloupec 'embed' obsahuje embeddingy pro popisy.