Zdieľať cez


Použite ai.embed s PySpark

Funkcia ai.embed využíva generatívnu AI na prevod textu na vektorové embeddingy. Tieto vektory umožňujú AI pochopiť vzťahy medzi textami, takže môžete vyhľadávať, zoskupovať a porovnávať obsah na základe významu, nie presného znenia. Jedným riadkom kódu môžete generovať vektorové embeddingy zo stĺpca v DataFrame.

Poznámka

Prehľad

Táto ai.embed funkcia je k dispozícii pre údajové rámce Spark. Názov existujúceho vstupného stĺpca musíte zadať ako parameter.

Funkcia vráti nový DataFrame, ktorý obsahuje embeddingy pre každý riadok vstupného textu vo výstupnom stĺpci.

Syntax

df.ai.embed(input_col="col1", output_col="embed")

Parametre

Názov Description
input_col
Požaduje sa
Reťazec, ktorý obsahuje názov existujúceho stĺpca s hodnotami vstupného textu na výpočet embeddingov.
output_col
Voliteľné
Reťazec, ktorý obsahuje názov nového stĺpca na uloženie vypočítaných vložení pre každý riadok vstupného textu. Ak tento parameter nenastavíte, pre výstupný stĺpec sa vygeneruje predvolený názov.
error_col
Voliteľné
Reťazec, ktorý obsahuje názov nového stĺpca, ktorý ukladá všetky chyby OpenAI, ktoré sú výsledkom spracovania každého riadka vstupného textu. Ak tento parameter nenastavíte, pre chybový stĺpec sa vygeneruje predvolený názov. Ak vstupný riadok neobsahuje žiadne chyby, tento stĺpec má null hodnotu.

Vrátené hodnoty

Funkcia vracia Spark DataFrame , ktorý obsahuje nový stĺpec obsahujúci generované embeddingy pre každý riadok vstupného textu. Embeddingy sú typu [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Počet prvkov v DenseVector závisí od rozmerov embedding modelu, ktoré sú konfigurovateľné v AI funkciách

Príklad

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Táto príkladová bunka kódu poskytuje nasledujúci výstup:

Snímka obrazovky dátového rámca so stĺpcami 'description' a 'embed'. Stĺpec 'embed' obsahuje embeddingy pre popisy.