Del via


Bruk ai.embed med PySpark

Funksjonen ai.embed bruker generativ AI for å konvertere tekst til vektorinnlegginger. Disse vektorene lar AI forstå sammenhenger mellom tekster, slik at du kan søke, gruppere og sammenligne innhold basert på mening i stedet for eksakt formulering. Med én enkelt kodelinje kan du generere vektorinnlegginger fra en kolonne i en DataFrame.

Note

Oversikt

Funksjonen ai.embed er tilgjengelig for Spark DataFrames. Du må angi navnet på en eksisterende inndatakolonne som parameter.

Funksjonen returnerer en ny DataFrame som inkluderer innbeddinger for hver rad med inndatatekst, i en utdatakolonne.

Syntaks

df.ai.embed(input_col="col1", output_col="embed")

Parametere

Navn Beskrivelse
input_col
Kreves
En streng som inneholder navnet på en eksisterende kolonne med inndata-tekstverdier som brukes til beregning av embeddinger.
output_col
Valgfritt
En streng som inneholder navnet på en ny kolonne for å lagre kalkulerte embeddinger for hver inndatatekstrad. Hvis du ikke angir denne parameteren, genereres et standardnavn for utdatakolonnen.
error_col
Valgfritt
En streng som inneholder navnet på en ny kolonne som lagrer eventuelle OpenAI-feil som skyldes behandling av hver inndatatekstrad. Hvis du ikke angir denne parameteren, genereres et standardnavn for feilkolonnen. Hvis en inndatarad ikke har noen feil, har denne kolonnen en null verdi.

Returnerer

Funksjonen returnerer en Spark DataFrame som inkluderer en ny kolonne som inneholder genererte embeddings for hver inndatatekstrad. Embeddinger er av typen [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Antallet elementer i DenseVector avhenger av innleiringsmodellens dimensjoner, som kan konfigureres i AI-funksjoner

Eksempel

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Denne eksempelkodecellen gir følgende utdata:

Skjermbilde av en dataramme med kolonnene 'beskrivelser' og 'embed'. Kolonnen 'embed' inneholder embeddings for beskrivelsene.