Merk
Tilgang til denne siden krever autorisasjon. Du kan prøve å logge på eller endre kataloger.
Tilgang til denne siden krever autorisasjon. Du kan prøve å endre kataloger.
Funksjonen ai.embed bruker generativ AI for å konvertere tekst til vektorinnlegginger. Disse vektorene lar AI forstå sammenhenger mellom tekster, slik at du kan søke, gruppere og sammenligne innhold basert på mening i stedet for eksakt formulering. Med én enkelt kodelinje kan du generere vektorinnlegginger fra en kolonne i en DataFrame.
Note
- Denne artikkelen handler om bruk av ai.embed med PySpark. For å bruke ai.embed med pandaer, se denne artikkelen.
- Se andre AI-funksjoner i denne oversiktsartikkelen.
- Lær hvordan du tilpasser konfigurasjonen av AI-funksjoner.
Oversikt
Funksjonen ai.embed er tilgjengelig for Spark DataFrames. Du må angi navnet på en eksisterende inndatakolonne som parameter.
Funksjonen returnerer en ny DataFrame som inkluderer innbeddinger for hver rad med inndatatekst, i en utdatakolonne.
Syntaks
df.ai.embed(input_col="col1", output_col="embed")
Parametere
| Navn | Beskrivelse |
|---|---|
input_col Kreves |
En streng som inneholder navnet på en eksisterende kolonne med inndata-tekstverdier som brukes til beregning av embeddinger. |
output_col Valgfritt |
En streng som inneholder navnet på en ny kolonne for å lagre kalkulerte embeddinger for hver inndatatekstrad. Hvis du ikke angir denne parameteren, genereres et standardnavn for utdatakolonnen. |
error_col Valgfritt |
En streng som inneholder navnet på en ny kolonne som lagrer eventuelle OpenAI-feil som skyldes behandling av hver inndatatekstrad. Hvis du ikke angir denne parameteren, genereres et standardnavn for feilkolonnen. Hvis en inndatarad ikke har noen feil, har denne kolonnen en null verdi. |
Returnerer
Funksjonen returnerer en Spark DataFrame som inkluderer en ny kolonne som inneholder genererte embeddings for hver inndatatekstrad. Embeddinger er av typen [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Antallet elementer i DenseVector avhenger av innleiringsmodellens dimensjoner, som kan konfigureres i AI-funksjoner
Eksempel
# This code uses AI. Always review output for mistakes.
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.
df = spark.createDataFrame([
("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
], ["descriptions"])
embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)
Denne eksempelkodecellen gir følgende utdata:
Beslektet innhold
Bruk ai.embed med pandas.
Oppdag sentiment med ai.analyze_sentiment.
Kategoriser tekst med ai.classify.
Trekk ut enheter med ai_extract.
Fiks grammatikk med ai.fix_grammar.
Svar på egendefinerte brukermeldinger med ai.generate_response.
Beregn likhet med ai.likhet.
Oppsummer tekst med ai.summarize.
Oversett tekst med ai.translate.
Finn ut mer om hele settet med AI-funksjoner.
Tilpass konfigurasjonen av AI-funksjoner.
Gikk vi glipp av en funksjon du trenger? Foreslå det på Fabric Ideas-forumet.