Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
Funktionen ai.embed bruger generativ AI til at konvertere tekst til vektorindlejringer. Disse vektorer gør det muligt for AI at forstå forholdet mellem tekster, så du kan søge, gruppere og sammenligne indhold baseret på betydning frem for præcis formulering. Med en enkelt linje kode kan du generere vektorindlejringer fra en kolonne i en DataFrame.
Notat
- Denne artikel dækker brugen af ai.embed med PySpark. For at bruge ai.embed med pandaer, se denne artikel.
- Se andre AI-funktioner i denne oversigtsartikel.
- Få mere at vide om, hvordan du tilpasser konfigurationen af AI-funktioner.
Oversigt
Funktionen ai.embed er tilgængelig for Spark DataFrames. Du skal angive navnet på en eksisterende inputkolonne som en parameter.
Funktionen returnerer en ny DataFrame, der inkluderer indlejringer for hver række med inputtekst i en outputkolonne.
Syntaks
df.ai.embed(input_col="col1", output_col="embed")
Parametre
| Navn | Beskrivelse |
|---|---|
input_col Obligatorisk |
En streng , der indeholder navnet på en eksisterende kolonne med inputtekstværdier til brug til beregning af embeddings. |
output_col Valgfrit |
En streng , der indeholder navnet på en ny kolonne til at gemme beregnede embeddings for hver inputtekstrække. Hvis du ikke angiver denne parameter, genereres der et standardnavn for outputkolonnen. |
error_col Valgfrit |
En streng , der indeholder navnet på en ny kolonne, der gemmer eventuelle OpenAI-fejl, der skyldes behandling af hver inputtekstrække. Hvis du ikke angiver denne parameter, genereres der et standardnavn for fejlkolonnen. Hvis der ikke er nogen fejl i en inputrække, har denne kolonne en null værdi. |
Returnerer
Funktionen returnerer en Spark DataFrame , der inkluderer en ny kolonne, som indeholder genererede embeddings for hver inputtekstrække. Embeddings er af typen [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Antallet af elementer i DenseVector afhænger af embedding-modellens dimensioner, som kan konfigureres i AI-funktioner
Eksempel
# This code uses AI. Always review output for mistakes.
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.
df = spark.createDataFrame([
("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
], ["descriptions"])
embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)
Denne eksempelkodecelle indeholder følgende output:
Relateret indhold
Brug ai.embed med pandas.
Registrer synspunkter med ai.analyze_sentiment.
Kategoriser tekst med ai.classify.
Udtræk enheder med ai_extract.
Ret grammatik med ai.fix_grammar.
Besvar brugerdefinerede brugerprompter med ai.generate_response.
Beregn lighed med ai.similarity.
Opsummer tekst med ai.summarize.
Oversæt tekst med ai.translate.
Få mere at vide om det komplette sæt af AI-funktioner.
Tilpas konfigurationen af AI-funktioner.
Gik vi glip af en funktion, du har brug for? Foreslå det på Fabric Ideas forum.