Note
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier les répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de changer de répertoire.
La fonction utilise l’IA ai.embed générative pour convertir du texte en incorporations vectorielles. Ces vecteurs permettent à l’IA de comprendre les relations entre les textes. Vous pouvez donc rechercher, regrouper et comparer du contenu en fonction de la signification plutôt que du libellé exact. Avec une seule ligne de code, vous pouvez générer des incorporations vectorielles à partir d’une colonne dans un DataFrame.
Note
- Cet article traite de l’utilisation d’ai.embed avec PySpark. Pour utiliser ai.embed avec pandas, consultez cet article.
- Consultez d’autres fonctions IA dans cet article de vue d’ensemble.
- Découvrez comment personnaliser la configuration des fonctions IA.
Aperçu
La ai.embed fonction est disponible pour les DataFrames Spark. Vous devez spécifier le nom d’une colonne d’entrée existante en tant que paramètre.
La fonction retourne un nouveau DataFrame qui inclut des incorporations pour chaque ligne de texte d’entrée, dans une colonne de sortie.
Syntaxe
df.ai.embed(input_col="col1", output_col="embed")
Paramètres
| Nom | Descriptif |
|---|---|
input_col Obligatoire |
Chaîne qui contient le nom d’une colonne existante avec des valeurs de texte d’entrée à utiliser pour les incorporations informatiques. |
output_col Optional |
Chaîne qui contient le nom d’une nouvelle colonne à stocker des incorporations calculées pour chaque ligne de texte d’entrée. Si vous ne définissez pas ce paramètre, un nom par défaut est généré pour la colonne de sortie. |
error_col Optional |
Chaîne qui contient le nom d’une nouvelle colonne qui stocke les erreurs OpenAI résultant du traitement de chaque ligne de texte d’entrée. Si vous ne définissez pas ce paramètre, un nom par défaut est généré pour la colonne d’erreur. Si une ligne d’entrée n’a aucune erreur, cette colonne a une null valeur. |
Retours
La fonction retourne un DataFrame Spark qui inclut une nouvelle colonne qui contient des incorporations générées pour chaque ligne de texte d’entrée. Les incorporations sont de type [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Le nombre d’éléments dans DenseVector dépend des dimensions du modèle d’incorporation, qui sont configurables dans les fonctions IA
Example
# This code uses AI. Always review output for mistakes.
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.
df = spark.createDataFrame([
("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
], ["descriptions"])
embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)
Cet exemple de cellule de code fournit la sortie suivante :
Contenu connexe
Utilisez ai.embed avec pandas.
Détecter les sentiments avec ai.analyze_sentiment.
Catégoriser du texte avec ai.class.
Extrayez des entités avec ai_extract.
Corrigez la grammaire avec ai.fix_grammar.
Répondez aux invites d’utilisateur personnalisées avec ai.generate_response.
Calculez la similarité avec ai.similarité.
Résumez le texte avec ai.summarize.
Traduire du texte avec ai.translate.
En savoir plus sur l’ensemble complet de fonctions IA.
Personnalisez la configuration des fonctions IA.
Avons-nous manqué une fonctionnalité dont vous avez besoin ? Suggèrez-le sur le forum Idées de structure.