Share via


Présenter les incorporations dans Azure OpenAI Service

Une incorporation est un format spécial de représentation des données que les modèles et algorithmes Machine Learning peuvent facilement utiliser. L’incorporation est une représentation dense d’informations de la signification sémantique d’un morceau de texte. Chaque incorporation est un vecteur de nombres à virgule flottante, de sorte que la distance entre deux incorporations dans l’espace vectoriel est corrélée avec la similitude sémantique entre deux entrées au format d’origine. Par exemple, si deux textes sont similaires, leurs représentations vectorielles doivent également être similaires. Les incorporations optimisent la recherche vectorielle par similarité dans les services Azure Database, par exemple Azure Cosmos DB for MongoDB vCore, Azure SQL Database ou Azure Database pour PostgreSQL - Serveur flexible.

Incorporation de modèles

Différents modèles d'incorporation Azure OpenAI sont créés pour être adaptés à une tâche particulière :

  • Les incorporations de similarité sont efficaces pour capturer la similarité sémantique entre deux éléments de texte ou plus.
  • Les incorporations de recherche de texte permettent de déterminer si les longs documents sont pertinents pour une requête courte.
  • Les incorporations de recherche de code sont utiles pour incorporer des extraits de code et incorporer des requêtes de recherche en langage naturel.

Les incorporations facilitent l’utilisation du Machine Learning sur des entrées volumineuses représentant des mots en capturant les similitudes sémantiques dans un espace vectoriel. Par conséquent, vous pouvez utiliser des incorporations pour déterminer si deux blocs de texte sont sémantiquement liés ou similaires, et fournir un score d'évaluation de la similarité.

Similarité cosinus

Les incorporations Azure OpenAI s’appuient sur la similarité cosinus pour calculer la similarité entre des documents et une requête.

Du point de vue mathématique, la similarité cosinus mesure le cosinus de l'angle entre deux vecteurs projetés dans un espace multidimensionnel. Cette méthode de mesure présente des avantages, car si deux documents sont éloignés l'un de l'autre par la distance euclidienne en raison de leur taille, ils peuvent toujours avoir un angle plus petit entre eux, et donc une similarité cosinus plus élevée. Pour en savoir plus sur les équations de similitude en cosinus, reportez-vous à Similitude en cosinus.

Compter le nombre de mots communs entre des documents constitue une autre méthode d’identification de documents similaires. Cette approche n'évolue pas, car une augmentation de la taille du document est susceptible générer un plus grand nombre de mots communs, détectés même parmi des sujets disparates. C’est pourquoi la similarité cosinus peut offrir une alternative plus efficace.

Étapes suivantes