Partage via


Présenter les incorporations dans Azure OpenAI Service

Une incorporation est un format spécial de représentation des données que les modèles et algorithmes Machine Learning peuvent facilement utiliser. L’incorporation est une représentation dense d’informations de la signification sémantique d’un morceau de texte. Chaque incorporation est un vecteur de nombres à virgule flottante, de sorte que la distance entre deux incorporations dans l’espace vectoriel est corrélée avec la similitude sémantique entre deux entrées au format d’origine. Par exemple, si deux textes sont similaires, leurs représentations vectorielles doivent également être similaires. Les incorporations alimentent la recherche de similarité vectorielle dans les systèmes de recherche tels que Recherche Azure AI (recommandé) et dans les bases de données Azure telles que Azure Cosmos DB for MongoDB vCore, Azure SQL Database, et Azure Database for PostgreSQL – Serveur flexible.

Incorporation de modèles

Les incorporations facilitent l’utilisation du Machine Learning sur des entrées volumineuses représentant des mots en capturant les similitudes sémantiques dans un espace vectoriel. Par conséquent, vous pouvez utiliser des incorporations pour déterminer si deux blocs de texte sont sémantiquement liés ou similaires, et fournir un score d'évaluation de la similarité.

Similarité cosinus

Les incorporations Azure OpenAI s’appuient souvent sur la similarité cosinus pour calculer la similarité entre des documents et une requête.

Du point de vue mathématique, la similarité cosinus mesure le cosinus de l'angle entre deux vecteurs projetés dans un espace multidimensionnel. Cette méthode de mesure présente des avantages, car si deux documents sont éloignés l'un de l'autre par la distance euclidienne en raison de leur taille, ils peuvent toujours avoir un angle plus petit entre eux, et donc une similarité cosinus plus élevée. Pour en savoir plus sur les équations de similitude en cosinus, reportez-vous à Similitude en cosinus.

Compter le nombre de mots communs entre des documents constitue une autre méthode d’identification de documents similaires. Cette approche n'évolue pas, car une augmentation de la taille du document est susceptible générer un plus grand nombre de mots communs, détectés même parmi des sujets disparates. C’est pourquoi la similarité cosinus peut offrir une alternative plus efficace.

Étapes suivantes