Compreender as incorporações no Azure OpenAI nos modelos da Azure AI Foundry

2025-04-07

Uma incorporação é um formato especial de representação de dados que modelos e algoritmos de aprendizado de máquina podem usar facilmente. A incorporação é uma representação densa de informação do significado semântico de um pedaço de texto. Cada incorporação é um vetor de números de vírgula flutuante, de tal forma que a distância entre duas incorporações no espaço vetorial está correlacionada com a semelhança semântica entre duas entradas no formato original. Por exemplo, se dois textos são semelhantes, então suas representações vetoriais também devem ser semelhantes. Os embeddings alimentam a pesquisa de semelhança de vetores em sistemas de recuperação, como Azure AI Search (recomendado), e em bancos de dados do Azure, como Azure Cosmos DB para MongoDB vCore, Azure SQL Database, e Azure Database for PostgreSQL - Flexible Server.

Incorporação de modelos

As incorporações facilitam o aprendizado de máquina em grandes entradas que representam palavras, capturando as semelhanças semânticas em um espaço vetorial. Portanto, você pode usar incorporações para determinar se dois blocos de texto são semanticamente relacionados ou semelhantes e fornecer uma pontuação para avaliar a semelhança.

Semelhança de cosseno

As incorporações do Azure OpenAI geralmente dependem da semelhança de cosseno para calcular a semelhança entre documentos e uma consulta.

De uma perspetiva matemática, a semelhança cosseno mede o cosseno do ângulo entre dois vetores projetados num espaço multidimensional. Esta medida é benéfica, porque se dois documentos estão distantes pela distância euclidiana por causa do tamanho, eles ainda podem ter um ângulo menor entre eles e, portanto, maior semelhança de cosseno. Para obter mais informações sobre equações de semelhança do cosseno, consulte Semelhança cosseno.

Um método alternativo de identificação de documentos semelhantes é contar o número de palavras comuns entre documentos. Esta abordagem não é escalável, uma vez que uma expansão no tamanho do documento provavelmente levará a um maior número de palavras comuns detectadas, mesmo entre tópicos diferentes. Por esta razão, a semelhança do cosseno pode oferecer uma alternativa mais eficaz.

Próximos passos

Saiba mais sobre como usar o Azure OpenAI e incorporações para realizar a pesquisa de documentos com nosso tutorial de incorporações.
Armazene suas incorporações e execute a pesquisa vetorial (similaridade) usando o Azure Cosmos DB para MongoDB vCore, Azure Cosmos DB para NoSQL , Banco de Dados SQL do Azure ou Banco de Dados do Azure para PostgreSQL - Servidor Flexível.
Usar uma casa de eventos em inteligência em tempo real no Microsoft Fabric como um banco de dados vetorial
- Use a função series_cosine_similarity para pesquisa de similaridade.

Partilhar via

Compreender as incorporações no Azure OpenAI nos modelos da Azure AI Foundry

Incorporação de modelos

Semelhança de cosseno

Próximos passos

Comentários

Recursos adicionais