Partilhar via


Compreender as incorporações no Serviço OpenAI do Azure

Uma incorporação é um formato especial de representação de dados que modelos e algoritmos de aprendizado de máquina podem usar facilmente. A incorporação é uma representação densa de informação do significado semântico de um pedaço de texto. Cada incorporação é um vetor de números de vírgula flutuante, de tal forma que a distância entre duas incorporações no espaço vetorial está correlacionada com a semelhança semântica entre duas entradas no formato original. Por exemplo, se dois textos são semelhantes, então suas representações vetoriais também devem ser semelhantes. Incorpora pesquisa de semelhança de vetor de energia em Bancos de Dados do Azure, como Azure Cosmos DB para MongoDB vCore , Banco de Dados SQL do Azure ou Banco de Dados do Azure para PostgreSQL - Servidor Flexível.

Incorporação de modelos

Diferentes modelos de incorporação do Azure OpenAI são criados para serem bons em uma tarefa específica:

  • As incorporações de semelhança são boas em capturar semelhança semântica entre duas ou mais partes de texto.
  • As incorporações de pesquisa de texto ajudam a medir se documentos longos são relevantes para uma consulta curta.
  • As incorporações de pesquisa de código são úteis para incorporar trechos de código e incorporar consultas de pesquisa em linguagem natural.

As incorporações facilitam o aprendizado de máquina em grandes entradas que representam palavras, capturando as semelhanças semânticas em um espaço vetorial. Portanto, você pode usar incorporações para determinar se dois blocos de texto são semanticamente relacionados ou semelhantes e fornecer uma pontuação para avaliar a semelhança.

Semelhança de cosseno

As incorporações do Azure OpenAI dependem da semelhança cosseno para calcular a semelhança entre documentos e uma consulta.

De uma perspetiva matemática, a semelhança cosseno mede o cosseno do ângulo entre dois vetores projetados em um espaço multidimensional. Esta medida é benéfica, porque se dois documentos estão distantes pela distância euclidiana por causa do tamanho, eles ainda podem ter um ângulo menor entre eles e, portanto, maior semelhança de cosseno. Para obter mais informações sobre equações de semelhança cosseno, consulte Semelhança cosseno.

Um método alternativo de identificação de documentos semelhantes é contar o número de palavras comuns entre documentos. Essa abordagem não é dimensionada, uma vez que uma expansão no tamanho do documento provavelmente levará a um maior número de palavras comuns detetadas, mesmo entre tópicos diferentes. Por esta razão, a semelhança do cosseno pode oferecer uma alternativa mais eficaz.

Próximos passos