Noções básicas sobre inserções do Serviço OpenAI do Azure

Uma inserção é um formato especial de representação de dados que os algoritmos e modelos de machine learning podem usar facilmente. A inserção é uma representação densa de informações do significado semântico de um texto. Cada inserção é um vetor de números de ponto flutuante, de modo que a distância entre duas inserções no espaço do vetor esteja correlacionada com a similaridade semântica entre duas entradas no formato original. Por exemplo, se dois textos forem semelhantes, suas representações de vetor também deverão ser semelhantes. As inserções potencializam a pesquisa de similaridade de vetor em Bancos de Dados do Azure, como Azure Cosmos DB for MongoDB vCore, Banco de Dados SQL do Azure ou Banco de Dados do Azure para PostgreSQL – Servidor Flexível.

Inserir modelos

Modelos de inserção OpenAI do Azure diferentes são criados para serem bons em uma tarefa específica:

  • Inserções de similaridade são boas em capturar similaridade semântica entre duas ou mais partes de texto.
  • As Inserções de pesquisa de texto ajudam a medir se documentos longos são relevantes para uma consulta curta.
  • Inserções de pesquisa de código são úteis para inserir snippets de código e inserir consultas de pesquisa de linguagem natural.

As inserções facilitam o aprendizado de máquina em entradas grandes que representam palavras capturando as semelhanças semânticas em um espaço de vetor. Portanto, você pode usar inserções para determinar se duas partes de texto estão semanticamente relacionadas ou semelhantes e fornecer uma pontuação para avaliar a similaridade.

Similaridade de cosseno

As inserções OpenAI do Azure dependem da similaridade de cosseno para calcular a similaridade entre documentos e uma consulta.

Do ponto de vista matemático, a similaridade de cosseno mede o cosseno do ângulo entre dois vetores projetados em um espaço multidimensional. Essa medida é benéfica porque, se dois documentos estiverem distantes pela distância euclidiana devido ao tamanho, eles ainda poderão ter um ângulo menor entre eles e, portanto, maior similaridade de cosseno. Para obter mais informações sobre equações de similaridade de cosseno, confira Similaridade de cosseno.

Um método alternativo de identificação de documentos semelhantes é contar o número de palavras comuns entre documentos. Essa abordagem não é escalada, pois uma expansão no tamanho do documento provavelmente pode levar a um número maior de palavras comuns detectadas mesmo entre tópicos diferentes. Por esse motivo, a similaridade de cosseno pode oferecer uma alternativa mais eficaz.

Próximas etapas