Partilhar via


O que é Edge Retrieval Augmented Generation (RAG)?

O Edge RAG Preview é uma extensão do Kubernetes habilitada para Azure Arc que permite pesquisar dados locais com IA generativa, usando a Geração Aumentada de Recuperação (RAG). O RAG é uma arquitetura padrão do setor que aumenta os recursos de um modelo de linguagem com dados privados.

O Edge RAG Preview, habilitado pelo Azure Arc, é uma solução pronta para uso que empacota tudo o que é necessário para permitir que os clientes criem assistentes de chat personalizados e obtenham insights de seus dados privados, incluindo:

  • Uma escolha de modelos de linguagem Generative AI (GenAI) executados localmente com suporte para hardware de CPU e GPU.
  • Uma solução pronta a usar para ingestão de dados e pipeline RAG que mantém todos os dados locais, com controlos de acesso baseados em função (RBAC) do Azure para impedir o acesso não autorizado.
  • Uma ferramenta de engenharia e avaliação pronta para uso para encontrar, criar, avaliar e implantar soluções de bate-papo personalizadas.
  • APIs equivalentes ao Azure para integrar em aplicativos de negócios e uma interface do usuário pré-empacotada para começar rapidamente.

Embora o Edge RAG seja capaz de ingerir e recuperar imagens relevantes para serem usadas como referências contextuais ao lado do texto, é importante notar que não é um modelo de linguagem visual (VLM).

O Edge RAG tem suporte no Kubernetes habilitado para Azure Arc na infraestrutura do Azure Local (anteriormente Azure Stack HCI).

Para obter mais informações, consulte Azure Arc, Azure Arc-enabled Kubernetes e Azure Arc extensions.

Importante

A Pré-visualização do Edge RAG, ativada pelo Azure Arc, está atualmente em Pré-visualização. Consulte os Termos de Utilização Complementares das Visualizações Prévias do Microsoft Azure para obter os termos legais que se aplicam às funcionalidades do Azure que estão em beta, em pré-visualização ou que ainda não foram lançadas para disponibilidade geral.

Cenários de clientes e casos de uso

Para clientes em verticais como manufatura, serviços financeiros, saúde, governo e defesa, dados valiosos são gerados e armazenados localmente. Isso acontece fora da nuvem de hiperescala devido à regulamentação, latência, continuidade de negócios ou grande volume de dados gerados em tempo real. Os clientes querem usar aplicativos de IA generativa para obter insights desses dados locais.

O Edge RAG suporta recursos de P&R que permitem que os clientes consultem dados locais por meio de um bot de chat personalizado para cenários como:

  • Um cliente do governo deseja obter insights de dados locais confidenciais para permitir uma tomada de decisão mais rápida, resumir grandes conjuntos de dados, criar materiais de treinamento e muito mais.

  • Um banco regional quer usar dados que devem permanecer no local devido a restrições regulatórias para casos de uso, como verificações de conformidade, assistência ao cliente e geração de argumentos de vendas personalizados.

  • Um fabricante global quer criar assistentes de chão de fábrica para reduzir o tempo de resolução de problemas e ajudar na solução de problemas, usando dados que precisam permanecer locais para cumprir as políticas da organização.

Porquê Edge RAG?

Utilize o Edge RAG para:

  • Reduza o tempo de entrada no mercado com uma experiência chave na mão que acelera o desenvolvimento e a implantação de aplicativos de IA em dados locais.
  • Simplifique as operações e o gerenciamento de ponta a ponta com uma solução de qualidade empresarial que oferece o mesmo padrão de segurança, conformidade e capacidade de gerenciamento que você espera da Microsoft, incluindo o gerenciamento do ciclo de vida e da versão de todos os componentes e a integração do Microsoft Entra para o Azure RBAC.
  • Remova a necessidade de conjuntos de habilidades de desenvolvedor separados com experiências de desenvolvedor consistentes com a nuvem
  • Mantenha-se a par deste espaço em rápida evolução com a inovação contínua da Microsoft, líder em tecnologias de IA, e continue a concentrar-se na entrega de valor comercial.

Conceitos-chave

Analise os seguintes conceitos-chave para Edge RAG:

  • A fragmentação divide documentos grandes em blocos de texto menores e gerenciáveis (blocos).

    • Tamanho do bloco: A divisão em blocos divide documentos grandes em unidades menores, com configurações como tamanho do bloco (por exemplo, 1000-2000 caracteres) e sobreposição de bloco (por exemplo, 100-500 caracteres) que controlam sua granularidade e continuidade. Blocos menores melhoram a precisão da recuperação, mas podem perder contexto, enquanto blocos maiores garantem um contexto abrangente ao custo da precisão.
    • Sobreposição de blocos: blocos sobrepostos mantêm o contexto além dos limites, mas aumentam os requisitos de armazenamento e computação.

    As configurações de bloco ideais dependem do caso de uso, equilibrando precisão, eficiência e desempenho.

  • A ingestão de dados é o processo de importação e preparação de conteúdo externo, como documentos ou imagens, para ser usado para recuperação. Isso inclui etapas de pré-processamento, como limpeza, formatação e organização de dados.

  • Os modelos de incorporação transformam texto, imagens ou outros dados em vetores numéricos densos (incorporações) que capturam significado semântico. Esses vetores representam relações entre entradas, permitindo comparações de semelhança e agrupamento.

  • Inferência refere-se ao processo de usar um modelo treinado para gerar previsões ou saídas com base em novos dados de entrada. Em modelos de linguagem, a inferência envolve tarefas como completar texto, responder perguntas ou gerar resumos.

  • Os modelos de linguagem são sistemas de IA treinados para compreender, gerar e manipular a linguagem humana. Eles preveem o texto com base na entrada, permitindo tarefas como geração de texto, tradução, resumo e resposta a perguntas. Exemplos incluem GPT, Phi e Mistral.

  • Os parâmetros do modelo em modelos de linguagem definem como o modelo se comporta durante a geração de texto. Top-p, top-N e temperatura são parâmetros-chave de inferência que influenciam a aleatoriedade, diversidade e coerência do texto gerado.

    • Top-p: Top-p controla a diversidade do texto gerado considerando a probabilidade cumulativa de escolhas de token. Um "p" menor restringe a saída a tokens de alta probabilidade, levando a resultados mais seguros, mas menos diversos. Aumentar o valor top-p permite mais criatividade e aleatoriedade.
    • Top-N: Top-N, no contexto do Edge RAG, é utilizado durante o processo de recuperação. Quando uma pesquisa vetorial é realizada com a consulta de um usuário, usamos blocos de documento "N" que são fornecidos como contexto para o modelo de linguagem.
    • Temperatura: A temperatura ajusta a aleatoriedade na seleção de token dimensionando as probabilidades do token. Temperaturas mais altas aumentam a aleatoriedade, tornando a produção mais diversificada, mas potencialmente incoerente.

    Há alguns parâmetros de modelo adicionais, como mensagens anteriores incluídas, rigor de texto e rigor de imagem descritos em Escolhendo o prompt certo e os parâmetros do modelo.

  • Consulta é a entrada fornecida a um modelo de linguagem para obter uma resposta ou executar uma tarefa específica. Pode ser uma pergunta, um prompt ou um conjunto de instruções, dependendo do caso de uso.

  • Retrieval Augmented Generation (RAG) combina um sistema de recuperação com um modelo de linguagem generativa para produzir respostas enriquecidas por conhecimento externo. Ele recupera o contexto relevante de um banco de dados ou armazenamento de documentos para aumentar os recursos de geração do modelo, garantindo informações precisas e up-toatualizadas.

  • Modelos de pesquisa:

    • A pesquisa de texto completo é um método de pesquisa que digitaliza e corresponde todo o corpo de texto em documentos, usando palavras-chave, frases ou consultas booleanas para encontrar partes relevantes nos documentos fornecidos.
    • A pesquisa híbrida combina a pesquisa de texto completo (baseada em palavras-chave) e a pesquisa vetorial (semelhança semântica) para recuperar os documentos mais relevantes. Usa a precisão da correspondência de termos-chave, bem como o entendimento semântico profundo, para melhorar a eficácia da recuperação.
    • A pesquisa vetorial é um método de pesquisa que encontra documentos relevantes comparando a semelhança semântica entre incorporações vetoriais da consulta do usuário e incorporações pré-computadas de documentos, normalmente usando semelhança cosseno ou outras métricas de distância em um espaço vetorial.
  • Prompts do sistema são instruções ou mensagens predefinidas fornecidas a um modelo de linguagem no início de uma conversa ou tarefa para influenciar o seu comportamento. Esses prompts definem a função, o tom ou o contexto específico da tarefa do modelo. Por exemplo, "Você é um assistente útil" ou "Forneça explicações técnicas concisas". Ao moldar o contexto inicial, os prompts do sistema garantem que o modelo gere respostas alinhadas com o objetivo ou persona desejados.

  • O banco de dados vetorial é um banco de dados especializado para armazenar incorporações vetoriais. Ele foi projetado para lidar com vetores de alta dimensão e permite pesquisas de semelhança rápidas e escaláveis.

  • Vetorização significa transformar texto em representações numéricas, ou incorporações, usando um modelo de incorporação como Transformadores de Sentenças. Essas incorporações capturam o significado semântico do texto, permitindo comparações eficientes e precisas.

Compare com os serviços de IA do Azure

O Edge RAG é executado na infraestrutura do cliente fora da nuvem pública, permitindo que os clientes pesquisem seus dados locais usando a Geração Aumentada de Recuperação (RAG). O plano de dados, incluindo todos os dados do cliente e o modelo de idioma, é hospedado localmente.

Por outro lado, os serviços de IA do Azure, como o Azure AI Search e o Azure AI Foundry, também fornecem recursos RAG, mas são hospedados em regiões de nuvem de hiperescala, exigindo que os clientes tragam seus dados e aplicativos para a infraestrutura do Azure.

O Edge RAG fornece experiências de UI para desenvolvedores locais que estão alinhadas às experiências do Azure AI Foundry.

Dados em instalações locais versus na nuvem

O Edge RAG envia apenas metadados do sistema e informações organizacionais identificáveis, como ID de assinatura e nomes de cluster, para a Microsoft. Todo o conteúdo do cliente sempre permanece na infraestrutura local dentro dos limites de rede definidos pelos clientes.

Funções do usuário

A solução Edge RAG tem três funções de usuário distintas:

  • Gerenciamento do ciclo de vida da extensão: os usuários são responsáveis por gerenciar o ciclo de vida da extensão Edge RAG Arc. Isso inclui tarefas como configurar a infraestrutura necessária, implantar a extensão, executar atualizações, monitorar seu desempenho e lidar com sua eventual exclusão. Normalmente, essas responsabilidades recaem sobre um administrador de TI com acesso ao Azure Local subjacente e ao Azure Kubernetes (AKS) na infraestrutura do Azure Local.
  • Desenvolvimento e avaliação do endpoint de chat: As responsabilidades do usuário neste fluxo de trabalho incluem fornecer a fonte de dados, personalizar as configurações do pipeline RAG, fornecer prompts personalizados do sistema, avaliar, monitorar e atualizar a solução de chat. Essa função geralmente é realizada por um engenheiro de prompts ou um desenvolvedor de aplicações de IA.
  • Consumindo o ponto de extremidade para consultar os dados locais: as responsabilidades do usuário neste fluxo de trabalho podem incluir a integração do ponto de extremidade de bate-papo em aplicativos de linha de negócios e o uso de uma interface de bate-papo, personalizada ou fornecida prontamente, para consultar dados locais.