O que é Edge Retrieval Augmented Generation (RAG)?

2025-05-20

O Edge RAG Preview é uma extensão do Kubernetes habilitada para Azure Arc que permite pesquisar dados locais com IA generativa, usando a Geração Aumentada de Recuperação (RAG). O RAG é uma arquitetura padrão do setor que aumenta os recursos de um modelo de linguagem com dados privados.

O Edge RAG Preview, habilitado pelo Azure Arc, é uma solução pronta para uso que empacota tudo o que é necessário para permitir que os clientes criem assistentes de chat personalizados e obtenham insights de seus dados privados, incluindo:

Uma escolha de modelos de linguagem Generative AI (GenAI) executados localmente com suporte para hardware de CPU e GPU.
Uma solução pronta a usar para ingestão de dados e pipeline RAG que mantém todos os dados locais, com controlos de acesso baseados em função (RBAC) do Azure para impedir o acesso não autorizado.
Uma ferramenta de engenharia e avaliação pronta para uso para encontrar, criar, avaliar e implantar soluções de bate-papo personalizadas.
APIs equivalentes ao Azure para integrar em aplicativos de negócios e uma interface do usuário pré-empacotada para começar rapidamente.

Embora o Edge RAG seja capaz de ingerir e recuperar imagens relevantes para serem usadas como referências contextuais ao lado do texto, é importante notar que não é um modelo de linguagem visual (VLM).

O Edge RAG tem suporte no Kubernetes habilitado para Azure Arc na infraestrutura do Azure Local (anteriormente Azure Stack HCI).

Para obter mais informações, consulte Azure Arc, Azure Arc-enabled Kubernetes e Azure Arc extensions.

Importante

A Pré-visualização do Edge RAG, ativada pelo Azure Arc, está atualmente em Pré-visualização. Consulte os Termos de Utilização Complementares das Visualizações Prévias do Microsoft Azure para obter os termos legais que se aplicam às funcionalidades do Azure que estão em beta, em pré-visualização ou que ainda não foram lançadas para disponibilidade geral.

Cenários de clientes e casos de uso

Para clientes em verticais como manufatura, serviços financeiros, saúde, governo e defesa, dados valiosos são gerados e armazenados localmente. Isso acontece fora da nuvem de hiperescala devido à regulamentação, latência, continuidade de negócios ou grande volume de dados gerados em tempo real. Os clientes querem usar aplicativos de IA generativa para obter insights desses dados locais.

O Edge RAG suporta recursos de P&R que permitem que os clientes consultem dados locais por meio de um bot de chat personalizado para cenários como:

Um cliente do governo deseja obter insights de dados locais confidenciais para permitir uma tomada de decisão mais rápida, resumir grandes conjuntos de dados, criar materiais de treinamento e muito mais.
Um banco regional quer usar dados que devem permanecer no local devido a restrições regulatórias para casos de uso, como verificações de conformidade, assistência ao cliente e geração de argumentos de vendas personalizados.
Um fabricante global quer criar assistentes de chão de fábrica para reduzir o tempo de resolução de problemas e ajudar na solução de problemas, usando dados que precisam permanecer locais para cumprir as políticas da organização.

Porquê Edge RAG?

Utilize o Edge RAG para:

Reduza o tempo de entrada no mercado com uma experiência chave na mão que acelera o desenvolvimento e a implantação de aplicativos de IA em dados locais.
Simplifique as operações e o gerenciamento de ponta a ponta com uma solução de qualidade empresarial que oferece o mesmo padrão de segurança, conformidade e capacidade de gerenciamento que você espera da Microsoft, incluindo o gerenciamento do ciclo de vida e da versão de todos os componentes e a integração do Microsoft Entra para o Azure RBAC.
Remova a necessidade de conjuntos de habilidades de desenvolvedor separados com experiências de desenvolvedor consistentes com a nuvem
Mantenha-se a par deste espaço em rápida evolução com a inovação contínua da Microsoft, líder em tecnologias de IA, e continue a concentrar-se na entrega de valor comercial.

Conceitos-chave

Analise os seguintes conceitos-chave para Edge RAG:

A fragmentação divide documentos grandes em blocos de texto menores e gerenciáveis (blocos).
- Tamanho do bloco: A divisão em blocos divide documentos grandes em unidades menores, com configurações como tamanho do bloco (por exemplo, 1000-2000 caracteres) e sobreposição de bloco (por exemplo, 100-500 caracteres) que controlam sua granularidade e continuidade. Blocos menores melhoram a precisão da recuperação, mas podem perder contexto, enquanto blocos maiores garantem um contexto abrangente ao custo da precisão.
- Sobreposição de blocos: blocos sobrepostos mantêm o contexto além dos limites, mas aumentam os requisitos de armazenamento e computação.
As configurações de bloco ideais dependem do caso de uso, equilibrando precisão, eficiência e desempenho.
A ingestão de dados é o processo de importação e preparação de conteúdo externo, como documentos ou imagens, para ser usado para recuperação. Isso inclui etapas de pré-processamento, como limpeza, formatação e organização de dados.
Os modelos de incorporação transformam texto, imagens ou outros dados em vetores numéricos densos (incorporações) que capturam significado semântico. Esses vetores representam relações entre entradas, permitindo comparações de semelhança e agrupamento.
Inferência refere-se ao processo de usar um modelo treinado para gerar previsões ou saídas com base em novos dados de entrada. Em modelos de linguagem, a inferência envolve tarefas como completar texto, responder perguntas ou gerar resumos.
Os modelos de linguagem são sistemas de IA treinados para compreender, gerar e manipular a linguagem humana. Eles preveem o texto com base na entrada, permitindo tarefas como geração de texto, tradução, resumo e resposta a perguntas. Exemplos incluem GPT, Phi e Mistral.
Os parâmetros do modelo em modelos de linguagem definem como o modelo se comporta durante a geração de texto. Top-p, top-N e temperatura são parâmetros-chave de inferência que influenciam a aleatoriedade, diversidade e coerência do texto gerado.
- Top-p: Top-p controla a diversidade do texto gerado considerando a probabilidade cumulativa de escolhas de token. Um "p" menor restringe a saída a tokens de alta probabilidade, levando a resultados mais seguros, mas menos diversos. Aumentar o valor top-p permite mais criatividade e aleatoriedade.
- Top-N: Top-N, no contexto do Edge RAG, é utilizado durante o processo de recuperação. Quando uma pesquisa vetorial é realizada com a consulta de um usuário, usamos blocos de documento "N" que são fornecidos como contexto para o modelo de linguagem.
- Temperatura: A temperatura ajusta a aleatoriedade na seleção de token dimensionando as probabilidades do token. Temperaturas mais altas aumentam a aleatoriedade, tornando a produção mais diversificada, mas potencialmente incoerente.
Há alguns parâmetros de modelo adicionais, como mensagens anteriores incluídas, rigor de texto e rigor de imagem descritos em Escolhendo o prompt certo e os parâmetros do modelo.
Consulta é a entrada fornecida a um modelo de linguagem para obter uma resposta ou executar uma tarefa específica. Pode ser uma pergunta, um prompt ou um conjunto de instruções, dependendo do caso de uso.
Retrieval Augmented Generation (RAG) combina um sistema de recuperação com um modelo de linguagem generativa para produzir respostas enriquecidas por conhecimento externo. Ele recupera o contexto relevante de um banco de dados ou armazenamento de documentos para aumentar os recursos de geração do modelo, garantindo informações precisas e up-toatualizadas.
Modelos de pesquisa:
- A pesquisa de texto completo é um método de pesquisa que digitaliza e corresponde todo o corpo de texto em documentos, usando palavras-chave, frases ou consultas booleanas para encontrar partes relevantes nos documentos fornecidos.
- A pesquisa híbrida combina a pesquisa de texto completo (baseada em palavras-chave) e a pesquisa vetorial (semelhança semântica) para recuperar os documentos mais relevantes. Usa a precisão da correspondência de termos-chave, bem como o entendimento semântico profundo, para melhorar a eficácia da recuperação.
- A pesquisa vetorial é um método de pesquisa que encontra documentos relevantes comparando a semelhança semântica entre incorporações vetoriais da consulta do usuário e incorporações pré-computadas de documentos, normalmente usando semelhança cosseno ou outras métricas de distância em um espaço vetorial.
Prompts do sistema são instruções ou mensagens predefinidas fornecidas a um modelo de linguagem no início de uma conversa ou tarefa para influenciar o seu comportamento. Esses prompts definem a função, o tom ou o contexto específico da tarefa do modelo. Por exemplo, "Você é um assistente útil" ou "Forneça explicações técnicas concisas". Ao moldar o contexto inicial, os prompts do sistema garantem que o modelo gere respostas alinhadas com o objetivo ou persona desejados.
O banco de dados vetorial é um banco de dados especializado para armazenar incorporações vetoriais. Ele foi projetado para lidar com vetores de alta dimensão e permite pesquisas de semelhança rápidas e escaláveis.
Vetorização significa transformar texto em representações numéricas, ou incorporações, usando um modelo de incorporação como Transformadores de Sentenças. Essas incorporações capturam o significado semântico do texto, permitindo comparações eficientes e precisas.

Compare com os serviços de IA do Azure

O Edge RAG é executado na infraestrutura do cliente fora da nuvem pública, permitindo que os clientes pesquisem seus dados locais usando a Geração Aumentada de Recuperação (RAG). O plano de dados, incluindo todos os dados do cliente e o modelo de idioma, é hospedado localmente.

Por outro lado, os serviços de IA do Azure, como o Azure AI Search e o Azure AI Foundry, também fornecem recursos RAG, mas são hospedados em regiões de nuvem de hiperescala, exigindo que os clientes tragam seus dados e aplicativos para a infraestrutura do Azure.

O Edge RAG fornece experiências de UI para desenvolvedores locais que estão alinhadas às experiências do Azure AI Foundry.

Dados em instalações locais versus na nuvem

O Edge RAG envia apenas metadados do sistema e informações organizacionais identificáveis, como ID de assinatura e nomes de cluster, para a Microsoft. Todo o conteúdo do cliente sempre permanece na infraestrutura local dentro dos limites de rede definidos pelos clientes.

Funções do usuário

A solução Edge RAG tem três funções de usuário distintas:

Gerenciamento do ciclo de vida da extensão: os usuários são responsáveis por gerenciar o ciclo de vida da extensão Edge RAG Arc. Isso inclui tarefas como configurar a infraestrutura necessária, implantar a extensão, executar atualizações, monitorar seu desempenho e lidar com sua eventual exclusão. Normalmente, essas responsabilidades recaem sobre um administrador de TI com acesso ao Azure Local subjacente e ao Azure Kubernetes (AKS) na infraestrutura do Azure Local.
Desenvolvimento e avaliação do endpoint de chat: As responsabilidades do usuário neste fluxo de trabalho incluem fornecer a fonte de dados, personalizar as configurações do pipeline RAG, fornecer prompts personalizados do sistema, avaliar, monitorar e atualizar a solução de chat. Essa função geralmente é realizada por um engenheiro de prompts ou um desenvolvedor de aplicações de IA.
Consumindo o ponto de extremidade para consultar os dados locais: as responsabilidades do usuário neste fluxo de trabalho podem incluir a integração do ponto de extremidade de bate-papo em aplicativos de linha de negócios e o uso de uma interface de bate-papo, personalizada ou fornecida prontamente, para consultar dados locais.

Partilhar via