Ler em inglês

Compartilhar via


Carregar e processar arquivos de documentos no Azure Cosmos DB para pesquisa

Observação

A ingestão de documentos para o Azure Cosmos DB está em versão prévia privada. Se você estiver interessado em ingressar na versão prévia, recomendamos que você ingresse na lista de espera assinando este formulário: https://aka.ms/Doc2CDBSignup

Apresentamos o Doc2CDB para Azure Cosmos DB, um acelerador poderoso desenvolvido para simplificar a extração, o pré-processamento e o gerenciamento de grandes volumes de dados de texto para pesquisa de similaridade de vetor. Essa solução usa os recursos avançados de indexação de vetor do Azure Cosmos DB e é da plataforma de serviços de IA do Azure para fornecer um pipeline robusto e eficiente que é fácil de configurar e perfeito para muitos casos de uso, incluindo:

  • Pesquisa de similaridade de vetores sobre dados de texto. Extrair e vetorizar texto de dados de documento para armazenar no Azure Cosmos DB facilita a execução da pesquisa semântica para localizar documentos contextualmente relacionados às suas consultas. Isso permite descobrir informações relevantes que podem não ser encontradas por meio de pesquisas tradicionais de palavras-chave, facilitando a recuperação de dados mais abrangente.

  • RAG (Geração Aumentada de Recuperação) em documentos. Personalize modelos de linguagem pequenos e grandes para seus dados com RAG. Ao extrair texto de arquivos de documento, fragmentar e vetorizar os dados e, em seguida, armazená-los no Azure Cosmos DB, você estará configurado para capacitar o chatbot a gerar respostas mais precisas e contextualmente relevantes para seus cenários. Quando você faz uma pergunta, o chatbot recupera os fragmentos de texto mais relevantes por meio da busca em vetores e os usa para gerar uma resposta, com base nos dados do documento.

Diagrama da infraestrutura, dos componentes e do flow do Cosmos AI Graph.

O pipeline de ponta a ponta

O Doc2CDB inclui vários estágios principais em seu pipeline:

  1. Upload de arquivos no Armazenamento de Blobs do Azure
    • O processo começa com o carregamento de documentos no Armazenamento de Blobs do Azure. Esse estágio garante que os arquivos sejam armazenados com segurança e facilmente acessíveis para processamento posterior. Isso é compatível com PDFs, documentos do Microsoft Office (DOCX, XLSX, PPTX, HTML) e imagens (JPEG, PNG, BMP, TIFF, HEIF).
  2. Extração de texto
    • Depois que os arquivos são carregados, a etapa seguinte é a extração do texto. Isso envolve a análise de dados de texto e a execução de OCR em documentos usando o Azure Document Intelligence para extrair texto que pode ser processado e indexado no Azure Cosmos DB. Essa etapa é crucial para preparar os dados para processamento posterior.
  3. Fragmentação de texto
    • Após a extração, o texto bruto é dividido em fragmentos gerenciáveis. Esse processo de fragmentação é essencial para habilitar SLMs/LLMs (modelos de linguagem pequenos e grandes) na IA do Azure para processar o texto com eficiência. Ao dividir o texto em partes menores, garantimos que os dados sejam mais acessíveis e fáceis de administrar.
  4. Incorporação de texto
    • Nesse estágio, o modelo text-3-embedding-large do Serviço OpenAI do Azure é usado para produzir inserções de vetor dos fragmentos de texto. Essas incorporações capturam o significado semântico do texto, permitindo pesquisas mais sofisticadas e precisas. As incorporações são um componente crítico para habilitar recursos de pesquisa avançada.
  5. Armazenamento de texto
    • Por fim, cada parte de texto, juntamente com sua inserção de vetor correspondente, é armazenada em um contêiner do Azure Cosmos DB for NoSQL como um documento único. Esse contêiner é configurado para executar buscas em vetores eficientes e, consequentemente, pesquisas de texto completo. Ao usar os poderosos recursos de indexação e pesquisa de vetor do Azure Cosmos DB, os usuários poderão recuperar informações relevantes dos dados de texto de forma rápida e fácil.

Benefícios do acelerador de solução Doc2CDB

  • Escalabilidade: administre grandes volumes de dados de texto com facilidade, graças à natureza escalonável dos serviços de IA do Azure e do Azure Cosmos DB
  • Eficiência: simplifique o pipeline de processamento de texto, reduzindo o tempo e o esforço necessários para gerenciar e pesquisar dados de texto. Isso é pré-configurado para você
  • Recursos de pesquisa avançada: utilize a indexação de vetores ultrarrápida e eficiente no Azure Cosmos DB para realizar a busca em vetores para encontrar os dados semanticamente mais relevantes de seus documentos

Introdução

O acelerador Doc2CDB foi projetado para ajudar você a analisar, processar e armazenar os dados do documento com mais facilidade para usufruir da linguagem de consulta avançada do Azure Cosmos DB e a poderosa pesquisa de similaridade de vetor. Visite https://aka.ms/Doc2CDB e experimente hoje mesmo!

Próxima etapa