Editar

Compartilhar via


Use o Enriquecimento de IA com processamento de imagem e texto

Serviço de aplicativo do Azure
Armazenamento do Blobs do Azure
Azure AI Search
Funções do Azure

Ideias de soluções

Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe aos requisitos específicos de sua carga de trabalho.

Este artigo descreve como usar o processamento de imagens, processamento de linguagem natural e habilidades personalizadas para capturar dados específicos do domínio. Você pode usar esses dados para enriquecer documentos de texto e imagem. Incorpore a Pesquisa de IA do Azure com o enriquecimento de IA para ajudar a identificar e explorar um conteúdo relevante em escala. Essa solução usa o enriquecimento de IA para extrair o significado do conjunto de dados original, complexo e não estruturado de Registros do Assassinato de JFK (Arquivos de JFK).

Arquitetura

Diagrama que mostra a arquitetura da Pesquisa de IA para converter dados não estruturados em estruturados.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

O fluxo de dados a seguir corresponde ao diagrama anterior. O fluxo de dados descreve como o conjunto de dados de Arquivos JFK não estruturados passa pelo pipeline de habilidades de Pesquisa de IA para produzir dados estruturados e indexáveis.

  1. Os dados não estruturados do Armazenamento de Blobs do Azure, como documentos e imagens, são ingeridos na Pesquisa de IA.

  2. Para iniciar o processo de indexação, a etapa de quebra de documento extrai imagens e texto dos dados e, em seguida, enriquece o conteúdo. As etapas de enriquecimento nesse processo dependem dos dados e do tipo de habilidades selecionadas.

  3. As habilidades internas baseadas nas APIs da Visão de IA do Azure e Linguagem de IA do Azure fornecem enriquecimentos de IA como OCR (reconhecimento óptico de caracteres) de imagem, análise de imagem, tradução de texto, reconhecimento de entidade e pesquisa de texto completo.

  4. As habilidades personalizadas dão suporte a cenários que exigem modelos ou serviços de IA mais complexos. Os exemplos incluem a IA do Azure para Informação de Documentos, modelos de Azure Machine Learning e Functions do Azure.

  5. Após a conclusão do processo de enriquecimento, o indexador salvará os documentos enriquecidos e indexados em um índice de pesquisa. A pesquisa de texto completo e outros formulários de consulta podem usar esse índice.

  6. Os documentos enriquecidos também podem ser projetados em um repositório de conhecimento, que pode ser usado por aplicativos downstream como mineração de conhecimento ou ciência de dados.

  7. As consultas acessam o conteúdo enriquecido no índice de pesquisa. O índice dá suporte a analisadores personalizados, consultas de pesquisa difusa, filtros e um perfil de pontuação para ajustar a relevância da pesquisa.

  8. Os aplicativos que se conectam ao Armazenamento de Blobs ou ao Armazenamento de Tabelas do Azure podem acessar o repositório de conhecimento.

Componentes

A solução usa os seguintes componentes do Azure.

A Pesquisa de IA indexa o conteúdo e fornece a experiência do usuário nesta solução. Você pode usar a Pesquisa de IA para aplicar habilidades de IA predefinidas ao conteúdo. Além disso, você pode usar o mecanismo de extensibilidade para adicionar habilidades personalizadas, que fornecem transformações de enriquecimento específicas.

Visão de IA do Azure 

A Visão usa o reconhecimento de texto para extrair e reconhecer informações de texto com base em imagens. A API de Leitura usa os modelos mais recentes de reconhecimento de OCR e é otimizada para documentos grandes e com muito texto e para imagens com ruído.

A API de OCR herdada não é otimizada para documentos grandes, mas dá suporte a mais idiomas. A precisão dos resultados do OCR pode variar com base na qualidade da varredura e da imagem. Essa solução usa o OCR para produzir dados no formato hOCR.

Idioma

A linguagem usa recursos de análise de texto, como reconhecimento de entidade nomeada e extração de frases-chave para extrair informações de texto de documentos não estruturados.

Armazenamento do Azure

O Armazenamento de Blobs é um armazenamento de objetos baseado em REST para dados que você pode acessar em qualquer lugar do mundo por meio de HTTPS. Use o Armazenamento de Blobs para expor dados publicamente para o mundo ou para armazenar dados de aplicativos de maneira particular. O Armazenamento de Blobs é ideal para grandes volumes de dados não estruturados, como texto ou elementos gráficos.

O Armazenamento de Tabelas armazena dados NoSQL altamente disponíveis, escalonáveis, estruturados e semiestruturados na nuvem.

Azure Functions

Functions é um serviço de computação sem servidor que pode ser usado para executar pequenas partes de código disparado por evento sem precisar provisionar explicitamente ou gerenciar a infraestrutura. Essa solução usa um método de Functions para aplicar a lista de criptônimos da Agência Central de Inteligência (CIA) aos Arquivos JFK como uma habilidade personalizada.

Serviço de Aplicativo do Azure

Essa solução cria um aplicativo Web autônomo no Serviço de Aplicativo do Azure para testar, demonstrar e pesquisar o índice e explorar conexões nos documentos enriquecidos e indexados.

Detalhes do cenário

Os conjuntos de dados grandes e não estruturados podem incluir anotações digitadas e manuscritas, fotos e diagramas e outros dados não estruturados que as soluções de pesquisa padrão não podem analisar. Os Arquivos JFK contêm mais de 34 mil páginas de documentos sobre a investigação da CIA sobre o assassinato de JFK em 1963.

Você pode usar o enriquecimento de IA na Pesquisa de IA para extrair e aprimorar textos pesquisáveis e indexáveis de imagens, blobs e outras fontes de dados não estruturadas, como os Arquivos JFK. O enriquecimento de IA usa conjuntos de habilidades de aprendizado de máquina pré-treinados das APIs de Visão e Linguagem dos serviços de IA do Azure. Crie e anexe também habilidades personalizadas para adicionar processamento especial para dados específicos do domínio, como os criptônimos da CIA. A Pesquisa de IA poderá indexar e pesquisar esse contexto.

As habilidades de Pesquisa de IA nesta solução podem ser classificadas nos seguintes grupos:

  • Processamento de imagens: esta solução usa habilidades internas de extração de texto e análise de imagens, incluindo detecção facial e de objetos, geração de marca e legenda e identificação de celebridades e pontos de referência. Essas habilidades criam representações do conteúdo da imagem, que podem ser pesquisadas usando as funcionalidades de consulta da Pesquisa de IA. Quebra de documento é o processo de extração ou criação de conteúdo de texto com base em fontes que não são de texto.

  • Processamento de linguagem natural: essa solução usa habilidades internas, como reconhecimento de entidade, detecção de idioma e extração de frases-chave que mapeiam o texto não estruturado para campos pesquisáveis e filtrados em um índice.

  • Habilidades personalizadas: essa solução usa habilidades personalizadas que ampliam a Pesquisa de IA para aplicar transformações de enriquecimento específicas ao conteúdo. Você pode especificar a interface para uma habilidade personalizada por meio da habilidade de API Web personalizada.

Possíveis casos de uso

O projeto de exemplo e a demonstração online dos Arquivos JFK apresentam um caso de uso específico de Pesquisa de IA. Essa ideia de solução não tem como finalidade ser uma estrutura ou arquitetura escalável para todos os cenários. Em vez disso, essa ideia de solução fornece uma diretriz geral e um exemplo. O projeto de código e a demonstração criam um site público e um contêiner de armazenamento publicamente legível para as imagens extraídas, ou seja, você não deve usar dados não públicos nesta solução.

Você também pode usar essa arquitetura para:

  • Aumentar o valor e a utilidade do conteúdo de texto e imagem não estruturados em aplicativos de pesquisa e ciência de dados.

  • Usar habilidades personalizadas para integrar o código aberto, código que não pertence à Microsoft ou código da Microsoft em pipelines de indexação.

  • Torne documentos em JPG, PNG ou bitmap digitalizados passíveis de serem pesquisados em texto completo.

  • Produza melhores resultados do que a extração de texto em PDF padrão para PDFs com imagem e texto combinados. Alguns formatos PDF nativos e digitalizados talvez não sejam analisados corretamente na Pesquisa de IA.

  • Criar novas informações com base no conteúdo bruto inerentemente significativo ou no contexto oculto em documentos grandes e não estruturados ou semiestruturados.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi escrito originalmente pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas

Saiba mais sobre esta solução:

Leia a documentação do produto:

Experimente o roteiro de aprendizagem: