Compartilhar via


Criar e implantar modelos de processamento de documentos personalizados no Azure

IA do Azure para Informação de Documentos
Serviços de IA do Azure
Aplicativos Lógicos do Azure
Estúdio do Azure Machine Learning
Fábrica de IA do Azure
Armazenamento do Azure

Este artigo descreve as soluções do Azure para criar, treinar, implantar e usar modelos de processamento de documentos personalizados. Esses serviços do Azure também fornecem recursos de interface do usuário para rotular ou marcar texto durante o processamento.

Arquitetura

Diagrama que mostra várias alternativas para um processo personalizado de criação e implantação de modelo de processamento de documentos.

Baixe um arquivo do Visio dessa arquitetura.

Fluxo de dados

O fluxo de dados a seguir corresponde ao diagrama anterior:

  1. Orquestradores como Aplicativos Lógicos do Azure, Azure Data Factory ou Azure Functions ingerem mensagens e anexos de servidores de email e arquivos de servidores de protocolo de transferência de arquivos ou aplicativos Web.

    • O Azure Functions e os Aplicativos Lógicos do Azure habilitam cargas de trabalho sem servidor. O serviço escolhido depende de sua preferência por recursos de serviço, como desenvolvimento, conectores, gerenciamento e contexto operacional. Para obter mais informações, consulte Comparar o Azure Functions e os Aplicativos Lógicos do Azure.

    • Considere usar o Azure Data Factory para mover dados em massa.

  2. Os orquestradores enviam dados ingeridos para o Armazenamento de Blobs do Azure ou para o Azure Data Lake Storage. Eles organizam os dados nesses repositórios com base em características como extensões de arquivo ou detalhes do cliente.

  3. Você pode usar os seguintes serviços do Azure, independentemente ou em combinação, para treinar documentos e criar modelos personalizados para resolver vários casos de uso.

  4. Para implantar os modelos personalizados e usá-los para inferência:

    • O Azure AI Document Intelligence tem implantação de modelo interna. A inferência com os modelos personalizados é feita usando SDKs ou a API REST de modelos de documento. O modelId, ou nome do modelo, especificado durante a criação do modelo é incluído na URL de solicitação para análise de documento. O Document Intelligence não requer mais etapas de implantação.

    • O Language Studio fornece uma opção para implantar modelos de linguagem personalizados. Obtenha a URL de previsão do ponto de extremidade REST selecionando o modelo para implantação. Você pode inferência de modelos usando o ponto de extremidade REST ou as bibliotecas de cliente do SDK do Azure.

    • O Machine Learning implanta modelos personalizados em pontos de extremidade gerenciados online ou em lote do Machine Learning. Você também pode usar o SDK do Machine Learning para implantar no AKS (Serviço de Kubernetes do Azure) como um serviço Web. Modelos de base ajustados podem ser implantados no catálogo de modelos por meio de computação gerenciada ou uma API sem servidor. Os modelos implantados por meio da computação gerenciada podem ser inferenciados usando pontos de extremidade gerenciados, que incluem pontos de extremidade online para inferência em tempo real e pontos de extremidade em lote para inferência em lote.

    • O Azure AI Foundry fornece várias opções para implantar modelos do Azure OpenAI ajustados. Você pode implantar esses modelos usando o SDK do Python ou a API REST. Você também pode implantar modelos de base ajustados de provedores como Meta ou Llama como APIs sem servidor ou usando computação gerenciada.

Components

  • Os Aplicativos Lógicos do Azure fazem parte do Azure Integration Services. Os Aplicativos Lógicos criam fluxos de trabalho automatizados que integram aplicativos, dados, serviços e sistemas. Nessa arquitetura, os Aplicativos Lógicos orquestram a ingestão de documentos e dados de várias fontes e disparam processos downstream para processamento de documentos. Você pode usar conectores gerenciados para serviços como o Armazenamento do Azure e o Microsoft 365 para disparar fluxos de trabalho quando um arquivo chega na conta de armazenamento ou um email é recebido.

  • O Azure Data Factory é um serviço de integração de dados gerenciados para orquestrar e automatizar a movimentação e a transformação de dados. Nessa arquitetura, o Azure Data Factory adiciona atividades de transformação , como invocar um ponto de extremidade REST ou executar um notebook nos dados ingeridos para o pipeline.

  • O Azure Functions é um serviço de computação sem servidor que pode hospedar cargas de trabalho controladas por eventos que têm processos de curta duração. Nessa arquitetura, o Functions permite que cargas de trabalho processem documentos de entrada e disparem pipelines de processamento de modelo.

  • O Armazenamento de Blobs é uma solução de armazenamento de objetos para armazenar dados não estruturados. O Armazenamento de Blobs dá suporte a bibliotecas para vários idiomas, como .NET, Node.jse Python. Os aplicativos podem acessar arquivos no Armazenamento de Blobs por meio de HTTP ou HTTPS. O Armazenamento de Blobs tem camadas de acesso frequentes, esporádicas e de arquivos para dar suporte à otimização de custos para armazenar grandes quantidades de dados. Nesta arquitetura, essa conta é a solução para arquivos brutos que usam uma camada quente.

  • O Data Lake Storage é um repositório escalonável baseado em nuvem para armazenar e organizar grandes volumes de dados não estruturados. Nessa arquitetura, o Data Lake Storage organiza e mantém grandes volumes de dados ingeridos para dar suporte a fluxos de trabalho de análise, rotulagem e machine learning.

  • O Document Intelligence é um componente dos serviços de IA do Azure. Nessa arquitetura, ela fornece recursos internos de análise de documentos para extrair textos impressos e manuscritos, tabelas e pares chave-valor. O Document Intelligence tem modelos predefinidos para extrair dados de faturas, documentos, recibos, cartões de identificação e cartões de visita. O Document Intelligence também tem um modelo de formulário de modelo personalizado e um modelo de documento neural personalizado que você pode usar para treinar e implantar modelos personalizados.

  • O Document Intelligence Studio fornece uma interface para explorar os recursos e modelos do Document Intelligence. Você pode usar a interface para rotular dados e criar modelos de processamento de documentos personalizados.

  • A Linguagem de IA do Azure consolida os serviços de NLP (processamento de linguagem natural) do Azure. Ele fornece opções predefinidas e personalizáveis e recursos de compreensão de idioma. Use-o para classificar documentos, reconhecer entidades nomeadas e concluir outras tarefas NLP.

  • O Language Studio é uma interface do usuário baseada na Web em linguagem que você pode usar para criar, treinar, gerenciar e implantar modelos de linguagem. Nessa arquitetura, ele dá suporte à marcação, treinamento e implantação de modelos de linguagem personalizados para tarefas como classificação e extração de entidade no pipeline de processamento de documentos. O rótulo automático dá suporte à classificação de texto personalizada e pode rotular automaticamente documentos em diferentes classes ou categorias. O estúdio também fornece opções para exibir o desempenho do modelo, incluindo pontuação F1, precisão e recall.

  • O Azure Machine Learning é uma plataforma de machine learning gerenciada para desenvolvimento e implantação de modelos em escala. Nessa arquitetura, ela rotula dados, treina modelos personalizados (inclusive com estruturas de software livre) e implanta os modelos para tarefas de inferência.

    • O Machine Learning Studio fornece opções de rotulagem de dados para imagens e texto. Ele dá suporte a fluxos de trabalho de treinamento de modelo dentro dessa arquitetura.

    • Exportar dados rotulados como conjuntos de dados COCO ou Machine Learning. Você pode usar esses conjuntos de dados para treinar e implantar modelos em notebooks do Machine Learning.

  • O Azure OpenAI fornece modelos de linguagem avançados e modelos multimodal como APIs REST que você pode usar para executar várias tarefas. Nessa arquitetura, os modelos do Azure OpenAI executam tarefas de linguagem avançadas, como modelos de ajuste fino , para melhorar o desempenho do modelo em dados ausentes ou sub-representados quando o modelo base é treinado originalmente. Você também pode usar modelos de base de vários provedores para executar essas tarefas.

Alternatives

Você pode adicionar mais fluxos de trabalho a esse cenário com base em casos de uso específicos.

Detalhes do cenário

O processamento de documentos abrange uma ampla gama de tarefas. Pode ser difícil atender a todas as suas necessidades de processamento de documentos usando os modelos predefinidos disponíveis no Language and Document Intelligence. Talvez seja necessário criar modelos personalizados para automatizar o processamento de documentos para diferentes aplicativos e domínios.

Os principais desafios na personalização do modelo incluem:

  • Rotulando ou marcando dados de texto com entidades de par chave-valor relevantes para classificar o texto para extração.

  • Gerenciando a infraestrutura de treinamento, como computação e armazenamento, e suas integrações.

  • Implantando modelos em escala para que os aplicativos consumam.

Possíveis casos de uso

Os seguintes casos de uso podem aproveitar os modelos personalizados para processamento de documentos:

  • Crie modelos de classificação de texto e NER personalizados com base em estruturas de software livre.

  • Extraia valores de chave personalizados de documentos para várias verticais do setor, como seguros e serviços de saúde.

  • Marque e extraia entidades específicas dependentes de domínio além dos modelos NER predefinidos para domínios como segurança ou finanças.

  • Crie tabelas personalizadas com base em documentos.

  • Extraia assinaturas.

  • Rotule e classifique emails ou outros documentos com base no conteúdo.

  • Resumir documentos ou criar modelos personalizados de perguntas e respostas com base em seus dados.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework​, um conjunto de princípios orientadores que você pode usar para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Well-Architected Framework.

Para esta carga de trabalho de exemplo, a implementação de cada pilar depende da configuração e do uso ideal de cada componente do serviço do Azure.

Reliability

A confiabilidade ajuda a garantir que seu aplicativo possa cumprir os compromissos que você faz aos seus clientes. Para obter mais informações, consulte Lista de verificação de revisão de design para confiabilidade.

Disponibilidade

Resiliency

Segurança

A segurança fornece garantias contra ataques deliberados e o uso indevido de seus valiosos dados e sistemas. Para obter mais informações, consulte Lista de verificação de revisão de design para segurança.

Implemente as recomendações de proteção de dados, gerenciamento de identidade e acesso e segurança de rede para Armazenamento de Blobs, serviços de IA para Document Intelligence e Language Studio, Machine Learning e Azure OpenAI.

Otimização de custos

A Otimização de Custos concentra-se em maneiras de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Lista de verificação de revisão de design para otimização de custos.

O custo total da implementação dessa solução depende dos preços dos serviços escolhidos.

Os principais custos dessa solução incluem:

Para obter mais informações sobre preços para componentes específicos, consulte os seguintes recursos:

Use a calculadora de preços do Azure para adicionar as opções de componente escolhidas e estimar o custo geral da solução.

Eficiência de desempenho

A Eficiência de Desempenho refere-se à capacidade da carga de trabalho de dimensionar para atender às demandas do usuário com eficiência. Para obter mais informações, consulte Lista de verificação de revisão de design para eficiência de desempenho.

Escalabilidade

Contribuidores

A Microsoft mantém este artigo. Os colaboradores a seguir escreveram este artigo.

Autores principais:

  • Dixit Arora | Engenheiro Sênior
  • Jyotsna Ravi | Engenheiro principal

Para ver perfis não públicos no LinkedIn, entre no LinkedIn.

Próximas etapas