Introdução: Document Intelligence Studio

Este conteúdo se aplica a:marca de seleçãov4.0 (versão prévia) | Versões anteriores:marca de seleção azulv3.1 (disponibilidade geral)marca de seleção azulv3.0 (disponibilidade geral)

O Document Intelligence Studio é uma ferramenta online para explorar visualmente, entender e integrar recursos do serviço Document Intelligence em seus aplicativos. Você pode começar explorando os modelos pré-treinados com exemplos ou seus próprios documentos. Crie também projetos para construir modelos personalizados e referencie os modelos nos aplicativos usando o SDK do Python e outros guias de início rápido.

Pré-requisitos para novos usuários

Dica

Crie um recurso de serviços de IA do Azure se você planeja acessar vários serviços de IA do Azure em um único ponto de extremidade/chave. Somente para acesso ao Document Intelligence, crie um recurso do Document Intelligence. Observe que você precisará de um recurso de serviço único se pretende usar a autenticação do Microsoft Entra.

Atribuições de função do Azure

Para análise de documentos e modelos predefinidos, as atribuições de função a seguir são necessárias para cenários diferentes.

  • Basic
    • Usuário dos Serviços Cognitivos: você precisa dessa função para o recurso de Informação de Documentos ou serviços de IA do Azure entrar na página de análise.
  • Avançado
    • Colaborador: você precisa dessa função para criar grupo de recursos, serviço de Informação de Documentos ou recurso de serviços de IA do Azure.

Modelos

Os modelos predefinidos ajudam você a adicionar recursos do Document Intelligence aos seus aplicativos sem precisar criar, treinar e publicar seus próprios modelos. Há vários modelos predefinidos para escolher, cada um deles com o próprio conjunto de campos com suporte. O modelo a ser usado para a operação de análise depende do tipo de documento a ser analisado. Atualmente, o Document Intelligence tem suporte para os seguintes modelos predefinidos:

Análise de documentos

  • Layout: extrai texto, tabelas, marcas de seleção e informações de estrutura de documentos (PDF, TIFF) e imagens (JPG, PNG, BMP).
  • Leitura: extrai linhas de texto, palavras, localizações, idiomas detectados e estilo manuscrito, se detectado de documentos (PDF, TIFF) e imagens (JPG, PNG, BMP).

Predefinida

  • Fatura: extrai texto, marcas de seleção, tabelas, pares chave-valor e informações de chave de faturas.
  • Recibo: extrai informações de texto e chave de recibos.
  • Cartão de seguro de saúde: extraia informações sobre seguradora, membro, prescrição, número de grupo e outras informações-chave dos cartões de seguro de saúde dos EUA.
  • W-2: extrai informações de texto e chave de formulários de imposto W-2.
  • Documento de ID: extrai informações de texto e chave de carteiras de motorista e passaportes internacionais.

Personalizado

  • Modelos de extração personalizados: extraia informações de formulários e documentos com modelos de extração personalizados. Treine rapidamente um modelo rotulando apenas cinco documentos de exemplo.
  • Modelo de classificação personalizado: treina um classificador personalizado para distinguir entre os diferentes tipos de documentos nos seus aplicativos. Treine rapidamente um modelo com apenas duas classes e cinco exemplos por classe.

Depois de concluir os pré-requisitos, navegue até Documentos do Intelligence Studio.

  1. Selecione um recurso do serviço Document Intelligence na página inicial do Studio.

  2. Esta etapa é um processo único, a menos que você já tenha selecionado o recurso de serviço no uso anterior. Selecione a assinatura do Azure, grupo de recursos e o recurso. (você pode alterar os recursos a qualquer momento em "Configurações" no menu superior). Revise e confirme suas seleções.

  3. Selecione o botão Analisar para executar a análise no documento de exemplo ou experimente o documento usando o comando Add.

  4. Use os controles na parte inferior da tela para ampliar e reduzir e girar a exibição do documento.

  5. Observe o conteúdo extraído em destaque na exibição de documento. Posicione o cursor sobre as chaves e os valores para ver os detalhes.

  6. Na guia Resultado da seção de saída, procure a saída JSON para entender o formato de resposta do serviço.

  7. Na guia Código, navegue pelo código de exemplo para ver a integração. Copie e baixe para começar.

Pré-requisitos adicionais para projetos personalizados

Além da conta do Azure e de um recurso de serviços do Document Intelligence ou da IA do Azure, você precisa:

Contêiner do Armazenamento de Blob do Azure

O Desempenho Standard de uma conta de Armazenamento de Blobs do Azure. Você criará contêineres para armazenar e organizar seus documentos de treinamento na sua conta de armazenamento. Se você não sabe como criar uma conta de armazenamento do Azure com um contêiner, siga este início rápido:

  • Criar uma conta de armazenamento. Ao criar a conta de armazenamento, certifique-se de selecionar desempenho Padrão no campo Detalhes da instância → Desempenho.
  • Criar um contêiner. Ao criar o contêiner, defina o campo Nível de acesso público como Contêiner (acesso de leitura anônimo de contêineres e blobs) na janela Novo contêiner.

Atribuições de função do Azure

Para projetos personalizados, as atribuições de função a seguir são necessárias para cenários diferentes.

  • Basic
    • Usuário dos Serviços Cognitivos: você precisa dessa função para o recurso de Informação de Documentos ou serviços de IA do Azure para treinar o modelo personalizado ou fazer análises com modelos treinados.
    • Colaborador de dados de blob de armazenamento: você precisa dessa função para que a Conta de Armazenamento crie um projeto e rotule dados.
  • Avançado
    • Colaborador da Conta de Armazenamento: você precisa dessa função para que a Conta de Armazenamento defina as configurações do CORS (esse será um esforço único se a mesma conta de armazenamento for reutilizada).
    • Colaborador: você precisa dessa função para criar recursos e um grupo de recursos.

Configurar o CORS

O CORS (Cross Origin Resource Sharing) precisa ser configurado em sua conta de armazenamento do Azure para que ela possa ser acessado pelo Document Intelligence Studio. Para configurar o CORS no portal do Azure, você precisará de acesso à guia CORS da sua conta de armazenamento.

  1. Selecione a guia CORS da conta de armazenamento.

    Captura de tela do menu de configuração do CORS no portal do Azure.

  2. Comece criando uma entrada do CORS no serviço Blob.

  3. Defina Origens permitidas como https://documentintelligence.ai.azure.com.

    Captura de tela que mostra a configuração CORS para uma conta de armazenamento.

    Dica

    Você pode usar o caractere curinga '*' em vez de um domínio especificado para permitir que todos os domínios de origem façam solicitações por CORS.

  4. Selecione todas as oito opções disponíveis para Métodos permitidos.

  5. Aprove todos os Cabeçalhos permitidos e Cabeçalhos expostos inserindo um * em cada campo.

  6. Defina a Idade máxima como 120 segundos ou qualquer valor aceitável.

  7. Clique no botão salvar na parte superior da página para salvar as alterações.

O CORS agora deve ser configurado para usar a conta de armazenamento do Document Intelligence Studio.

Conjunto de documentos de exemplo

  1. Acesse o portal do Azure e navegue até Sua conta de armazenamento>Armazenamento de dados>Contêineres.

    Captura de tela do menu Armazenamento de dados no portal do Azure.

  2. Selecione um contêiner na lista.

  3. Selecione Upload no menu na parte superior da página.

    Captura de tela do botão de upload de contêiner no portal do Azure.

  4. A janela Carregar blob é exibida.

  5. Selecione os arquivos que serão carregados.

    Captura de tela da janela de upload de blob no portal do Azure.

Observação

Por padrão, o Studio utilizará os documentos que estão localizados na raiz do seu contêiner. No entanto, você pode usar dados organizados em pastas ao especificar o caminho da pasta na etapa de criação de projeto do formulário personalizado. ConsulteOrganizar os dados em subpastas

Modelos personalizados

Para criar modelos personalizados, comece configurando o projeto:

  1. Na home do estúdio, selecione o cartão modelo personalizado para abrir a página de modelos personalizados.

  2. Use o comando "Create a project" para iniciar o assistente de configuração do novo projeto.

  3. Insira os detalhes do projeto, selecione a assinatura e o recurso do Azure e o contêiner de Armazenamento de Blobs do Azure que contém seus dados.

  4. Examine e envie suas configurações para criar o projeto.

  5. Para iniciar rapidamente o processo de rotulagem, use o recurso de rótulo automático para rotular usando um modelo já treinado ou um dos nossos modelos predefinidos.

  6. Para rotulagem manual desde o início, defina os rótulos e seus tipos que você está interessado em extrair.

  7. Selecione o texto no documento e selecione o rótulo na lista suspensa ou no painel rótulos.

  8. Rotule mais quatro documentos para obter pelo menos cinco documentos rotulados.

  9. Selecione o comando Treinar e insira o nome do modelo, selecione se você quiser que o modelo neural (recomendado) ou modelo comece a treinar seu modelo personalizado.

  10. Quando o modelo estiver pronto, use o comando Test para validá-lo com seus documentos de teste e observe os resultados.

Demonstração do modelo personalizado do Document Intelligence

Rotulagem como tabelas

Observação

  • Com o lançamento das versões de API 2022-06-30-preview e posteriores, os modelos personalizados adicionarão suporte para campos tabulares entre páginas (tabelas).
  • Com o lançamento das versões de API 2022-06-30-preview e posteriores, os modelos neurais personalizados adicionarão suporte para campos tabulares (tabelas) e os modelos treinados com API versão 2022-08-31 ou posterior aceitarão rótulos de campo tabular.
  1. Usar o comando Delete para excluir os modelos que não são necessários.

  2. Baixar os detalhes do modelo para exibição offline.

  3. Selecionar vários modelos e os compor em um novo modelo a ser usado em seus aplicativos.

Usando tabelas como o padrão visual:

Nos modelos de formulário personalizados, ao criar seus modelos personalizados, talvez seja necessário extrair coleções de valores de seus documentos. As coleções de dados podem aparecer em alguns formatos. Usando tabelas como o padrão visual:

  • Uma contagem dinâmica ou variável de valores (linhas) para um determinado conjunto de campos (colunas)

  • Uma coleção específica de valores para um determinado conjunto de campos (colunas e/ou linhas)

Rotular como tabela dinâmica

Use tabelas dinâmicas para extrair a contagem variável de valores (linhas) para um determinado conjunto de campos (colunas):

  1. Adicione um rótulo do tipo "Tabela", selecione o tipo "Tabela dinâmica" e dê um nome ao rótulo.

  2. Adicione o número de colunas (campos) e linhas (para dados) de que você precisa.

  3. Selecione o texto em sua página e selecione a célula a atribuir ao texto. Repita para todas as linhas e colunas em todas as páginas em todos os documentos.

Exemplo de rotulagem do Document Intelligence como tabela dinâmica

Rotular como tabela fixa

Use tabelas fixas para extrair uma coleção específica de valores para um determinado conjunto de campos (colunas e/ou linhas):

  1. Crie um rótulo do tipo "Tabela", selecione o tipo "Tabela fixa" e dê um nome.

  2. Adicione o número de colunas e linhas de que você precisa correspondendo aos dois conjuntos de campos.

  3. Selecione o texto em sua página e selecione a célula a atribuir ao texto. Repita para outros documentos.

Exemplo de rotulagem do Document Intelligence como tabela fixa

Detecção de assinatura

Observação

Atualmente, há suporte somente para campos de assinatura de modelos de template personalizados. Ao treinar um modelo neural personalizado, os campos de assinatura rotulados são ignorados.

Rotulagem para detecção de assinatura: (somente formulário personalizado)

  1. No modo de exibição de rotulagem, crie um rótulo de tipo de "assinatura" e dê um nome a ele.

  2. Use o comando Region para criar uma região retangular na localização esperada da assinatura.

  3. Selecione a região desenhada e escolha o rótulo Tipo de assinatura para atribuí-lo à sua região desenhada. Repita para outros documentos.

Exemplo de rotulagem do Document Intelligence para detecção de assinaturas

Próximas etapas

Introdução ao Document Intelligence Studio.