Utilizar modelos pré-construídos

Concluído

Tip

Consulte a guia Texto e imagens para obter mais detalhes!

Modelos pré-construídos no Azure Document Intelligence permitem-lhe extrair dados de tipos de formulários comuns sem treinar os seus próprios modelos. A Microsoft treina estes modelos em grandes quantidades de documentos de exemplo, pelo que pode esperar resultados precisos e fiáveis para tipos de documentos padrão.

Modelos de análise de documentos

Antes de olhar para os modelos pré-construídos específicos de cada domínio, é importante compreender os modelos de análise documental que os sustentam.

Ler modelo

O modelo lido extrai texto impresso e manuscrito de documentos e imagens. Deteta a linguagem de cada linha de texto e classifica se o texto é manuscrito ou impresso. O modelo de leitura é usado como base para extração de texto em todos os outros modelos de Inteligência de Documentos.

Para ficheiros PDF ou TIFF de várias páginas, pode usar o pages parâmetro no seu pedido para especificar um intervalo de páginas para análise.

O modelo de leitura é ideal quando se quer extrair palavras e linhas de documentos sem uma estrutura fixa ou previsível.

Captura de ecrã mostrando o modelo de leitura a analisar um documento de exemplo no Document Intelligence Studio.

Modelo de layout

O modelo de layout estende a extração de texto do modelo lido com a deteção de marcas de seleção, tabelas e informação sobre a estrutura do documento. Também suporta uma funcionalidade opcional keyValuePairs para extrair pares chave-valor.

Quando digitaliza um documento, ele pode estar numa posição inclinada, ou as tabelas podem apresentar estruturas complexas com células mescladas ou linhas incompletas. O modelo de layout consegue lidar com estas dificuldades. Cada célula da tabela é extraída com o seu conteúdo, posição da caixa delimitadora e índices de linhas/colunas.

As marcas de seleção (caixas de seleção e botões de opção) são extraídas com a sua caixa de delimitação, nível de confiança e estado de seleção.

Captura de ecrã mostrando o modelo de layout a extrair tabelas e estrutura de um documento de exemplo no Document Intelligence Studio.

Observação

O modelo geral de documentos estava disponível em versões anteriores do Document Intelligence, mas foi obsoleto na 2023-10-31-preview versão anterior. A sua função para a extração de pares de chave-valor e entidades foi incorporada no modelo de layout e em outras funcionalidades.

Modelos pré-construídos para tipos específicos de documentos

O Azure Document Intelligence inclui modelos pré-construídos treinados em tipos específicos de documentos. Os seguintes modelos pré-construídos são alguns exemplos disponíveis para extrair campos de documentos empresariais comuns:

Modelo Descrição
Fatura Extrai o nome do cliente, detalhes do fornecedor, número da encomenda de compra, fatura e datas de vencimento, endereços de faturação e envio, itens de linha e totais.
Recibo Extrai detalhes do comerciante, data e hora da transação, itens de linha e totais. Suporta processamento de recibos de hotel de página única.
Extrato bancário Extrai informações da conta, saldos iniciais e finais, e detalhes das transações.
Verificar Extrai o beneficiário, montante, data e outras informações relevantes.
Esboço de pagamento Extrai valores salariais, horas, deduções, valor líquido e outros campos comuns da folha de pagamento.
Cartão de crédito Extrai informações de cartões de pagamento.
Contrato Extrai o acordo e as informações sobre as partes.

Documentos fiscais dos EUA

Modelo Descrição
Imposto unificado nos EUA Um único modelo que extrai de qualquer tipo de formulário fiscal dos EUA suportado.
W-2 Extrai detalhes de compensação tributável.
1098 e variações Extrai os juros da hipoteca e os detalhes correlacionados.
1099 e variações Extrai rendimento de várias fontes.
1040 e variações Extrai detalhes da declaração de imposto de rendimento individual.

Documentos de hipoteca dos EUA

Modelo Descrição
1003 (URLA) Extrai os detalhes da solicitação de empréstimo.
1004 (URAR) Extrai informações das avaliações de propriedades.
1005 Extrai informações de validação de emprego.
1008 Extrai detalhes da transmissão do empréstimo.
Divulgação final Extrai os termos finais do empréstimo no seu encerramento.

Documentos de identificação pessoal

Modelo Descrição
Documento de identificação Extrai detalhes de cartas de condução dos EUA, cartões de identificação da União Europeia, cartas de condução da União Europeia e passaportes internacionais. Inclui nomes, datas de nascimento, números de documentos e endossos ou restrições.
Cartão de seguro de doença Extrai campos comuns dos cartões de seguro de saúde dos EUA.
Certidão de casamento Extrai informações certificadas de casamento.

Importante

O modelo de documento de identificação extrai informações pessoais abrangidas pelas leis de proteção de dados na maioria das jurisdições. Certifique-se de que tem a permissão do indivíduo para armazenar os seus dados e que cumpre todos os requisitos legais aplicáveis.

Características dos modelos pré-construídos

Modelos pré-construídos são concebidos para extrair diferentes tipos de dados de documentos. Estas funcionalidades incluem:

  • Extração de texto: Todos os modelos pré-construídos extraem linhas e palavras de texto manuscrito e impresso.
  • Pares-chave-valor: Trechos de texto que identificam um rótulo e a sua resposta. Por exemplo, peso e 31 kg.
  • Marcas de seleção: Caixas de seleção e botões de opção, incluindo se estão selecionados ou não.
  • Tabelas: Dados em células, incluindo o número de colunas e linhas, cabeçalhos de colunas e linhas, e células fundidas.
  • Campos: Modelos treinados para um tipo de forma específico identificam um conjunto fixo de campos. Por exemplo, o modelo de faturação extrai CustomerName e InvoiceTotal.

Quando usar modelos pré-montados vs. modelos personalizados

Os modelos pré-construídos abrangem os tipos de documentos mais comuns. Se tiver um tipo de formulário específico ou único, poderá obter resultados mais precisos com um modelo personalizado. No entanto, modelos personalizados requerem tempo e dados de amostra para serem treinados. Verifique sempre se existe um modelo pré-construído para o seu cenário antes de investir no desenvolvimento personalizado de modelos.

Mais informações