Modelo de contrato da Informação de Documentos

Importante

  • As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo.
  • Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
  • A versão prévia pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-02-29-preview.
  • Atualmente, a versão prévia pública 2024-02-29-preview só está disponível nas seguintes regiões do Azure:
  • Leste dos EUA
  • Oeste dos EUA 2
  • Oeste da Europa

Este conteúdo se aplica a:marca de seleçãov4.0 (versão prévia) | Versões anteriores:marca de seleção azulv3.1 (GA)

Este conteúdo se aplica a:marca de seleçãov3.1(disponibilidade geral) | Versão mais recente:marca de seleção roxav4.0 (versão prévia)

O modelo de contrato da Informação de Documentos usa recursos poderosos de Reconhecimento Óptico de Caracteres (OCR) para analisar e extrair campos-chave e itens de linha de um grupo seleto de entidades de contrato importantes. Os contratos podem ter uma variedade de formatos e qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e PDFs digitais. A API analisa o texto do documento; extrai informações importantes, como Partes, Jurisdições, ID do Contrato e Título; e retorna uma representação de dados JSON estruturada. Atualmente, o modelo dá suporte a formatos de documento em inglês.

Processamento automatizado de contratos

O processamento automatizado de contratos é o processo de extração de campos-chave de documentos. Historicamente, o processo de análise de contratos é alcançado manualmente e, portanto, consome muito tempo. A extração exata de dados-chave dos contratos normalmente é a primeira e uma das etapas mais críticas no processo de automação de contratos.

Opções de desenvolvimento

Informação de Documentos v4.0 (versão prévia de 29/02/2024) oferece suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos ID do Modelo
Modelo de contrato Estúdio da Informação de Documentos
API REST
SDK do C#
SDK do Python
SDK do Java
SDK do JavaScript
prebuilt-contract

A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos ID do Modelo
Modelo de contrato Estúdio da Informação de Documentos
API REST
SDK do C#
SDK do Python
SDK do Java
SDK do JavaScript
prebuilt-contract

A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos ID do Modelo
Modelo de contrato Estúdio da Informação de Documentos
API REST
SDK do C#
SDK do Python
SDK do Java
SDK do JavaScript
prebuilt-contract

Requisitos de entrada

  • Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.

  • Formatos de arquivo com suporte:

    Modelar PDF Imagem:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTML
    Ler
    Layout ✔ (2024-02-29-preview, 2023-10-31-preview)
    Documento geral
    Predefinida
    Extração personalizada
    Classificação personalizada ✔ (2024-02-29-preview)
  • Para PDF e TIFF, até 2000 páginas podem ser processadas (com uma assinatura de camada gratuita, somente as duas primeiras páginas são processadas).

  • O tamanho do arquivo para análise de documentos é 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.

  • Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a um texto de cerca de 8 pontos a 150 pontos por polegada (DPI).

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

    • Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo e 1G-MB para o modelo neural.

    • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB com no máximo 10.000 páginas.

Experimente a extração de dados do documento do contrato

Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos dos contratos. Você precisa dos seguintes recursos:

  • Uma assinatura do Azure — você pode criar uma gratuitamente.

  • Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.

Captura de tela da localização das chaves e do ponto de extremidade no portal do Azure.

Estúdio de Informação de Documentos

  1. Na página inicial do Estúdio de Informação de Documentos, selecione Documentos Fiscais.

  2. Você pode analisar os documentos fiscais de amostra ou carregar seus próprios arquivos.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar :

    Captura de tela dos botões de opções Executar análise e Analisar no Document Intelligence Studio.

Idiomas e localidades com suporte

Confira nossa página Suporte ao idioma – modelos predefinidos, para obter uma lista completa dos idiomas compatíveis.

Extração de campo

A seguir estão os campos extraídos de um contrato na resposta de saída JSON.

Nome Tipo Descrição Saída de exemplo
Tĩtulo String Título do contrato Contrato de serviço
ContractId String Título do contrato AB12956
Partes Array Lista de partes
ExecutionDate Data Data em que o contrato foi totalmente assinado e acordado entre todas as partes On this twenty-third day of February two thousand and twenty two
ExpirationDate Data Data em que o contrato deixa de estar em vigor Um ano
RenewalDate Data Data em que o contrato precisa ser renovado On this twenty-third day of February two thousand and twenty two
Jurisdições Array Lista de jurisdições

Os pares de chave-valor do contrato e os itens de linha extraídos estão na seção documentResults da saída JSON.

Próximas etapas