Modelo de documento de ID do Document Intelligence

Importante

  • As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
  • Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
  • A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a versão 2024-02-29-preview.
  • A versão de pré-visualização pública 2024-02-29-preview está atualmente disponível apenas nas seguintes regiões do Azure:
  • E.U.A. Leste
  • Oeste dos EUA2
  • Europa Ocidental

Este conteúdo aplica-se a:marca de verificaçãov4.0 (pré-visualização) | Versões anteriores:Marca de verificação azulv3.1 (GA)Marca de verificação azulv3.0 (GA)Marca de verificação azulv2.1 (GA)

Este conteúdo aplica-se a:marca de verificaçãov3.1 (GA) | Última versão:marca de verificação roxav4.0 (visualização) | Versões anteriores:Marca de verificação azulv3.0Marca de verificação azulv2.1

Este conteúdo aplica-se a:marca de verificaçãov3.0 (GA) | Últimas versões:marca de verificação roxav4.0 (preview)marca de verificação roxav3.1 | Versão anterior:Marca de verificação azulv2.1

Este conteúdo aplica-se a:marca de verificaçãov2.1 | Última versão:Marca de verificação azulv4.0 (pré-visualização)

O modelo de documento de identidade (ID) de inteligência de documentos combina reconhecimento ótico de caracteres (OCR) com modelos de aprendizagem profunda para analisar e extrair informações importantes de documentos de identidade. A API analisa documentos de identidade (incluindo os seguintes) e retorna uma representação de dados JSON estruturada:

  • Livro de passaporte, cartão de passaporte em todo o mundo
  • Carteira de motorista dos Estados Unidos, Europa, Índia, Canadá e Austrália
  • Cartões de identificação dos Estados Unidos, autorização de residência (green card), cartão de segurança social, identificação militar
  • Cartões de identificação europeus, autorizações de residência
  • Cartão PAN da Índia, cartão Aadhaar
  • Cartões de identificação do Canadá, autorização de residência (cartão de bordo)
  • Cartão com fotografia da Austrália, documento de identificação (incluindo a versão digital)

O Document Intelligence pode analisar e extrair informações de documentos de identificação (IDs) emitidos pelo governo usando seu modelo de IDs pré-construído. Ele combina nossos poderosos recursos de Reconhecimento Ótico de Caracteres (OCR) com recursos de reconhecimento de ID para extrair informações importantes de Passaportes Mundiais e Carteiras de Motorista dos EUA (todos os 50 estados e DC). A API IDs extrai informações importantes desses documentos de identidade, como nome, sobrenome, data de nascimento, número do documento e muito mais. Esta API está disponível no Document Intelligence v2.1 como um serviço de nuvem.

Processamento de documentos de identidade

O processamento de documentos de identidade envolve a extração de dados de documentos de identidade manualmente ou usando tecnologia baseada em OCR. O processamento de documentos de identificação é uma etapa importante em qualquer operação comercial que exija prova de identidade. Os exemplos incluem verificação de clientes em bancos e outras instituições financeiras, pedidos de hipoteca, consultas médicas, processamento de sinistros, indústria hoteleira e muito mais. Os indivíduos fornecem alguma prova de sua identidade por meio de carteiras de motorista, passaportes e outros documentos semelhantes para que a empresa possa verificá-los de forma eficiente antes de fornecer serviços e benefícios.

Exemplo de Carteira de Motorista dos EUA processada com o Document Intelligence Studio

Imagem de uma amostra de carta de condução.

Extração de dados

O serviço de IDs pré-construído extrai os valores-chave de passaportes mundiais e carteiras de motorista dos EUA e os retorna em uma resposta JSON estruturada organizada.

Exemplo de carta de condução

Exemplo de Carteira de Motorista

Exemplo de passaporte

Amostra de passaporte

Opções de desenvolvimento

O Document Intelligence v4.0 (2024-02-29-preview, 2023-10-31-preview) suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos Model ID
Modelo de documento de identificação • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicativos e bibliotecas:

Caraterística Recursos Model ID
Modelo de documento de identificação • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos Model ID
Modelo de documento de identificação • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos
Modelo de documento de identificação • Ferramenta
de etiquetagem de Inteligência Documental• API REST
SDK
de biblioteca cliente• Contêiner Docker de Inteligência Documental

Requisitos de entrada

  • Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

  • Formatos de ficheiro suportados:

    Modelo PDF Imagem:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTML
    Lida
    Esquema ✔ (2024-02-29-pré-visualização, 2023-10-31-pré-visualização)
    Documento Geral
    Pré-criado
    Extração personalizada
    Classificação personalizada ✔ (2024-02-29-pré-visualização)
  • Para PDF e TIFF, até 2000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).

  • O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.

  • Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a texto de cerca 8de -ponto a 150 pontos por polegada (DPI).

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

    • Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.

    • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB de no máximo 10.000 páginas.

  • Formatos de ficheiro suportados: JPEG, PNG, PDF e TIFF.

  • Número de páginas suportado para ficheiros PDF e TIFF: até 2.000 páginas ou apenas as duas primeiras páginas para subscritores gratuitos.

  • Tamanho do ficheiro suportado: menos de 50 MB TOTAL; Pixels mínimos: 50 x 50 px; máximo de pixels 10.000 x 10.000 px.

Extração de dados do modelo de documento de identificação

Extraia dados, incluindo nome, data de nascimento e data de validade, de documentos de identificação. Você precisa dos seguintes recursos:

  • Uma assinatura do Azure — você pode criar uma gratuitamente.

  • Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.

Captura de ecrã das chaves e da localização do ponto de extremidade no portal do Azure.

Nota

O Document Intelligence Studio está disponível com APIs v3.1 e v3.0 e versões posteriores.

  1. Na home page do Document Intelligence Studio, selecione Documentos de identidade.

  2. Você pode analisar a fatura de amostra ou fazer upload de seus próprios arquivos.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar:

    Captura de tela dos botões Executar análise e Analisar opções no Document Intelligence Studio.

Ferramenta de etiquetagem de exemplo de inteligência de documentos

  1. Navegue até a Ferramenta de Exemplo de Inteligência de Documentos.

  2. Na página inicial da ferramenta de exemplo, selecione o bloco Usar modelo pré-criado para obter dados .

    Captura de tela do modelo de layout analisar a operação de resultados.

  3. Selecione o Tipo de formulário a ser analisado no menu suspenso.

  4. Escolha um URL para o arquivo que você gostaria de analisar a partir das opções abaixo:

  5. No campo Origem, selecione URL no menu suspenso, cole o URL selecionado e selecione o botão Buscar.

    Captura de ecrã do menu pendente da localização de origem.

  6. No campo Ponto de extremidade do serviço de Inteligência Documental, cole o ponto de extremidade obtido com sua assinatura do Document Intelligence.

  7. No campo chave, cole a chave obtida do recurso Document Intelligence.

    Captura de ecrã do menu pendente selecionar tipo de documento.

  8. Selecione Executar análise. A ferramenta Document Intelligence Sample Labeling chama a API Analyze Prebuilt e analisa o documento.

  9. Exibir os resultados - veja os pares chave-valor extraídos, itens de linha, texto realçado extraído e tabelas detetadas.

    Captura de tela da operação de análise de resultados do modelo de identidade.

  10. Baixe o arquivo de saída JSON para visualizar os resultados detalhados.

    • O nó "readResults" contém todas as linhas de texto com seu respetivo posicionamento de caixa delimitadora na página.
    • O nó "selectionMarks" mostra cada marca de seleção (caixa de seleção, marca de rádio) e se seu status está selecionado ou desmarcado.
    • A seção "pageResults" inclui as tabelas extraídas. Para cada tabela, o Document Intelligence extrai o índice de texto, linha e coluna, a abrangência de linhas e colunas, a caixa delimitadora e muito mais.
    • O campo "documentResults" contém informações de pares chave/valor e informações de itens de linha para as partes mais relevantes do documento.

Nota

A ferramenta Exemplo de etiquetagem não suporta o formato de ficheiro BMP. Esta é uma limitação da ferramenta e não do Serviço de Inteligência Documental.

Tipos de documentos suportados

País/Região Tipos de documentos
Mundial Livro de Passaporte, Cartão de Passaporte
Estados Unidos da América Carta de Condução, Bilhete de Identidade, Autorização de Residência (Green card), Cartão de Segurança Social, Bilhete de Identidade Militar
Europa Carta de Condução, Bilhete de Identidade, Autorização de Residência
Índia Carta de Condução, Cartão PAN, Cartão Aadhaar
Canadá Carta de Condução, Bilhete de Identidade, Autorização de Residência (Maple Card)
Austrália Carta de Condução, Cartão com Fotografia, Key-pass ID (incluindo versão digital)

Extrações de campo

A seguir estão os campos extraídos por tipo de documento. O modelo prebuilt-idDocument de ID do Document Intelligence extrai os seguintes campos no documents.*.fields. A saída json inclui todo o texto extraído nos documentos, palavras, linhas e estilos.

idDocument.driverLicense

Campo Tipo Description Exemplo
CountryRegion countryRegion Código do país ou região EUA
Region string Distrito Washington
DocumentNumber string Número da carta de condução WDLABCD456DG
DocumentDiscriminator string Discriminador de documentos de carteira de motorista 12645646464554646456464544
FirstName string Nome próprio e inicial do meio, se aplicável LIAM R.
LastName string Apelido TALBOT
Address address Endereço 123 ENDEREÇO YOUR CITY WA 99999-1234
DateOfBirth date Data de nascimento 01/06/1958
DateOfExpiration date Data de expiração 08/12/2020
DateOfIssue date Data de emissão 08/12/2012
EyeColor string Cor dos olhos Azul
HairColor string Cor do cabelo Castanho
Height string Height 5'11"
Weight string Espessura 185LB
Sex string Sexo Seg
Endorsements string Endossamentos L
Restrictions string Restrições N
VehicleClassifications string Classificação dos veículos D

idDocument.passport

Campo Tipo Description Exemplo
DocumentNumber string Número de passaporte 340020013
FirstName string Nome próprio e inicial do meio, se aplicável JENNIFER
MiddleName string Nome entre nome próprio e apelido REYES
LastName string Apelido RIBEIROS
Aliases array
Aliases.* string Também conhecido como MAT LIN
DateOfBirth date Data de nascimento 1980-01-01
DateOfExpiration date Data de expiração 2019-05-05
DateOfIssue date Data de emissão 2014-05-06
Sex string Sexo F
CountryRegion countryRegion País ou organização emissor EUA
DocumentType string Document type P
Nationality countryRegion Nacionalidade EUA
PlaceOfBirth string Local de nascimento MASSACHUSETTS, E.U.A.
PlaceOfIssue string Local de emissão LISBOA
IssuingAuthority string Autoridade emissora Departamento de Estado dos Estados Unidos
PersonalNumber string Identificação pessoal. N.º A234567893
MachineReadableZone object Zona de leitura ótica (ZMR) P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816
MachineReadableZone.FirstName string Nome próprio e inicial do meio, se aplicável JENNIFER
MachineReadableZone.LastName string Apelido RIBEIROS
MachineReadableZone.DocumentNumber string Número de passaporte 340020013
MachineReadableZone.CountryRegion countryRegion País ou organização emissor EUA
MachineReadableZone.Nationality countryRegion Nacionalidade EUA
MachineReadableZone.DateOfBirth date Data de nascimento 1980-01-01
MachineReadableZone.DateOfExpiration date Data de expiração 2019-05-05
MachineReadableZone.Sex string Sexo F

idDocument.nationalIdentityCard

Campo Tipo Description Exemplo
CountryRegion countryRegion Código do país ou região EUA
Region string Distrito Washington
DocumentNumber string Número do bilhete de identidade nacional WDLABCD456DG
DocumentDiscriminator string Discriminador do documento do bilhete de identidade nacional 12645646464554646456464544
FirstName string Nome próprio e inicial do meio, se aplicável LIAM R.
LastName string Apelido TALBOT
Address address Endereço 123 ENDEREÇO YOUR CITY WA 99999-1234
DateOfBirth date Data de nascimento 01/06/1958
DateOfExpiration date Data de expiração 08/12/2020
DateOfIssue date Data de emissão 08/12/2012
EyeColor string Cor dos olhos AZUL
HairColor string Cor do cabelo CASTANHO
Height string Height 5'11"
Weight string Espessura 185LB
Sex string Sexo Seg

idDocument.residencePermit

Campo Tipo Description Exemplo
CountryRegion countryRegion Código do país ou região EUA
DocumentNumber string Número da autorização de residência WDLABCD456DG
FirstName string Nome próprio e inicial do meio, se aplicável LIAM R.
LastName string Apelido TALBOT
DateOfBirth date Data de nascimento 01/06/1958
DateOfExpiration date Data de expiração 08/12/2020
DateOfIssue date Data de emissão 08/12/2012
Sex string Sexo Seg
PlaceOfBirth string Local de nascimento Alemanha
Category string Categoria de licença DV2
Address string Endereço 123 ENDEREÇO YOUR CITY WA 99999-1234

idDocument.usSocialSecurityCard

Campo Tipo Description Exemplo
DocumentNumber string Número do cartão de segurança social WDLABCD456DG
FirstName string Nome próprio e inicial do meio, se aplicável LIAM R.
LastName string Apelido TALBOT
DateOfIssue date Data de emissão 08/12/2012

idDocument

Campo Tipo Description Exemplo
Address address Endereço 123 ENDEREÇO YOUR CITY WA 99999-1234
DocumentNumber string Número da carta de condução WDLABCD456DG
FirstName string Nome próprio e inicial do meio, se aplicável LIAM R.
LastName string Apelido TALBOT
DateOfBirth date Data de nascimento 01/06/1958
DateOfExpiration date Data de expiração 08/12/2020

Tipos de documentos suportados

O modelo de documento de identificação atualmente suporta carteiras de motorista dos EUA e a página biográfica da extração de passaportes internacionais (excluindo vistos e outros documentos de viagem).

Campos extraídos

Nome Tipo Description valor
Country país/região Código do país em conformidade com a norma ISO 3166 "EUA"
Data de Nascimento data Data de nascimento no formato AAAA-MM-DD "1980-01-01"
DatadeExpiração data Data de validade no formato AAAA-MM-DD "2019-05-05"
Número do documento string Número de passaporte relevante, número da carta de condução, etc. "340020013"
FirstName string Nome próprio extraído e inicial do meio, se aplicável "JENNIFER"
LastName string Apelido extraído "RIBEIRO"
Nacionalidade país/região Código do país em conformidade com a norma ISO 3166 "EUA"
Sexo sexo Os possíveis valores extraídos incluem "M", "F", "X" "F"
MachineReadableZone objeto Passaporte MRZ extraído, incluindo duas linhas de 44 caracteres cada "P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816"
DocumentType string Tipo de documento, por exemplo, Passaporte, Carta de Condução "passaporte"
Endereço string Endereço extraído (apenas Carta de Condução) "123 ENDEREÇO SUA CIDADE WA 99999-1234"
País/Região string Região, estado, província, etc. extraídos (apenas Carta de Condução) "Washington"

Guia de migração

  • Siga nosso guia de migração do Document Intelligence v3.1 para saber como usar a versão v3.0 em seus aplicativos e fluxos de trabalho.

Próximos passos

  • Tente processar seus próprios formulários e documentos com a ferramenta Document Intelligence Sample Labeling.

  • Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.