OCR - reconhecimento óptico de caracteres

Artigo
10/20/2024

OCR ou Reconhecimento Óptico de Caracteres também é conhecido como reconhecimento de texto ou extração de texto. As técnicas de OCR baseadas em aprendizado de máquina permitem extrair textos manuscritos ou impressos de imagens como pôsteres, placas de rua e etiquetas de produtos, bem como de documentos como artigos, relatórios, formulários e faturas. Normalmente, o texto é extraído como palavras, linhas de texto e parágrafos ou blocos de texto, permitindo o acesso à versão digital do texto digitalizado. Isso elimina ou reduz significativamente a necessidade de entrada manual de dados.

Mecanismo OCR

O mecanismo OCR de Leitura da Microsoft é composto por vários modelos avançados baseados em machine learning que dão suporte a idiomas globais. Ele extrai texto impresso e manuscrito em vários idiomas, incluindo idiomas e estilos de escrita misturados. A Leitura está disponível como serviço de nuvem e contêiner local para oferecer flexibilidade de implantação. Também está disponível como uma API síncrona para cenários únicos, não documentais e somente de imagem, com melhorias de desempenho que facilitam a implementação de experiências de usuário assistidas por OCR.

Aviso

As operações API OCR legada do Azure AI Vision na v3.2 e API RecognizeText na v2.1 não são recomendadas para uso.

Edições de OCR (Leitura)

Importante

Selecione a edição de Leitura que melhor atenda aos seus requisitos.

Entrada	Exemplos	Edição de Leitura	Benefício
Imagens: gerais, na natureza	rótulos, placas de rua e cartazes	OCR para imagens (versão 4.0)	Otimizado para imagens gerais, não documentais, com uma API síncrona com desempenho aprimorado que facilita a incorporação de OCR nos cenários de experiência do usuário.
Documentos: digitais e digitalizados, incluindo imagens	livros, artigos e relatórios	Modelo de leitura da Informação de Documentos	Otimizado para documentos digitais e digitalizados contendo texto intenso com uma API assíncrona para ajudar a automatizar o processamento inteligente de documentos em escala.

Sobre o Read da GA do Visão de IA do Azure v3.2

Procurando o Read da GA mais recente do Visão de IA do Azure v3.2? Todos os aprimoramentos futuros do OCR de Leitura fazem parte dos dois serviços listados anteriormente. Não haverá mais atualizações para a Visão de IA do Azure v3.2. Para obter mais informações, confira Chamar a API de leitura da Visão de IA do Azure 3.2 GA e Início Rápido: leitura do Visão de IA do Azure v3.2 GA.

O Processamento Inteligente de Documentos (IDP) usa o OCR como sua tecnologia fundamental para extrair adicionalmente a estrutura, os relacionamentos, os valores-chave, as entidades e outros insights centrados em documentos com um serviço avançado de IA baseado em aprendizado de máquina, como a Informação de Documentos. A Informação de Documentos inclui uma versão otimizada para documentos do Read como seu mecanismo de OCR, ao mesmo tempo em que delega a outros modelos insights mais avançados. Se estiver extraindo textos de documentos digitalizados e digitais, utilize o OCR do Read do Informações de Documentos.

Como usar OCR

Experimente o OCR usando o Vision Studio. Então, siga um dos links para a edição Leitura que melhor atendam aos seus requisitos.

Experimentar o Vision Studio

Captura de tela: demonstração do OCR de Leitura no Vision Studio.

Idiomas compatíveis para OCR

Ambas as versões do Read disponíveis hoje no Visão de IA do Azure têm suporte a vários idiomas para texto impresso e manuscrito. O OCR para texto impresso inclui suporte para inglês, francês, alemão, italiano, português, espanhol, chinês, japonês, coreano, russo, árabe, híndi e outros idiomas internacionais que usam scripts latino, cirílico, árabe e devanágari. O OCR para texto manuscrito inclui suporte para os idiomas inglês, chinês simplificado, francês, alemão, italiano, japonês, coreano, português e espanhol.

Veja a lista completa de idiomas compatíveis com o OCR.

Recursos comuns do OCR

O modelo de OCR do Read está disponível no Visão de IA do Azure e na Informação de Documentos com recursos de linha de base comuns e otimizado para os respectivos cenários. A lista a seguir resume os recursos comuns:

Extração de texto impresso e manuscrito nos idiomas com suporte
Páginas, linhas de texto e palavras com pontuações de localização e confiança
Suporte para idiomas mistos, modo misto (impressão e manuscrito)
Disponível como um contêiner do Docker sem distro para implantação local

Use a APIs do OCR de nuvem ou a implantação local

As APIs de nuvem são a opção preferencial para a maioria dos clientes devido à facilidade de integração e produtividade rápida pronta para uso. O Azure e o serviço Visão de IA do Azure lidam com as necessidades de escala, desempenho, segurança de dados e conformidade, enquanto você se concentra em atender às necessidades de seus clientes.

Para implantação no local, o contêiner do Docker do Read permite implantar os recursos de OCR geralmente disponíveis do Visão de IA do Azure v3.2 no seu próprio ambiente local. Contêineres são excelentes para especificar requisitos de segurança e governança de dados.

Requisitos de entrada

A API Read usa imagens e documentos como entrada. As imagens e os documentos devem atender aos seguintes requisitos:

Os formatos de arquivo com suporte são JPEG, PNG, BMP, PDF e TIFF.
Para arquivos PDF e TIFF, até 2,000 mil páginas (apenas as duas primeiras páginas da camada gratuita) são processadas.
O tamanho do arquivo de imagens deve ter menos de 500 MB (4 MB para a camada gratuita) com dimensões de pelo menos 50 x 50 pixels e no máximo 10.000 x 10.000 pixels. Os arquivos PDF não têm um limite de tamanho.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem 1024 x 768, que corresponde a cerca de 8 pontos de texto de fonte a 150 DPI.

Observação

Não é necessário cortar uma imagem para linhas de texto. Envie a imagem inteira para a API de Leitura e ela reconhece todos os textos.

Dados de privacidade e segurança do OCR

Como em todos os serviços de IA do Azure, os desenvolvedores que usam o serviço do Visão de IA do Azure devem estar cientes das políticas da Microsoft sobre dados de clientes. Consulte a página de serviços de IA do Azure na Central de Confiabilidade da Microsoft para saber mais.

Próximas etapas

OCR para imagens gerais (não documentadas): experimente o início rápido da API REST de Análise de Imagens da versão preliminar do Visão de IA do Azure 4.0 .
OCR para documentos PDF, Office e HTML e imagens de documentos: comece com Read do Informações de Documentos.
Procurando a versão anterior de GA? Consulte os inícios rápidos do SDK de GA do Visão de IA do Azure 3.2 ou da API REST.

Compartilhar via

OCR - reconhecimento óptico de caracteres

Mecanismo OCR

Edições de OCR (Leitura)

Como usar OCR

Idiomas compatíveis para OCR

Recursos comuns do OCR

Use a APIs do OCR de nuvem ou a implantação local

Requisitos de entrada

Dados de privacidade e segurança do OCR

Próximas etapas

Comentários

Recursos adicionais

Compartilhar via

OCR - reconhecimento óptico de caracteres

Mecanismo OCR

Edições de OCR (Leitura)

Como o OCR está relacionado ao IDP ( Processamento de Documentos Inteligente)?

Como usar OCR

Idiomas compatíveis para OCR

Recursos comuns do OCR

Use a APIs do OCR de nuvem ou a implantação local

Requisitos de entrada

Dados de privacidade e segurança do OCR

Próximas etapas

Comentários

Recursos adicionais