OCR - reconhecimento óptico de caracteres

OCR ou Reconhecimento Óptico de Caracteres também é conhecido como reconhecimento de texto ou extração de texto. As técnicas de OCR baseadas em aprendizado de máquina permitem extrair textos manuscritos ou impressos de imagens como pôsteres, placas de rua e etiquetas de produtos, bem como de documentos como artigos, relatórios, formulários e faturas. Normalmente, o texto é extraído como palavras, linhas de texto e parágrafos ou blocos de texto, permitindo o acesso à versão digital do texto digitalizado. Isso elimina ou reduz significativamente a necessidade de entrada manual de dados.

O IDP (Processamento de Documentos Inteligente) usa o OCR como a tecnologia fundamental para extrair adicionalmente estrutura, relações, valores-chave, entidades e outros insights centrados em documentos com um serviço avançado de IA baseado em aprendizado de máquina, como o Reconhecimento de Formulários. O Reconhecimento de Formulários inclui uma versão com otimização de documentos de Leitura como o mecanismo OCR, enquanto delega a outros modelos os insights de alto nível. Se você estiver extraindo texto de documentos digitalizados e digitais, use OCR de Leitura do Reconhecimento de Formulários.

Mecanismo OCR

O mecanismo OCR de Leitura da Microsoft é composto por vários modelos avançados baseados em machine learning que dão suporte a idiomas globais. Isso permite extrair o texto impresso e manuscrito em vários idiomas, incluindo idiomas e estilos de escrita misturados. A Leitura está disponível como serviço de nuvem e contêiner local para oferecer flexibilidade de implantação. Com a versão prévia mais recente, está disponível também como API síncrona para cenários individuais, não relacionados a documentos e somente para imagens com aprimoramentos de desempenho que facilitam a implementação de experiências de usuário assistidas por OCR.

Aviso

As operações ocr e RecognizeText da Pesquisa Visual Computacional legada não são mais compatíveis e não devem ser usadas.

Edições de OCR (leitura)

Importante

Selecione a edição de Leitura que melhor atenda aos seus requisitos.

Entrada Exemplos Edição de Leitura Benefício
Imagens: gerais, na natureza rótulos, placas de rua e cartazes Versão prévia da Pesquisa Visual Computacional v4.0 Otimizado para imagens gerais, não documentais, com uma API síncrona com desempenho aprimorado que facilita a incorporação de OCR nos cenários de experiência do usuário.
Documentos: digitais e digitalizados, incluindo imagens livros, artigos e relatórios Reconhecimento de Formulários Otimizado para documentos digitais e digitalizados contendo texto intenso com uma API assíncrona para ajudar a automatizar o processamento inteligente de documentos em escala.

Sobre a Leitura de GA da Pesquisa Visual Computacional v3.2

Procurando a Leitura de GA da Pesquisa Visual Computacional v3.2 mais recente? Observe que todos os futuros aprimoramentos de OCR de Leitura farão parte dos dois novos serviços listados acima. Não haverá mais atualizações para a Pesquisa Visual Computacional v3.2. Para continuar, confira a visão geral e o início rápido da GA da Pesquisa Visual Computacional v3.2 Leitura.

Como usar OCR

Experimente o OCR usando o Vision Studio. Então, siga um dos links para a edição Leitura nas seções posteriores que melhor atendam aos seus requisitos.

Captura de tela: demonstração do OCR de Leitura no Vision Studio.

Idiomas compatíveis para OCR

Ambas as versões de Leitura disponíveis atualmente na Pesquisa Visual Computacional dão suporte a vários idiomas para texto impresso e manuscrito. O OCR para texto impresso inclui suporte para inglês, francês, alemão, italiano, português, espanhol, chinês, japonês, coreano, russo, árabe, híndi e outros idiomas internacionais que usam scripts latino, cirílico, árabe e devanágari. O OCR para texto manuscrito inclui suporte para os idiomas inglês, chinês simplificado, francês, alemão, italiano, japonês, coreano, português e espanhol.

Veja a lista completa de idiomas compatíveis com o OCR.

Recursos comuns do OCR

O modelo de OCR de Leitura está disponível na Pesquisa Visual Computacional e no Reconhecimento de Formulários com recursos comuns de linha de base, enquanto é otimizado para os respectivos cenários. A lista a seguir resume os recursos comuns:

  • Extração de texto impresso e manuscrito nos idiomas com suporte
  • Páginas, linhas de texto e palavras com pontuações de localização e confiança
  • Suporte para idiomas mistos, modo misto (impressão e manuscrito)
  • Disponível como um contêiner do Docker sem distro para implantação local

Use a APIs do OCR de nuvem ou a implantação local

As APIs de nuvem são a opção preferencial para a maioria dos clientes devido à facilidade de integração e produtividade rápida pronta para uso. O Azure e o serviço de Pesquisa Visual Computacional cuidam das necessidades de escala, desempenho, segurança de dados e conformidade enquanto você se concentra em atender às necessidades dos seus clientes.

Para a implantação local, o contêiner do Docker de Leitura (versão prévia) permite que você implante as funcionalidades de OCR com disponibilidade geral da Pesquisa Visual Computacional v3.2 no seu próprio ambiente local. Contêineres são excelentes para especificar requisitos de segurança e governança de dados.

Dados de privacidade e segurança do OCR

Assim como ocorre com todos os Serviços Cognitivos, os desenvolvedores que usam o serviço de Pesquisa Visual Computacional devem estar cientes das políticas da Microsoft em relação aos dados do cliente. Confira a página de Serviços Cognitivos na Central de Confiabilidade da Microsoft para saber mais.

Próximas etapas