OCR - reconhecimento óptico de caracteres
OCR ou Reconhecimento Óptico de Caracteres também é conhecido como reconhecimento de texto ou extração de texto. As técnicas de OCR baseadas em aprendizado de máquina permitem extrair textos manuscritos ou impressos de imagens como pôsteres, placas de rua e etiquetas de produtos, bem como de documentos como artigos, relatórios, formulários e faturas. Normalmente, o texto é extraído como palavras, linhas de texto e parágrafos ou blocos de texto, permitindo o acesso à versão digital do texto digitalizado. Isso elimina ou reduz significativamente a necessidade de entrada manual de dados.
Mecanismo OCR
O mecanismo OCR de Leitura da Microsoft é composto por vários modelos avançados baseados em machine learning que dão suporte a idiomas globais. Ele extrai texto impresso e manuscrito em vários idiomas, incluindo idiomas e estilos de escrita misturados. A Leitura está disponível como serviço de nuvem e contêiner local para oferecer flexibilidade de implantação. Também está disponível como uma API síncrona para cenários únicos, não documentais e somente de imagem, com melhorias de desempenho que facilitam a implementação de experiências de usuário assistidas por OCR.
Aviso
As operações API OCR legada do Azure AI Vision na v3.2 e API RecognizeText na v2.1 não são recomendadas para uso.
Edições de OCR (Leitura)
Importante
Selecione a edição de Leitura que melhor atenda aos seus requisitos.
Entrada | Exemplos | Edição de Leitura | Benefício |
---|---|---|---|
Imagens: gerais, na natureza | rótulos, placas de rua e cartazes | OCR para imagens (versão 4.0) | Otimizado para imagens gerais, não documentais, com uma API síncrona com desempenho aprimorado que facilita a incorporação de OCR nos cenários de experiência do usuário. |
Documentos: digitais e digitalizados, incluindo imagens | livros, artigos e relatórios | Modelo de leitura da Informação de Documentos | Otimizado para documentos digitais e digitalizados contendo texto intenso com uma API assíncrona para ajudar a automatizar o processamento inteligente de documentos em escala. |
Sobre o Read da GA do Visão de IA do Azure v3.2
Procurando o Read da GA mais recente do Visão de IA do Azure v3.2? Todos os aprimoramentos futuros do OCR de Leitura fazem parte dos dois serviços listados anteriormente. Não haverá mais atualizações para a Visão de IA do Azure v3.2. Para obter mais informações, confira Chamar a API de leitura da Visão de IA do Azure 3.2 GA e Início Rápido: leitura do Visão de IA do Azure v3.2 GA.
Como o OCR está relacionado ao IDP ( Processamento de Documentos Inteligente)?
O Processamento Inteligente de Documentos (IDP) usa o OCR como sua tecnologia fundamental para extrair adicionalmente a estrutura, os relacionamentos, os valores-chave, as entidades e outros insights centrados em documentos com um serviço avançado de IA baseado em aprendizado de máquina, como a Informação de Documentos. A Informação de Documentos inclui uma versão otimizada para documentos do Read como seu mecanismo de OCR, ao mesmo tempo em que delega a outros modelos insights mais avançados. Se estiver extraindo textos de documentos digitalizados e digitais, utilize o OCR do Read do Informações de Documentos.
Como usar OCR
Experimente o OCR usando o Vision Studio. Então, siga um dos links para a edição Leitura que melhor atendam aos seus requisitos.
Idiomas compatíveis para OCR
Ambas as versões do Read disponíveis hoje no Visão de IA do Azure têm suporte a vários idiomas para texto impresso e manuscrito. O OCR para texto impresso inclui suporte para inglês, francês, alemão, italiano, português, espanhol, chinês, japonês, coreano, russo, árabe, híndi e outros idiomas internacionais que usam scripts latino, cirílico, árabe e devanágari. O OCR para texto manuscrito inclui suporte para os idiomas inglês, chinês simplificado, francês, alemão, italiano, japonês, coreano, português e espanhol.
Veja a lista completa de idiomas compatíveis com o OCR.
Recursos comuns do OCR
O modelo de OCR do Read está disponível no Visão de IA do Azure e na Informação de Documentos com recursos de linha de base comuns e otimizado para os respectivos cenários. A lista a seguir resume os recursos comuns:
- Extração de texto impresso e manuscrito nos idiomas com suporte
- Páginas, linhas de texto e palavras com pontuações de localização e confiança
- Suporte para idiomas mistos, modo misto (impressão e manuscrito)
- Disponível como um contêiner do Docker sem distro para implantação local
Use a APIs do OCR de nuvem ou a implantação local
As APIs de nuvem são a opção preferencial para a maioria dos clientes devido à facilidade de integração e produtividade rápida pronta para uso. O Azure e o serviço Visão de IA do Azure lidam com as necessidades de escala, desempenho, segurança de dados e conformidade, enquanto você se concentra em atender às necessidades de seus clientes.
Para implantação no local, o contêiner do Docker do Read permite implantar os recursos de OCR geralmente disponíveis do Visão de IA do Azure v3.2 no seu próprio ambiente local. Contêineres são excelentes para especificar requisitos de segurança e governança de dados.
Requisitos de entrada
A API Read usa imagens e documentos como entrada. As imagens e os documentos devem atender aos seguintes requisitos:
- Os formatos de arquivo com suporte são JPEG, PNG, BMP, PDF e TIFF.
- Para arquivos PDF e TIFF, até 2,000 mil páginas (apenas as duas primeiras páginas da camada gratuita) são processadas.
- O tamanho do arquivo de imagens deve ter menos de 500 MB (4 MB para a camada gratuita) com dimensões de pelo menos 50 x 50 pixels e no máximo 10.000 x 10.000 pixels. Os arquivos PDF não têm um limite de tamanho.
- A altura mínima do texto a ser extraído é de 12 pixels para uma imagem 1024 x 768, que corresponde a cerca de 8 pontos de texto de fonte a 150 DPI.
Observação
Não é necessário cortar uma imagem para linhas de texto. Envie a imagem inteira para a API de Leitura e ela reconhece todos os textos.
Dados de privacidade e segurança do OCR
Como em todos os serviços de IA do Azure, os desenvolvedores que usam o serviço do Visão de IA do Azure devem estar cientes das políticas da Microsoft sobre dados de clientes. Consulte a página de serviços de IA do Azure na Central de Confiabilidade da Microsoft para saber mais.
Próximas etapas
- OCR para imagens gerais (não documentadas): experimente o início rápido da API REST de Análise de Imagens da versão preliminar do Visão de IA do Azure 4.0 .
- OCR para documentos PDF, Office e HTML e imagens de documentos: comece com Read do Informações de Documentos.
- Procurando a versão anterior de GA? Consulte os inícios rápidos do SDK de GA do Visão de IA do Azure 3.2 ou da API REST.