OCR - Reconhecimento Ótico de Caracteres

Artigo
02/23/2024

OCR ou Reconhecimento Ótico de Caracteres também é referido como reconhecimento de texto ou extração de texto. As técnicas de OCR baseadas em aprendizado de máquina permitem extrair texto impresso ou manuscrito de imagens como cartazes, placas de rua e rótulos de produtos, bem como de documentos como artigos, relatórios, formulários e faturas. O texto é normalmente extraído como palavras, linhas de texto e parágrafos ou blocos de texto, permitindo o acesso à versão digital do texto digitalizado. Isso elimina ou reduz significativamente a necessidade de entrada manual de dados.

O Processamento Inteligente de Documentos (IDP) usa OCR como sua tecnologia fundamental para extrair adicionalmente estrutura, relacionamentos, valores-chave, entidades e outros insights centrados em documentos com um serviço avançado de IA baseado em aprendizado de máquina, como o Document Intelligence. O Document Intelligence inclui uma versão otimizada para documentos do Read como seu mecanismo de OCR enquanto delega a outros modelos para obter insights mais avançados. Se você estiver extraindo texto de documentos digitalizados e digitais, use o Document Intelligence Read OCR.

motor de OCR

O mecanismo Read OCR da Microsoft é composto por vários modelos avançados baseados em aprendizado de máquina que suportam linguagens globais. Pode extrair texto impresso e manuscrito, incluindo idiomas mistos e estilos de escrita. A leitura está disponível como serviço de nuvem e contêiner local para flexibilidade de implantação. Com a visualização mais recente, ele também está disponível como uma API síncrona para cenários únicos, não documentais e somente de imagem, com aprimoramentos de desempenho que facilitam a implementação de experiências de usuário assistidas por OCR.

Aviso

A API OCR herdada do Azure AI Vision na v3.2 e a API RecognizeText nas operações da v2.1 não são recomendadas para uso.

Edições OCR (Leitura)

Importante

Selecione a edição Read que melhor se adapta às suas necessidades.

Entrada	Exemplos	Ler edição	Benefício
Imagens: Imagens gerais, in-the-wild	rótulos, sinais de rua e cartazes	OCR para imagens (versão 4.0)	Otimizado para imagens gerais não documentais com uma API síncrona de desempenho aprimorado que facilita a incorporação de OCR em cenários de experiência do usuário.
Documentos: digitais e digitalizados, incluindo imagens	livros, artigos e relatórios	Modelo de leitura do Document Intelligence	Otimizado para documentos digitalizados, digitalizados e digitais com muito texto com uma API assíncrona para ajudar a automatizar o processamento inteligente de documentos em escala.

Sobre o Azure AI Vision v3.2 GA Read

Procurando o mais recente Azure AI Vision v3.2 GA Read? Todos os futuros aprimoramentos do Read OCR fazem parte dos dois serviços listados anteriormente. Não há mais atualizações para o Azure AI Vision v3.2. Para obter mais informações, consulte Chamar a API de leitura do Azure AI Vision 3.2 GA e Guia de início rápido: leitura do Azure AI Vision v3.2 GA.

Como usar OCR

Experimente o OCR usando o Vision Studio. Em seguida, siga um dos links para a edição Read que melhor atenda às suas necessidades.

Experimente o Vision Studio

Screenshot: Read OCR demo in Vision Studio.

Idiomas suportados por OCR

Ambas as versões de leitura disponíveis hoje no Azure AI Vision suportam vários idiomas para texto impresso e manuscrito. OCR para texto impresso inclui suporte para inglês, francês, alemão, italiano, português, espanhol, chinês, japonês, coreano, russo, árabe, hindi e outros idiomas internacionais que usam alfabetos latino, cirílico, árabe e devanágari. OCR para texto manuscrito inclui suporte para inglês, chinês simplificado, francês, alemão, italiano, japonês, coreano, português e espanhol.

Consulte a lista completa de idiomas suportados por OCR.

Características comuns do OCR

O modelo Read OCR está disponível no Azure AI Vision e Document Intelligence com recursos de linha de base comuns enquanto otimiza para os respetivos cenários. A lista a seguir resume os recursos comuns:

Extração de texto impresso e manuscrito em idiomas suportados
Páginas, linhas de texto e palavras com pontuação de localização e confiança
Suporte para idiomas mistos, modo misto (impresso e manuscrito)
Disponível como contêiner Distroless Docker para implantação local

Use as APIs de nuvem OCR ou implante no local

As APIs na nuvem são a opção preferida para a maioria dos clientes devido à sua facilidade de integração e rápida produtividade pronta para uso. O Azure e o serviço Azure AI Vision lidam com as necessidades de escala, desempenho, segurança de dados e conformidade, enquanto você se concentra em atender às necessidades de seus clientes.

Para implantação local, o contêiner Read Docker permite implantar os recursos de OCR do Azure AI Vision v3.2 geralmente disponíveis em seu próprio ambiente local. Os contentores são ótimos para requisitos específicos de governação de dados e segurança.

Privacidade e segurança de dados OCR

Tal como acontece com todos os serviços de IA do Azure, os programadores que utilizam o serviço Azure AI Vision devem estar cientes das políticas da Microsoft sobre dados de clientes. Consulte a página de serviços de IA do Azure na Central de Confiabilidade da Microsoft para saber mais.

Próximos passos

OCR para imagens gerais (não documentais): experimente o início rápido da API REST da Análise de Imagem do Azure AI Vision 4.0.
OCR para documentos PDF, Office e HTML e imagens de documentos: comece com o Document Intelligence Read.
Procurando a versão anterior do GA? Consulte os inícios rápidos do SDK do Azure AI Vision 3.2 GA ou da API REST.