OCR - Reconhecimento Ótico de Caracteres
OCR ou Reconhecimento ótico de carateres também é referido como reconhecimento de texto ou extração de texto. As técnicas de OCR baseadas em aprendizagem automática permitem extrair texto impresso ou manuscrito de imagens como cartazes, sinais de rua e rótulos de produtos, assim como de documentos como artigos, relatórios, formulários e faturas. O texto é normalmente extraído como palavras, linhas de texto e parágrafos ou blocos de texto, permitindo o acesso à versão digital do texto digitalizado. Isto elimina ou reduz significativamente a necessidade de introdução manual de dados.
motor de OCR
O mecanismo Read OCR da Microsoft é composto por vários modelos avançados baseados em aprendizado de máquina que suportam linguagens globais. Pode extrair texto impresso e manuscrito, incluindo idiomas mistos e estilos de escrita. A leitura está disponível como serviço de nuvem e contêiner local para flexibilidade de implantação. Ele também está disponível como uma API síncrona para cenários únicos, não documentais e somente de imagem, com aprimoramentos de desempenho que facilitam a implementação de experiências de usuário assistidas por OCR.
Aviso
A API OCR herdada do Azure AI Vision na v3.2 e a API RecognizeText nas operações da v2.1 não são recomendadas para uso.
Edições OCR (Leitura)
Importante
Selecione a edição Read que melhor se adapta às suas necessidades.
Entrada | Exemplos | Ler edição | Benefício |
---|---|---|---|
Imagens: Imagens gerais, in-the-wild | rótulos, sinais de rua e cartazes | OCR para imagens (versão 4.0) | Otimizado para imagens gerais não documentais com uma API síncrona de desempenho aprimorado que facilita a incorporação de OCR em cenários de experiência do usuário. |
Documentos: digitais e digitalizados, incluindo imagens | livros, artigos e relatórios | Modelo de leitura do Document Intelligence | Otimizado para documentos digitalizados, digitalizados e digitais com muito texto com uma API assíncrona para ajudar a automatizar o processamento inteligente de documentos em escala. |
Sobre o Azure AI Vision v3.2 GA Read
Procurando o mais recente Azure AI Vision v3.2 GA Read? Todos os futuros aprimoramentos do Read OCR fazem parte dos dois serviços listados anteriormente. Não existem mais atualizações para o Azure AI Vision v3.2. Para obter mais informações, consulte Chamar a API de leitura do Azure AI Vision 3.2 GA e Guia de início rápido: leitura do Azure AI Vision v3.2 GA.
Como o OCR está relacionado ao Processamento Inteligente de Documentos (IDP)?
O Processamento Inteligente de Documentos (IDP) usa OCR como sua tecnologia fundamental para extrair adicionalmente estrutura, relacionamentos, valores-chave, entidades e outros insights centrados em documentos com um serviço avançado de IA baseado em aprendizado de máquina, como o Document Intelligence. O Document Intelligence inclui uma versão otimizada para documentos do Read como seu mecanismo de OCR enquanto delega a outros modelos para obter insights mais avançados. Se você estiver extraindo texto de documentos digitalizados e digitais, use o Document Intelligence Read OCR.
Como usar OCR
Experimente o OCR usando o Vision Studio. Em seguida, siga um dos links para a edição Read que melhor atenda às suas necessidades.
Idiomas suportados por OCR
Ambas as versões de leitura disponíveis hoje no Azure AI Vision suportam vários idiomas para texto impresso e manuscrito. OCR para texto impresso inclui suporte para inglês, francês, alemão, italiano, português, espanhol, chinês, japonês, coreano, russo, árabe, hindi e outros idiomas internacionais que usam alfabetos latino, cirílico, árabe e devanágari. OCR para texto manuscrito inclui suporte para inglês, chinês simplificado, francês, alemão, italiano, japonês, coreano, português e espanhol.
Consulte a lista completa de idiomas suportados por OCR.
Características comuns do OCR
O modelo Read OCR está disponível no Azure AI Vision e Document Intelligence com recursos de linha de base comuns enquanto otimiza para os respetivos cenários. A lista a seguir resume os recursos comuns:
- Extração de texto impresso e manuscrito em idiomas suportados
- Páginas, linhas de texto e palavras com pontuação de localização e confiança
- Suporte para idiomas mistos, modo misto (impresso e manuscrito)
- Disponível como contêiner Distroless Docker para implantação local
Use as APIs de nuvem OCR ou implante no local
As APIs na nuvem são a opção preferida para a maioria dos clientes devido à sua facilidade de integração e rápida produtividade pronta para uso. O Azure e o serviço Azure AI Vision lidam com as necessidades de escala, desempenho, segurança de dados e conformidade, enquanto você se concentra em atender às necessidades de seus clientes.
Para implantação local, o contêiner Read Docker permite implantar os recursos de OCR do Azure AI Vision v3.2 geralmente disponíveis em seu próprio ambiente local. Os contentores são ótimos para requisitos específicos de governação de dados e segurança.
Requisitos de entrada
A API de leitura usa imagens e documentos como entrada. As imagens e documentos devem atender aos seguintes requisitos:
- Os formatos de ficheiro suportados são JPEG, PNG, BMP, PDF e TIFF.
- Para ficheiros PDF e TIFF, são processadas até 2000 páginas (apenas as duas primeiras páginas no escalão gratuito).
- O tamanho do arquivo das imagens deve ser inferior a 500 MB (4 MB para o nível gratuito) com dimensões de no mínimo 50 x 50 pixels e no máximo 10.000 x 10.000 pixels. Os ficheiros PDF não têm limite de tamanho.
- A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768, o que corresponde a um texto de fonte de cerca de 8 pontos a 150 DPI.
Nota
Não é necessário cortar uma imagem para linhas de texto. Envie a imagem completa para a API de leitura e ela reconhece todos os textos.
Privacidade e segurança de dados OCR
Tal como acontece com todos os serviços de IA do Azure, os programadores que utilizam o serviço Azure AI Vision devem estar cientes das políticas da Microsoft sobre dados de clientes. Consulte a página de serviços de IA do Azure na Central de Confiabilidade da Microsoft para saber mais.
Próximos passos
- OCR para imagens gerais (não documentais): experimente o início rápido da API REST da Análise de Imagem do Azure AI Vision 4.0.
- OCR para documentos PDF, Office e HTML e imagens de documentos: comece com o Document Intelligence Read.
- Procurando a versão anterior do GA? Consulte os inícios rápidos do SDK do Azure AI Vision 3.2 GA ou da API REST.