OCR para imagens (versão 4.0)

Artigo
12/12/2023

Observação

Para extrair texto de documentos PDF, do Office e HTML e imagens de documento, use o modelo OCR de leitura da Informação de Documentos otimizado para documentos digitais e digitalizados com bastante texto usando uma API assíncrona que facilita cenários de processamento inteligente de documentos.

O OCR tradicionalmente começou como uma técnica baseada em aprendizado de máquina para extrair texto de imagens na natureza e não documento, como rótulos de produtos, imagens geradas pelo usuário, capturas de tela, placas de rua e cartazes. Para vários cenários, como imagens individuais que não têm uso intenso de texto, você precisa de uma API ou serviço rápido e síncrono. Isso permite que o OCR seja inserido em experiências de usuário quase em tempo real a fim de enriquecer a compreensão de conteúdo e acompanhar as ações do usuário com tempos rápidos de retorno.

O que é o OCR de Leitura da Pesquisa Visual Computacional v4.0?

A nova API REST de Análise de Imagem da Pesquisa Visual Computacional 4.0 oferece a capacidade de extrair texto impresso ou manuscrito de imagens em uma API síncrona unificada com aprimoramento de desempenho que facilita a obtenção de todos os insights de imagem, incluindo resultados de OCR em uma só operação de API. O mecanismo OCR de Leitura da Microsoft é baseada em vários modelos de aprendizado profundo compatíveis com modelos universais baseados em script para suporte a idiomas internacionais.

Dica

Você pode usar o recurso OCR por meio do serviço OpenAI do Azure. O modelo GPT-4 Turbo com Visão permite que você converse com um assistente de IA que pode analisar as imagens que você compartilha e a opção de Aprimoramento de Visão usa Análise de Imagem para fornecer ao assistente de IA mais detalhes (texto legível e localizações de objetos) sobre a imagem. Para obter mais informações, consulte o Início rápido do GPT-4 Turbo com Visão.

Exemplo de extração de texto

A resposta JSON a seguir ilustra o que a API de Análise de Imagem 4.0 retorna ao extrair texto da imagem fornecida.

Photo of a sticky note with writing on it.

{
    "modelVersion": "2024-02-01",
    "metadata":
    {
        "width": 1000,
        "height": 945
    },
    "readResult":
    {
        "blocks":
        [
            {
                "lines":
                [
                    {
                        "text": "You must be the change you",
                        "boundingPolygon":
                        [
                            {"x":251,"y":265},
                            {"x":673,"y":260},
                            {"x":674,"y":308},
                            {"x":252,"y":318}
                        ],
                        "words":
                        [
                            {"text":"You","boundingPolygon":[{"x":252,"y":267},{"x":307,"y":265},{"x":307,"y":318},{"x":253,"y":318}],"confidence":0.996},
                            {"text":"must","boundingPolygon":[{"x":318,"y":264},{"x":386,"y":263},{"x":387,"y":316},{"x":319,"y":318}],"confidence":0.99},
                            {"text":"be","boundingPolygon":[{"x":396,"y":262},{"x":432,"y":262},{"x":432,"y":315},{"x":396,"y":316}],"confidence":0.891},
                            {"text":"the","boundingPolygon":[{"x":441,"y":262},{"x":503,"y":261},{"x":503,"y":312},{"x":442,"y":314}],"confidence":0.994},
                            {"text":"change","boundingPolygon":[{"x":513,"y":261},{"x":613,"y":262},{"x":613,"y":306},{"x":513,"y":311}],"confidence":0.99},
                            {"text":"you","boundingPolygon":[{"x":623,"y":262},{"x":673,"y":263},{"x":673,"y":302},{"x":622,"y":305}],"confidence":0.994}
                        ]
                    },
                    {
                        "text": "wish to see in the world !",
                        "boundingPolygon":
                        [
                            {"x":325,"y":338},
                            {"x":695,"y":328},
                            {"x":696,"y":370},
                            {"x":325,"y":381}
                        ],
                        "words":
                        [
                            {"text":"wish","boundingPolygon":[{"x":325,"y":339},{"x":390,"y":337},{"x":391,"y":380},{"x":326,"y":381}],"confidence":0.992},
                            {"text":"to","boundingPolygon":[{"x":406,"y":337},{"x":443,"y":335},{"x":443,"y":379},{"x":407,"y":380}],"confidence":0.995},
                            {"text":"see","boundingPolygon":[{"x":451,"y":335},{"x":494,"y":334},{"x":494,"y":377},{"x":452,"y":379}],"confidence":0.996},
                            {"text":"in","boundingPolygon":[{"x":502,"y":333},{"x":533,"y":332},{"x":534,"y":376},{"x":503,"y":377}],"confidence":0.996},
                            {"text":"the","boundingPolygon":[{"x":542,"y":332},{"x":590,"y":331},{"x":590,"y":375},{"x":542,"y":376}],"confidence":0.995},
                            {"text":"world","boundingPolygon":[{"x":599,"y":331},{"x":664,"y":329},{"x":664,"y":372},{"x":599,"y":374}],"confidence":0.995},
                            {"text":"!","boundingPolygon":[{"x":672,"y":329},{"x":694,"y":328},{"x":694,"y":371},{"x":672,"y":372}],"confidence":0.957}
                        ]
                    },
                    {
                        "text": "Everything has its beauty , but",
                        "boundingPolygon":
                        [
                            {"x":254,"y":439},
                            {"x":644,"y":433},
                            {"x":645,"y":484},
                            {"x":255,"y":488}
                        ],
                        "words":
                        [
                            {"text":"Everything","boundingPolygon":[{"x":254,"y":442},{"x":379,"y":440},{"x":380,"y":486},{"x":257,"y":488}],"confidence":0.97},
                            {"text":"has","boundingPolygon":[{"x":388,"y":440},{"x":435,"y":438},{"x":436,"y":485},{"x":389,"y":486}],"confidence":0.965},
                            {"text":"its","boundingPolygon":[{"x":445,"y":438},{"x":485,"y":437},{"x":486,"y":485},{"x":446,"y":485}],"confidence":0.99},
                            {"text":"beauty","boundingPolygon":[{"x":495,"y":437},{"x":567,"y":435},{"x":568,"y":485},{"x":496,"y":485}],"confidence":0.685},
                            {"text":",","boundingPolygon":[{"x":577,"y":435},{"x":583,"y":435},{"x":583,"y":485},{"x":577,"y":485}],"confidence":0.939},
                            {"text":"but","boundingPolygon":[{"x":589,"y":435},{"x":644,"y":434},{"x":644,"y":485},{"x":589,"y":485}],"confidence":0.628}
                        ]
                    },
                    {
                        "text": "not everyone sees it !",
                        "boundingPolygon":
                        [
                            {"x":363,"y":508},
                            {"x":658,"y":493},
                            {"x":659,"y":539},
                            {"x":364,"y":552}
                        ],
                        "words":
                        [
                            {"text":"not","boundingPolygon":[{"x":363,"y":510},{"x":412,"y":508},{"x":413,"y":548},{"x":365,"y":552}],"confidence":0.989},
                            {"text":"everyone","boundingPolygon":[{"x":420,"y":507},{"x":521,"y":501},{"x":522,"y":542},{"x":421,"y":548}],"confidence":0.924},
                            {"text":"sees","boundingPolygon":[{"x":536,"y":501},{"x":588,"y":498},{"x":589,"y":540},{"x":537,"y":542}],"confidence":0.987},
                            {"text":"it","boundingPolygon":[{"x":597,"y":497},{"x":627,"y":495},{"x":628,"y":540},{"x":598,"y":540}],"confidence":0.995},
                            {"text":"!","boundingPolygon":[{"x":635,"y":495},{"x":656,"y":494},{"x":657,"y":540},{"x":636,"y":540}],"confidence":0.952}
                        ]
                    }
                ]
            }
        ]
    }
}

Usar a API

O recurso de extração de texto faz parte da API de Análise de Imagem. Inclua Read no parâmetro de consulta features. Em seguida, quando receber a resposta JSON completa, basta analisar a cadeia de caracteres para o conteúdo da seção "readResult".

Próximas etapas

Siga o Guia de início rápido da Análise de Imagem para extrair texto de uma imagem usando a API de Análise de Imagem 4.0.

OCR para imagens (versão 4.0)

O que é o OCR de Leitura da Pesquisa Visual Computacional v4.0?

Exemplo de extração de texto

Usar a API

Próximas etapas

Recursos adicionais