Compartilhar via


Descrição geral do reconhecimento ótico de carateres no SharePoint

Observação

Até dezembro de 2025, pode experimentar uma quantidade limitada de reconhecimento ótico de carateres e outros serviços de conteúdo selecionados sem custos se tiver a faturação pay as you go configurada. Para obter informações e limitações, veja Experimentar serviços pay as you go.

O serviço de reconhecimento ótico de carateres (OCR) no SharePoint permite extrair texto impresso ou manuscrito de imagens e documentos. Exemplos de imagens incluem cartazes, desenhos e etiquetas de produto. Exemplos de documentos incluem artigos, relatórios, formulários e faturas.

Normalmente, o texto é extraído como palavras, linhas de texto e parágrafos ou blocos de texto, o que permite o acesso à versão digital do texto digitalizado. As informações extraídas são indexadas na pesquisa e podem ser disponibilizadas para funcionalidades de conformidade, como prevenção de perda de dados (DLP).

Por exemplo, pode ativar o serviço OCR e, em seguida, adicionar ficheiros de imagem à sua biblioteca de documentos. A funcionalidade analisa automaticamente os ficheiros de imagem, extrai o texto relevante e disponibiliza o texto das imagens para pesquisa e indexação. Esta funcionalidade permite-lhe encontrar rápida e precisamente as palavras-chave e expressões que procura.

Requisitos e limitações

Tipos de arquivo compatíveis

Ponto de extremidade Tipos de arquivo compatíveis
SharePoint e OneDrive .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf (scanned and hybrid) As imagens incorporadas no docx, pptx, xlsx são extraídas e analisadas
Exchange .jpeg, .jpg, .png, .bmp, .tiff, and PDFs (scanned and hybrid) . Imagens incorporadas no docx, pptx, xlsx, rar, tar, zip, 7z
Ponto final do Teams, Windows e macOS .jpeg, .jpg, .png, .bmp, .tiff, and PDF (image only)

Além do PDF baseado em imagens, o SharePoint OCR suporta PDF híbrido (pdf de texto e imagem). Os PDFs híbridos carregados recentemente serão processados pelo serviço OCR.

Observação

Quando aplica o OCR a um ficheiro de imagem, o texto é armazenado na coluna Metadados de texto extraídos . Quando aplica o OCR a um ficheiro PDF ou TIFF, o texto extraído é indexado na pesquisa, mas não está disponível na coluna de metadados.

Suporte de ficheiros do Office no SharePoint

Agora, o SharePoint suporta o OCR para ficheiros do Office do Microsoft 365, incluindo Word, PowerPoint e documentos do Excel. Todas as imagens adicionadas a estes ficheiros serão automaticamente analisadas com o OCR e o texto extraído será indexado para fins de pesquisa e integrado em soluções de conformidade. Além disso, o SharePoint implementou processos de eliminação de duplicados para marcar para imagens exclusivas para evitar custos duplicados nas mesmas imagens.

Idiomas compatíveis

O serviço OCR suporta mais de 150 idiomas.

Localizações e soluções suportadas

O serviço OCR suporta várias soluções, conforme mostrado na tabela seguinte. Para obter detalhes sobre soluções de conformidade, consulte Localizações e soluções suportadas no Microsoft Purview.

Local Solução suportada
Exchange O texto está disponível para soluções orientadas para pesquisa e pesquisa do utilizador final.
O texto está disponível para soluções de conformidade.
Sites do SharePoint O texto está disponível para soluções orientadas para pesquisa e pesquisa do utilizador final.
O texto está disponível para soluções de conformidade.
Contas do OneDrive O texto está disponível para soluções orientadas para pesquisa e pesquisa do utilizador final.
O texto está disponível para soluções de conformidade.
Chat do Teams e mensagem de canal O texto está disponível para soluções de conformidade.
Dispositivos O texto está disponível para soluções de conformidade.

Limitações do arquivo

  • As imagens têm de ter menos de 50 MB.

  • As imagens têm de ter, pelo menos, 50 x 50 pixéis e não ser superiores a 16 000 x 16 000 pixels.

  • As imagens carregadas após o OCR ter sido ativado são as únicas imagens que são digitalizadas.