Сведения об оптическом распознавании символов в Microsoft Purview

Используя сканирование оптического распознавания символов (OCR), Microsoft Purview может сканировать изображения на наличие конфиденциальной информации. Сканирование OCR — это необязательная функция, которую необходимо включить на уровне клиента. После включения выберите расположения, в которых нужно сканировать изображения. Вы можете сканировать образы на устройствах Exchange, SharePoint, OneDrive, Teams, Windows и macOS. При настройке параметров OCR Microsoft Purview применяет существующие политики для защиты от потери данных (DLP), управления записями и управления внутренними рисками (IRM) к изображениям и текстовому содержимому. Например, если вы настраиваете содержимое условия защиты от потери данных, содержащее конфиденциальную информацию и включает классификатор данных, например тип конфиденциальной информации кредитной карты (SIT), Microsoft Purview сканирует кредитные карта числа как в тексте, так и на изображениях во всех выбранных местах.

Обзор рабочего процесса

Этап	Требуемые параметры
При необходимости создайте подписку Azure	Если у вашей организации еще нет подписки на Azure с оплатой по мере использования для клиента, глобальный администратор должен начать с создания учетной записи Azure.
Оценка расходов на сканирование OCR	Используйте оценщик затрат OCR , чтобы оценить ожидаемые затраты для конкретных вариантов использования.
Настройте выставление счетов с оплатой по мере использования, чтобы включить распознавание текста.	Ваш глобальный администратор или администратор SharePoint должен следовать инструкциям в разделе Настройка Microsoft Syntex выставления счетов в Azure, чтобы добавить подписку на OCR.
Настройка параметров проверки OCR	Администратор соответствия требованиям вашей организации настраивает параметры OCR для клиента.

Предварительные условия

Чтобы использовать проверку OCR, глобальный администратор вашей организации должен убедиться, что есть подписка с оплатой по мере использования Azure. В противном случае необходимо настроить подписку, следуя инструкциям в разделе Создание начальных подписок Azure.

Настройка выставления счетов

При включении распознавания текста все типы конфиденциальной информации и обучаемые классификаторы могут обнаруживать символы, которые находятся на изображениях.

Так как это необязательная функция, глобальный администратор должен настроить выставление счетов с оплатой по мере использования, чтобы включить распознавание текста. Чтобы добавить подписку на OCR, ознакомьтесь с инструкциями в разделе Настройка Microsoft Syntex выставления счетов в Azure.

Примечание.

После ввода сведений о выставлении счетов в Microsoft Syntex администратор соответствия требованиям может настроить OCR в Microsoft Purview без каких-либо дополнительных настроек или требований к лицензированию.

Сведения о ценах OCR с оплатой по мере использования можно найти на странице Настройка Microsoft Syntex выставления счетов в Azure.

Оценка расходов на сканирование OCR

Каждое отсканированное изображение считается одной транзакцией. Эта цена означает, что изолированные изображения (JPEG, JPG, PNG, BMP или TIFF) учитываются как одна транзакция. Это также означает, что плата за каждую страницу в PDF-файле взимается отдельно. Например, если в PDF-файле есть 10 страниц, функция OCR-сканирования PDF-файла будет учитываться как 10 отдельных проверок. Сведения об использовании оценщика затрат OCR см. в статье Оценка затрат на OCR.

Примечание.

Чтобы снизить затраты на распознавание текста, служба использует следующие механизмы кэширования: Небольшие изображения, такие как логотипы и подписи, отправляемые по электронной почте через Microsoft Exchange, сканируются и выставляются только один раз за уникальное изображение для всех пользователей клиента в течение пяти дней. Для конечной точки кэш хранится в течение 30 дней. Кэширование является локальным для каждого устройства конечной точки, и сохраняются только классификаторы, определенные в образе и хэше образа. Данные клиента не хранятся. В SharePoint и OneDrive отсутствует механизм кэширования автономных образов. Однако во внедренных типах файлов, если обновляется только текст, изображения больше не сканируются.

Служба проверяет несколько параметров, включая хэш потока изображений и размер изображения, чтобы узнать, может ли она использовать кэш. Если какой-либо параметр не совпадает, служба повторно возвращает изображение.

Кроме того, вы можете использовать каждое отсканированное изображение в любом количестве политик защиты от потери данных, управления внутренними рисками, автоматической маркировки и управления записями без дополнительной платы.

Важно!

Сведения о требованиях Adobe к использованию функций Защита от потери данных Microsoft Purview (DLP) с PDF-файлами см. в статье Adobe: поддержка Защита информации Microsoft Purview в Acrobat.

Настройка параметров OCR

Чтобы настроить проверку OCR для клиента, выполните следующие действия.

Войдите на портал Microsoft Purview.
Выберите Настройки.
Выберите Оптическое распознавание символов (OCR), чтобы ввести параметры конфигурации OCR.
Выберите расположения, в которых вы хотите сканировать изображения.
Выберите группы, которые нужно включить или исключить из проверок OCR.
Нажмите кнопку Готово.

Полный список расположений, в которых OCR сканирует изображения, и решения, которые действуют на основе результатов, см. в разделе Поддерживаемые расположения и решения.

Разрешения

Для создания и развертывания политик учетная запись должна быть членом одной из следующих групп ролей:

Администратор соответствия требованиям
Администратор данных о соответствии требованиям
Глобальный администратор
Защита информации
Администратор Information Protection

Примечание.

Как правило, параметры OCR вступают в силу примерно через час после их включения.

Примечание.

Сведения о функциях OCR в Соответствие требованиям к обмену данными Microsoft Purview см. в статье Создание политик соответствия требованиям к обмену данными и управление ими.

Поддерживаемые расположения и решения

Расположение	Поддерживаемые решения
Exchange	Защита от потери данных Защита информации: политики автоматического присвоения меток Управление записями: политики меток автоматического применения¹
Сайты SharePoint	Защита от потери данных Управление внутренними рисками² Управление записями: политики меток автоматического применения¹
Учетные записи OneDrive	Защита от потери данных Управление записями: политики меток автоматического применения¹
сообщения в чатах и каналах Teams	Защита от потери данных Управление внутренними рисками²
Устройства	Защита от потери данных Управление внутренними рисками²

¹ Поддерживает ключевые слова и типы конфиденциальной информации.
² Учитывает типы конфиденциальной информации и обучаемые классификаторы, присутствующие на изображениях, для оценки рисков.

Поддерживаемые типы файлов

Эта функция поддерживает сканирование изображений в следующих типах файлов с указанными требованиями:

Расположения	Поддерживаемые типы файлов
Exchange	JPEG, JPG, PNG, BMP, TIFF и PDF-файлы (сканированные). Внедренные изображения в DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z и гибридных PDF-файлах (содержащих доступный для поиска текст и изображения) с ограничением в 20 отсканированных изображений на каждый файл.
SharePoint и OneDrive	BMP, PNG, JPEG, JPG, JFIF, ARW, CR2, CRW, ERF, GIF, MEF, MRW, NEF, NRW, ORF, PEF, RAW, RW2, RW1, SR2, TIF, TIFF, HEIC, HEIF, ARI, BAY, CAP, CR3, DCS, DCR, DRF, EIP, FFF, IIQ, K25, KDC, MOS, PTX, PXN, RAF, RWL, SRF, SRW, X3F, DNG, PDF-файлы (отсканированные и гибридные содержащие текст и изображения) Внедренные изображения в DOCX, PPTX, XLSX
Конечная точка Teams, Windows и macOS	JPEG, JPG, PNG, BMP, TIFF и PDF (только изображение)

Требования к образу

Требование	Ограничение
Размер файла (Exchange, Teams)	Максимум 20 МБ
Размер файла (конечные точки SharePoint, OneDrive, Windows и macOS)	Максимум 50 МБ
Разрешение изображения	Минимум 50 × 50 пикселей, 16 000 × 16 000 пикселей

Важно!

Сканируются только изображения, отправленные после включения распознавания текста.
OCR извлекает только первые 2 миллиона символов текста.
По умолчанию входящие сообщения электронной почты (сообщения электронной почты от пользователей за пределами организации), внутренние сообщения (электронная почта, к которой предоставлен доступ пользователям организации) и исходящие сообщения электронной почты (сообщения, отправленные пользователям за пределами организации) подлежат проверке OCR. Чтобы исключить входящие сообщения из проверки OCR, измените параметры OCR с область по умолчанию всех групп отправителей на Конкретные группы отправителей и укажите внутренние группы, которые требуется сканировать. Чтобы ограничить сканирование OCR только письмами, отправленными за пределами организации, выберите параметр в разделе Дополнительный параметр (только Exchange). Установив этот флажок, ни входящие сообщения, ни какие-либо внутренние сообщения не будут OCRed. Сведения об изменении конфигураций см. в разделе Настройка параметров OCR.
Советы по политике защиты от потери данных не поддерживаются для образов в Exchange.
Если исключить путь в параметрах защиты от потери данных конечной точки, OCR не сканирует изображения в этих папках.
Когда функция распознавания текста включена для устройств с Windows и macOS, устройства начинают отправлять сообщения в облако для сканирования. Ограничение пропускной способности по умолчанию составляет 1024 МБ данных на устройство в день. OCR останавливает сканирование изображений после достижения этого ежедневного ограничения. Если вы хотите продолжить сканирование изображений, можно увеличить ограничение пропускной способности.
Для конечного устройства убедитесь, что все сетевые параметры не препятствуют распознаванию текста, и должен присутствовать подстановочный знак, разрешающий blob.core.windows.net конечные точки.
Для Exchange эта функция поддерживает внедренные изображения в DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z и гибридные PDF-файлы (содержащие доступный для поиска текст и изображения) с ограничением в 20 внедренных изображений, сканируемых на файл.

Поддерживаемые языки

Сканирование OCR поддерживает более 150 языков.

Сводка

Чтобы использовать OCR, настройте Microsoft Syntex выставление счетов с оплатой по мере использования. (Вам не нужно настраивать Microsoft Syntex себя.)
Настройте OCR на уровне клиента, поэтому после настройки OCR он будет доступен всему стеку Microsoft Purview.
Вам не нужно создавать отдельные классификаторы данных для распознавания текста. После настройки OCR существующие типы конфиденциальной информации, типы конфиденциальной информации на основе точного сопоставления данных, обучаемые классификаторы и отпечаток siT сканируют изображения, а также документы и сообщения электронной почты.
Microsoft Purview eDiscovery поддерживает распознавание текста на уровне регистра. Дополнительные сведения см. в разделе Параметры поиска и аналитики в eDiscovery.

См. также

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-30

Сведения об оптическом распознавании символов в Microsoft Purview

Обзор рабочего процесса

Предварительные условия

Настройка выставления счетов

Оценка расходов на сканирование OCR

Настройка параметров OCR

Разрешения

Поддерживаемые расположения и решения

Поддерживаемые типы файлов

Требования к образу

Поддерживаемые языки

Сводка

См. также

Обратная связь

Дополнительные ресурсы