Сведения об оптическом распознавании символов в Microsoft Purview

Мақала
10/02/2024

Сканирование оптического распознавания символов (OCR) позволяет Microsoft Purview сканировать изображения на наличие конфиденциальной информации. Сканирование OCR — это необязательная функция, которая должна быть включена на уровне клиента. После включения выберите расположения, в которых нужно сканировать изображения. Сканирование изображений доступно для устройств Exchange, SharePoint, OneDrive, Teams, Windows и macOS. После настройки параметров OCR существующие политики защиты от потери данных (DLP), управления записями и управления внутренними рисками (IRM) применяются к изображениям и текстовому содержимому. Например, предположим, что вы настроили содержимое условия защиты от потери данных , содержащее конфиденциальную информацию и включили классификатор данных, например тип конфиденциальной информации кредитной карты (SIT). В этом случае Microsoft Purview сканирует кредит карта числа как в тексте, так и на изображениях во всех выбранных расположениях.

Обзор рабочего процесса

Этап	Требуемые параметры
При необходимости создайте подписку Azure	Если у вашей организации еще нет подписки Azure с оплатой по мере использования для клиента, глобальный администратор должен начать с создания учетной записи Azure.
Оценка расходов на сканирование OCR	Используйте оценщик затрат OCR , чтобы оценить ожидаемые затраты для конкретных вариантов использования.
Настройте выставление счетов с оплатой по мере использования, чтобы включить распознавание текста.	Ваш глобальный администратор или администратор SharePoint должен следовать инструкциям в разделе Настройка Microsoft Syntex выставления счетов в Azure, чтобы добавить подписку на OCR.
Настройка параметров проверки OCR	Администратор соответствия требованиям вашей организации настраивает параметры OCR для клиента.

Предварительные условия

Чтобы использовать проверку OCR, глобальный администратор вашей организации должен убедиться, что подписка Azure с оплатой по мере использования имеется. Если нет, они должны настроить это, следуя инструкциям в разделе Создание начальных подписок Azure.

Настройка выставления счетов

При включении распознавания текста все типы конфиденциальной информации и обучаемые классификаторы могут обнаруживать символы, которые находятся на изображениях.

Так как это необязательная функция, глобальный администратор должен настроить выставление счетов с оплатой по мере использования, чтобы включить распознавание текста. Чтобы добавить подписку на OCR, ознакомьтесь с инструкциями в разделе Настройка Microsoft Syntex выставления счетов в Azure.

Примечание.

После ввода сведений о выставлении счетов в Microsoft Syntex администратор соответствия требованиям может настроить OCR в Microsoft Purview без каких-либо дополнительных требований к настройке или лицензированию.

Сведения о ценах OCR с оплатой по мере использования см. на странице Настройка Microsoft Syntex выставления счетов в Azure.

Оценка расходов на сканирование OCR

Плата за использование OCR составляет 1,00 долл. США за каждые 1000 отсканированных элементов. Каждое отсканированное изображение считается одной транзакцией. Это означает, что изолированные изображения (JPEG, JPG, PNG, BMP или TIFF) считаются одной транзакцией. Это также означает, что плата за каждую страницу в PDF-файле взимается отдельно. Например, если в PDF-файле есть 10 страниц, функция OCR-сканирования PDF-файла будет учитываться как 10 отдельных проверок. Сведения об использовании оценщика затрат OCR см. в статье Оценка затрат на OCR.

Примечание.

Чтобы снизить затраты на распознавание текста, плата за сканирование каждого уникального изображения взимается только один раз.

Небольшие изображения, такие как логотипы и подписи, отправленные по электронной почте через Microsoft Exchange, сканируются и выставляются только один раз за уникальное изображение для всех пользователей клиента. Для всех последующих экземпляров результаты предыдущей проверки будут использоваться повторно.

Кроме того, каждое отсканированное изображение можно использовать в любом количестве политик защиты от потери данных, управления внутренними рисками, автоматической маркировки и управления записями без дополнительной платы.

Важно!

Сведения о требованиях Adobe к использованию функций Защита от потери данных Microsoft Purview (DLP) с PDF-файлами см. в статье Adobe: поддержка Защита информации Microsoft Purview в Acrobat.

Настройка параметров OCR

Выберите соответствующую вкладку для используемого портала. Дополнительные сведения о портале Microsoft Purview см. на портале Microsoft Purview. Дополнительные сведения о портале соответствия требованиям см. в разделе Портал соответствия требованиям Microsoft Purview.

Портал Microsoft Purview
Портал соответствия требованиям

Войдите на портал Microsoft Purview.
Выберите Настройки.
Выберите Оптическое распознавание символов (OCR), чтобы ввести параметры конфигурации OCR.
Выберите расположения, в которых вы хотите сканировать изображения.
Выберите группы рассылки, которые нужно включить или исключить из сканирования OCR.
Нажмите кнопку Готово.

Поддерживаемые расположения и решения перечислены в таблице ниже.

Разрешения

Учетная запись, используемая для создания и развертывания политик, должна быть членом одной из этих групп ролей.

Администратор соответствия требованиям
Администратор данных о соответствии требованиям
Глобальный администратор
Защита информации
Администратор Information Protection

Примечание.

Как правило, параметры OCR вступают в силу примерно через час после включения.
Сведения о функциях OCR в Соответствие требованиям к обмену данными Microsoft Purview см. в статье Создание политик соответствия требованиям к обмену данными и управление ими.

Поддерживаемые расположения и решения

Расположение	Поддерживаемые решения
Exchange	Защита от потери данных Защита информации: политики автоматического присвоения меток Управление записями: автоматическое применение политик меток хранения¹
Сайты SharePoint	Защита от потери данных Управление внутренними рисками² Управление записями: автоматическое применение политик меток хранения¹
Учетные записи OneDrive	Защита от потери данных Управление записями: автоматическое применение политик меток хранения¹
сообщения в чатах и каналах Teams	Защита от потери данных Управление внутренними рисками²
Устройства	Защита от потери данных Управление внутренними рисками²

¹ Поддерживает ключевые слова и типы конфиденциальной информации.
² Учитывает типы конфиденциальной информации и обучаемые классификаторы, присутствующие на изображениях, для оценки рисков.

Поддерживаемые типы файлов

Эта функция поддерживает сканирование изображений в следующих типах файлов с указанными требованиями:

Поддерживаемые типы файлов	Требования к образу
JPEG, JPG, PNG, BMP, TIFF и PDF (только изображение)	Размеры файлов: Размер файлов изображений не должен превышать 20 МБ для Exchange и Teams. Для конечных точек SharePoint, OneDrive, Windows и macOS максимальный размер файла изображения составляет 50 МБ. Разрешение изображения: Разрешение изображения должно быть не менее 50 x 50 пикселей и не больше 16 000 x 16 000 пикселей.

Поддерживаемые типы файлов

Требования к образу

JPEG, JPG, PNG, BMP, TIFF и PDF (только изображение)

Размеры файлов: Размер файлов изображений не должен превышать 20 МБ для Exchange и Teams. Для конечных точек SharePoint, OneDrive, Windows и macOS максимальный размер файла изображения составляет 50 МБ.

Разрешение изображения: Разрешение изображения должно быть не менее 50 x 50 пикселей и не больше 16 000 x 16 000 пикселей.

Важно!

Сканируются только изображения, отправленные после включения распознавания текста.
Проверка OCR выполняется как входящей электронной почты (от пользователей за пределами организации), так и от исходящих сообщений (от пользователей внутри организации). Чтобы ограничить сканирование OCR только исходящими письмами, измените параметры OCR с область по умолчанию всех групп рассылки на конкретные группы рассылки и укажите внутренние группы рассылки, которые требуется сканировать. Сведения об изменении этой конфигурации см. в разделе Настройка параметров OCR.
Советы по политике защиты от потери данных не поддерживаются для образов в Exchange.
Если исключить путь в параметрах защиты от потери данных конечной точки, OCR не будет сканировать изображения в этих папках.
Когда функция распознавания текста включена для устройств с Windows и macOS, устройства начинают отправлять сообщения в облако для сканирования. Ограничение пропускной способности по умолчанию составляет 1024 МБ данных на устройство в день. OCR останавливает сканирование изображений после достижения этого ежедневного ограничения. Если вы хотите продолжить сканирование изображений, можно увеличить ограничение пропускной способности.

Поддерживаемые языки

Сканирование OCR поддерживает более 150 языков.

Сводка

Чтобы использовать OCR, необходимо настроить Microsoft Syntex выставление счетов с оплатой по мере использования. (Вам не нужно настраивать Microsoft Syntex себя.)
Настройка OCR выполняется на уровне клиента, поэтому после настройки OCR она становится доступной всему стеку Microsoft Purview.
Вам не нужно создавать отдельные классификаторы данных для распознавания текста. После настройки OCR существующие типы конфиденциальной информации, типы конфиденциальной информации на основе точного сопоставления данных, обучаемые классификаторы и отпечаток siT сканируют изображения, а также документы и сообщения электронной почты.

Бөлісу құралы:

Сведения об оптическом распознавании символов в Microsoft Purview

Обзор рабочего процесса

Предварительные условия

Настройка выставления счетов

Оценка расходов на сканирование OCR

Настройка параметров OCR

Разрешения

Поддерживаемые расположения и решения

Поддерживаемые типы файлов

Поддерживаемые языки

Сводка

См. также

Кері байланыс

Қосымша ресурстар