Сведения об оптическом распознавании символов в Microsoft Purview
Статья
Сканирование оптического распознавания символов (OCR) позволяет Microsoft Purview сканировать изображения на наличие конфиденциальной информации. Сканирование OCR — это необязательная функция, которая должна быть включена на уровне клиента. После включения выберите расположения, в которых нужно сканировать изображения. Сканирование изображений доступно для устройств Exchange, SharePoint, OneDrive, Teams, Windows и macOS. После настройки параметров OCR существующие политики защиты от потери данных (DLP), управления записями и управления внутренними рисками (IRM) применяются к изображениям и текстовому содержимому. Например, предположим, что вы настроили содержимое условия защиты от потери данных , содержащее конфиденциальную информацию и включили классификатор данных, например тип конфиденциальной информации кредитной карты (SIT). В этом случае Microsoft Purview сканирует кредит карта числа как в тексте, так и на изображениях во всех выбранных расположениях.
Обзор рабочего процесса
Этап
Требуемые параметры
При необходимости создайте подписку Azure
Если у вашей организации еще нет подписки Azure с оплатой по мере использования для клиента, глобальный администратор должен начать с создания учетной записи Azure.
Администратор соответствия требованиям вашей организации настраивает параметры OCR для клиента.
Предварительные условия
Чтобы использовать проверку OCR, глобальный администратор вашей организации должен убедиться, что подписка Azure с оплатой по мере использования имеется. Если нет, они должны настроить это, следуя инструкциям в разделе Создание начальных подписок Azure.
Настройка выставления счетов
При включении распознавания текста все типы конфиденциальной информации и обучаемые классификаторы могут обнаруживать символы, которые находятся на изображениях.
Так как это необязательная функция, глобальный администратор должен настроить выставление счетов с оплатой по мере использования, чтобы включить распознавание текста. Чтобы добавить подписку на OCR, ознакомьтесь с инструкциями в разделе Настройка Microsoft Syntex выставления счетов в Azure.
Примечание
После ввода сведений о выставлении счетов в Microsoft Syntex администратор соответствия требованиям может настроить OCR в Microsoft Purview без каких-либо дополнительных требований к настройке или лицензированию.
Плата за использование OCR составляет 1,00 долл. США за каждые 1000 отсканированных элементов. Каждое отсканированное изображение считается одной транзакцией. Это означает, что изолированные изображения (JPEG, JPG, PNG, BMP или TIFF) считаются одной транзакцией. Это также означает, что плата за каждую страницу в PDF-файле взимается отдельно. Например, если в PDF-файле есть 10 страниц, функция OCR-сканирования PDF-файла будет учитываться как 10 отдельных проверок. Сведения об использовании оценщика затрат OCR см. в статье Оценка затрат на OCR.
Примечание
Чтобы снизить затраты на распознавание текста, плата за сканирование каждого уникального изображения взимается только один раз.
Небольшие изображения, такие как логотипы и подписи, отправленные по электронной почте через Microsoft Exchange, сканируются и выставляются только один раз за уникальное изображение для всех пользователей клиента. Для всех последующих экземпляров результаты предыдущей проверки будут использоваться повторно.
Кроме того, каждое отсканированное изображение можно использовать в любом количестве политик защиты от потери данных, управления внутренними рисками, автоматической маркировки и управления записями без дополнительной платы.
1 Поддерживает ключевые слова и типы конфиденциальной информации. 2 Учитывает типы конфиденциальной информации и обучаемые классификаторы, присутствующие на изображениях, для оценки рисков.
Поддерживаемые типы файлов
Эта функция поддерживает сканирование изображений в следующих типах файлов с указанными требованиями:
Поддерживаемые типы файлов
Требования к образу
JPEG, JPG, PNG, BMP, TIFF и PDF (только изображение)
Размеры файлов: Размер файлов изображений не должен превышать 20 МБ для Exchange и Teams. Для конечных точек SharePoint, OneDrive, Windows и macOS максимальный размер файла изображения составляет 50 МБ.
Разрешение изображения: Разрешение изображения должно быть не менее 50 x 50 пикселей и не больше 16 000 x 16 000 пикселей.
Важно!
Сканируются только изображения, отправленные после включения распознавания текста.
Проверка OCR выполняется как входящей электронной почты (от пользователей за пределами организации), так и от исходящих сообщений (от пользователей внутри организации). Чтобы ограничить сканирование OCR только исходящими письмами, измените параметры OCR с область по умолчанию всех групп рассылки на конкретные группы рассылки и укажите внутренние группы рассылки, которые требуется сканировать. Сведения об изменении этой конфигурации см. в разделе Настройка параметров OCR.
Советы по политике защиты от потери данных не поддерживаются для образов в Exchange.
Если исключить путь в параметрах защиты от потери данных конечной точки, OCR не будет сканировать изображения в этих папках.
Когда функция распознавания текста включена для устройств с Windows и macOS, устройства начинают отправлять сообщения в облако для сканирования. Ограничение пропускной способности по умолчанию составляет 1024 МБ данных на устройство в день. OCR останавливает сканирование изображений после достижения этого ежедневного ограничения. Если вы хотите продолжить сканирование изображений, можно увеличить ограничение пропускной способности.
Чтобы использовать OCR, необходимо настроить Microsoft Syntex выставление счетов с оплатой по мере использования. (Вам не нужно настраивать Microsoft Syntex себя.)
Настройка OCR выполняется на уровне клиента, поэтому после настройки OCR она становится доступной всему стеку Microsoft Purview.
Продемонстрировать основы безопасности данных, управления жизненным циклом, информационной безопасности и соответствия требованиям для защиты развертывания Microsoft 365.