Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Сканирование оптического распознавания символов (OCR) позволяет Microsoft Purview сканировать изображения на наличие конфиденциальной информации. Сканирование OCR — это необязательная функция, которая должна быть включена на уровне клиента. После включения выберите расположения, в которых нужно сканировать изображения. Сканирование изображений доступно для устройств Exchange, SharePoint, OneDrive, Teams, Windows и macOS. После настройки параметров OCR существующие политики защиты от потери данных (DLP), управления записями и управления внутренними рисками (IRM) применяются к изображениям и текстовому содержимому. Например, предположим, что вы настроили содержимое условия защиты от потери данных , содержащее конфиденциальную информацию и включили классификатор данных, например тип конфиденциальной информации кредитной карты (SIT). В этом случае Microsoft Purview сканирует кредит карта числа как в тексте, так и на изображениях во всех выбранных расположениях.
Обзор рабочего процесса
Этап | Требуемые параметры |
---|---|
При необходимости создайте подписку Azure | Если у вашей организации еще нет подписки Azure с оплатой по мере использования для клиента, глобальный администратор должен начать с создания учетной записи Azure. |
Оценка расходов на сканирование OCR | Используйте оценщик затрат OCR , чтобы оценить ожидаемые затраты для конкретных вариантов использования. |
Настройте выставление счетов с оплатой по мере использования, чтобы включить распознавание текста. | Ваш глобальный администратор или администратор SharePoint должен следовать инструкциям в разделе Настройка Microsoft Syntex выставления счетов в Azure, чтобы добавить подписку на OCR. |
Настройка параметров проверки OCR | Администратор соответствия требованиям вашей организации настраивает параметры OCR для клиента. |
Предварительные условия
Чтобы использовать проверку OCR, глобальный администратор вашей организации должен убедиться, что подписка Azure с оплатой по мере использования имеется. Если нет, они должны настроить это, следуя инструкциям в разделе Создание начальных подписок Azure.
Настройка выставления счетов
При включении распознавания текста все типы конфиденциальной информации и обучаемые классификаторы могут обнаруживать символы, которые находятся на изображениях.
Так как это необязательная функция, глобальный администратор должен настроить выставление счетов с оплатой по мере использования, чтобы включить распознавание текста. Чтобы добавить подписку на OCR, ознакомьтесь с инструкциями в разделе Настройка Microsoft Syntex выставления счетов в Azure.
Примечание.
После ввода сведений о выставлении счетов в Microsoft Syntex администратор соответствия требованиям может настроить OCR в Microsoft Purview без дополнительных требований к настройке или лицензированию.
Сведения о ценах OCR с оплатой по мере использования см. на странице Настройка Microsoft Syntex выставления счетов в Azure.
Оценка расходов на сканирование OCR
Плата за использование OCR составляет 1,00 долл. США за каждые 1000 отсканированных элементов. Каждое отсканированное изображение считается одной транзакцией. Это означает, что изолированные изображения (JPEG, JPG, PNG, BMP или TIFF) считаются одной транзакцией. Это также означает, что плата за каждую страницу в PDF-файле взимается отдельно. Например, если в PDF-файле есть 10 страниц, функция OCR-сканирования PDF-файла будет учитываться как 10 отдельных проверок. Сведения об использовании оценщика затрат OCR см. в статье Оценка затрат на OCR.
Примечание.
Чтобы снизить затраты на распознавание текста, у нас есть следующие механизмы кэширования: небольшие изображения, такие как логотипы и подписи, которые отправляются по электронной почте через Microsoft Exchange, сканируются и выставляются только один раз за уникальное изображение для всех пользователей клиента в течение пяти дней. Для конечной точки кэш поддерживается в течение 30 дней. Кэширование является локальным для каждого устройства конечной точки, и сохраняются только классификаторы, определенные на изображении и хэше изображения, а данные клиента не сохраняются. Механизм кэширования автономных образов в SharePoint и Onedrive отсутствует. Однако во внедренных типах файлов, если обновляется только текст, изображения не будут проверяться повторно.
Проверяется несколько параметров, включая хэш потока изображений, размер изображения, чтобы узнать, можно ли использовать кэш. Если какой-либо параметр не совпадает, изображение снова будет OCRed.
Кроме того, каждое отсканированное изображение можно использовать в любом количестве политик защиты от потери данных, управления внутренними рисками, автоматической маркировки и управления записями без дополнительной платы.
Важно!
Сведения о требованиях Adobe к использованию функций Защита от потери данных Microsoft Purview (DLP) с PDF-файлами см. в статье Adobe: поддержка Защита информации Microsoft Purview в Acrobat.
Настройка параметров OCR
- Войдите на портал Microsoft Purview.
- Выберите Настройки.
- Выберите Оптическое распознавание символов (OCR), чтобы ввести параметры конфигурации OCR.
- Выберите расположения, в которых вы хотите сканировать изображения.
- Выберите группы, которые нужно включить или исключить из проверок OCR.
- Нажмите кнопку Готово.
Поддерживаемые расположения и решения перечислены в таблице ниже.
Разрешения
Учетная запись, используемая для создания и развертывания политик, должна быть членом одной из этих групп ролей.
- Администратор соответствия требованиям
- Администратор данных о соответствии требованиям
- Глобальный администратор
- Защита информации
- Администратор Information Protection
Примечание.
Как правило, параметры OCR вступают в силу примерно через час после включения.
Сведения о функциях OCR в Соответствие требованиям к обмену данными Microsoft Purview см. в статье Создание политик соответствия требованиям к обмену данными и управление ими.
Поддерживаемые расположения и решения
Расположение | Поддерживаемые решения |
---|---|
Exchange | Защита от потери данных Защита информации: политики автоматического присвоения меток Управление записями: политики меток автоматического применения1 |
Сайты SharePoint | Защита от потери данных Управление внутренними рисками2 Управление записями: политики меток автоматического применения1 |
Учетные записи OneDrive | Защита от потери данных Управление записями: политики меток автоматического применения1 |
сообщения в чатах и каналах Teams | Защита от потери данных Управление внутренними рисками2 |
Устройства | Защита от потери данных Управление внутренними рисками2 |
1 Поддерживает ключевые слова и типы конфиденциальной информации.
2 Учитывает типы конфиденциальной информации и обучаемые классификаторы, присутствующие на изображениях, для оценки рисков.
Поддерживаемые типы файлов
Эта функция поддерживает сканирование изображений в следующих типах файлов с указанными требованиями:
Расположения | Поддерживаемые типы файлов |
---|---|
Exchange | JPEG, JPG, PNG, BMP, TIFF и PDF-файлы (сканированные). Внедренные изображения в DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z и гибридных PDF-файлах (содержащих доступный для поиска текст и изображения) с ограничением в 20 отсканированных изображений на каждый файл. |
SharePoint и OneDrive | BMP, PNG, JPEG, JPG, JFIF, ARW, CR2, CRW, ФОШ, GIF, MEF, MRW, NEF, NRW, ORF, PEF, RAW, RW2, RW1, SR2, TIF, TIFF, HEIC, HEIF, ARI, BAY, CAP, CR3, DCS, DCR, DRF, EIP, FFF, IIQ, K25, KDC, MOS, PTX, PXN, RAF, RWL, SRF, SRW, X3F, DNG, PDF-файлы (отсканированные и гибридные содержащие текст и изображения) Внедренные изображения в DOCX, PPTX, XLSX |
Конечная точка Teams, Windows и macOS | JPEG, JPG, PNG, BMP, TIFF и PDF (только изображение) |
Требования к образу
Размеры файлов: Размер файлов изображений не должен превышать 20 МБ для Exchange и Teams. Для конечных точек SharePoint, OneDrive, Windows и macOS максимальный размер файла изображения составляет 50 МБ.
Разрешение изображения: Разрешение изображения должно быть не менее 50 x 50 пикселей и не больше 16 000 x 16 000 пикселей.
Важно!
- Сканируются только изображения, отправленные после включения распознавания текста.
- OCR извлекает только первые 2 миллиона символов текста.
- По умолчанию входящие сообщения электронной почты (сообщения электронной почты от пользователей за пределами организации), внутренние сообщения (электронная почта, к которой предоставлен доступ пользователям организации) и исходящие сообщения электронной почты (сообщения, отправленные пользователям за пределами организации) подлежат проверке OCR. Чтобы исключить входящие сообщения из проверки OCR, измените параметры OCR с область по умолчанию всех групп отправителей на Конкретные группы отправителей и укажите внутренние группы, которые требуется сканировать. Чтобы ограничить сканирование OCR только письмами, отправленными за пределами организации, выберите параметр в разделе Дополнительный параметр (только Exchange). Установив этот флажок, ни входящие сообщения, ни какие-либо внутренние сообщения не будут OCRed. Сведения об изменении конфигураций см. в разделе Настройка параметров OCR.
- Советы по политике защиты от потери данных не поддерживаются для образов в Exchange.
- Если исключить путь в параметрах защиты от потери данных конечной точки, OCR не будет сканировать изображения в этих папках.
- Если функция распознавания текста включена для устройств Windows и macOS, устройства начинают отправлять сообщения в облако для сканирования. Ограничение пропускной способности по умолчанию составляет 1024 МБ данных на устройство в день. OCR останавливает сканирование изображений после достижения этого ежедневного ограничения. Если вы хотите продолжить сканирование изображений, можно увеличить ограничение пропускной способности.
- Для устройства конечной точки необходимо убедиться, что все сетевые параметры не препятствуют распознаванию текста, и должен присутствовать подстановочный знак, разрешающий blob.core.windows.net конечные точки.
- Для Exchange поддерживаются внедренные изображения в DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z и гибридных PDF-файлах (содержащих доступный для поиска текст и изображения) с ограничением в 20 отсканированных изображений на файл.
Поддерживаемые языки
Сканирование OCR поддерживает более 150 языков.
Сводка
- Чтобы использовать OCR, необходимо настроить Microsoft Syntex выставление счетов с оплатой по мере использования. (Вам не нужно настраивать Microsoft Syntex себя.)
- Настройка OCR выполняется на уровне клиента, поэтому после настройки OCR она становится доступной всему стеку Microsoft Purview.
- Вам не нужно создавать отдельные классификаторы данных для распознавания текста. После настройки OCR существующие типы конфиденциальной информации, типы конфиденциальной информации на основе точного сопоставления данных, обучаемые классификаторы и отпечаток siT сканируют изображения, а также документы и сообщения электронной почты.