Настройка параметров поиска и аналитики для случаев обнаружения электронных данных (премиум)
Совет
Обнаружение электронных данных (предварительная версия) теперь доступно на новом портале Microsoft Purview. Дополнительные сведения об использовании нового интерфейса обнаружения электронных данных см. в статье Сведения об обнаружении электронных данных (предварительная версия).
Вы можете настроить параметры для каждого случая Microsoft Purview eDiscovery (Премиум), чтобы управлять следующими функциями:
- Неполные дубликаты и цепочки сообщений
- Темы
- Автоматически созданный запрос набора для проверки
- Игнорирование текста
- Распознавание текста
Совет
Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.
Настройка параметров аналитики для обращения
Чтобы настроить параметры поиска и аналитики для дела, выполните следующие действия:
Примечание.
В течение ограниченного времени этот классический интерфейс обнаружения электронных данных также доступен на новом портале Microsoft Purview. Включите классический интерфейс eDiscovery портала соответствия требованиям в параметрах интерфейса обнаружения электронных данных (предварительная версия) для отображения классического интерфейса на новом портале Microsoft Purview.
- На странице eDiscovery (премиум) выберите дело.
- На вкладке Параметры в разделе Поиск & аналитика нажмите кнопку Выбрать. Отобразится страница параметров регистра. Эти параметры применяются ко всем наборам проверки в случае.
В следующих разделах этой статьи описаны параметры аналитики, которые можно настроить для конкретного случая.
Неполные дубликаты и цепочки сообщений
В этом разделе вы можете задать параметры для обнаружения повторяющихся данных, обнаружения почти повторяющихся данных и потоков электронной почты. Дополнительные сведения см. в разделе Обнаружение повторяющихся данных и Email потоков.
- Почти дубликаты или потоки электронной почты: Если этот параметр включен, обнаружение повторяющихся данных, обнаружение почти повторяющихся данных и потоки электронной почты включаются в рабочий процесс при выполнении аналитики данных в наборе для проверки.
- Пороговое значение сходства документов и электронной почты: Если уровень сходства для двух документов превышает пороговое значение, оба документа помещаются в один и тот же набор, почти повторяющийся.
- Минимальное или максимальное количество слов: Эти параметры указывают, что почти дубликаты и анализ потоков электронной почты выполняются только в документах с минимальным количеством слов и максимальным количеством слов.
Темы
В этом разделе вы можете задать параметры для тем. Дополнительные сведения см. в разделе Темы.
- Темы: Если этот параметр включен, темы кластеризация выполняются в рамках рабочего процесса при выполнении аналитики данных в наборе для проверки.
- Максимальное количество тем: Указывает максимальное количество тем, которые можно создать при выполнении аналитики данных в наборе для проверки.
- Включите числа в темы: Если этот параметр включен, числа (которые идентифицируют тему) включаются при создании тем.
- Динамическое изменение максимального числа тем: В некоторых ситуациях в наборе для проверки может быть недостаточно документов для создания нужного количества тем. Когда этот параметр включен, eDiscovery (премиум) динамически настраивает максимальное количество тем, а не пытается принудительно установить максимальное количество тем.
Запрос набора для проверки
Если установить флажок Автоматически создавать сохраненный поиск для проверки после аналитики, обнаружение электронных данных (премиум) автоматически создает запрос набора проверки с именем For Review.
Этот запрос в основном отфильтровывает повторяющиеся элементы из набора для проверки. Это позволяет просматривать уникальные элементы в наборе для проверки. Этот запрос создается только при запуске аналитики для набора для проверки в деле. Дополнительные сведения о запросах набора проверки см. в разделе Запрос данных в наборе для проверки.
Игнорирование текста
Существуют ситуации, когда определенный текст снижает качество аналитики, например длинные заявления об отказе от ответственности, которые добавляются в сообщения электронной почты независимо от содержимого сообщения. Если вам известен текст, который следует игнорировать, вы можете исключить его из аналитики, указав текстовую строку и функции аналитики (неполные дубликаты, цепочки сообщений электронной почты, темы и релевантность), для которых следует исключить текст. Также поддерживается использование регулярных выражений (RegEx) в качестве игнорируемого текста.
Распознавание текста (OCR)
Если этот параметр включен, обработка OCR будет выполняться в файлах образов. Обработка OCR выполняется в следующих ситуациях:
- При добавлении в дело хранителей и источников данных, не относящихся к хранению. При применении OCR к файлам изображений текст в этих файлах будет доступен для поиска во время коллекции. Обработка OCR выполняется во время расширенного процесса индексирования . OCR выполняется только для элементов, которые обрабатываются во время расширенного индексирования. Например, если во время расширенного индексирования обрабатывается большой PDF-файл, который частично индексирован или с другими ошибками индексирования, к файлу также будет применено распознавание текста. Другими словами, обработка OCR выполняется только для файлов, которые переиндексированы во время расширенного процесса индексирования.
Это означает, что могут возникнуть ситуации, когда в дело добавляются хранители, но некоторые вложения электронной почты не будут обрабатываться для OCR, так как эти файлы не обрабатываются во время расширенного индексирования.
- При добавлении содержимого из других источников данных (которые не связаны с хранителем и добавляются в дело в нерепециальном источнике данных) в набор для проверки.
- Поиск KeyQL (оценки коллекции) не запускайте OCR для элемента, если в элементе не произошли ошибки индексирования и эти элементы должны быть индексированы дополнительно.
После добавления данных в набор для проверки текст изображения можно просмотреть, выполнить поиск, пометить тегами и проанализировать. Извлеченный текст можно просмотреть в средстве просмотра текста выбранного файла изображения в наборе для проверки. Дополнительные сведения см. в разделе: