Настройка параметров поиска и аналитики для случаев обнаружения электронных данных (премиум)

Статья
08/12/2023

Вы можете настроить параметры для каждого случая Microsoft Purview eDiscovery (Премиум), чтобы управлять следующими функциями:

Неполные дубликаты и цепочки сообщений
Темы
Автоматически созданный запрос набора для проверки
Игнорирование текста
Распознавание текста

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Настройка параметров аналитики для обращения

Чтобы настроить параметры поиска и аналитики для дела, выполните следующие действия:

На странице eDiscovery (премиум) выберите дело.
На вкладке Параметры в разделе Поиск & аналитика нажмите кнопку Выбрать. Отобразится страница параметров регистра. Эти параметры применяются ко всем наборам проверки в случае.

В следующих разделах этой статьи описаны параметры аналитики, которые можно настроить для конкретного случая.

Неполные дубликаты и цепочки сообщений

В этом разделе вы можете задать параметры для обнаружения повторяющихся данных, обнаружения почти повторяющихся данных и потоков электронной почты. Дополнительные сведения см. в разделе Обнаружение повторяющихся данных и Email потоков.

Почти дубликаты или потоки электронной почты: Если этот параметр включен, обнаружение повторяющихся данных, обнаружение почти повторяющихся данных и потоки электронной почты включаются в рабочий процесс при выполнении аналитики данных в наборе для проверки.
Пороговое значение сходства документов и электронной почты: Если уровень сходства для двух документов превышает пороговое значение, оба документа помещаются в один и тот же набор, почти повторяющийся.
Минимальное или максимальное количество слов: Эти параметры указывают, что почти дубликаты и анализ потоков электронной почты выполняются только в документах с минимальным количеством слов и максимальным количеством слов.

Темы

В этом разделе вы можете задать параметры для тем. Дополнительные сведения см. в разделе Темы.

Темы: Если этот параметр включен, темы кластеризация выполняются в рамках рабочего процесса при выполнении аналитики данных в наборе для проверки.
Максимальное количество тем: Указывает максимальное количество тем, которые можно создать при выполнении аналитики данных в наборе для проверки.
Включите числа в темы: Если этот параметр включен, числа (которые идентифицируют тему) включаются при создании тем.
Динамическое изменение максимального числа тем: В некоторых ситуациях в наборе для проверки может быть недостаточно документов для создания нужного количества тем. Когда этот параметр включен, eDiscovery (премиум) динамически настраивает максимальное количество тем, а не пытается принудительно установить максимальное количество тем.

Запрос набора для проверки

Если установить флажок Автоматически создавать сохраненный поиск для проверки после аналитики, обнаружение электронных данных (премиум) автоматически создает запрос набора проверки с именем For Review.

Автоматически созданный запрос For Review.

Этот запрос в основном отфильтровывает повторяющиеся элементы из набора для проверки. Это позволяет просматривать уникальные элементы в наборе для проверки. Этот запрос создается только при запуске аналитики для набора для проверки в деле. Дополнительные сведения о запросах набора проверки см. в разделе Запрос данных в наборе для проверки.

Игнорирование текста

Существуют ситуации, когда определенный текст снижает качество аналитики, например длинные заявления об отказе от ответственности, которые добавляются в сообщения электронной почты независимо от содержимого сообщения. Если вам известен текст, который следует игнорировать, вы можете исключить его из аналитики, указав текстовую строку и функции аналитики (неполные дубликаты, цепочки сообщений электронной почты, темы и релевантность), для которых следует исключить текст. Также поддерживается использование регулярных выражений (RegEx) в качестве игнорируемого текста.

Распознавание текста (OCR)

Если этот параметр включен, обработка OCR будет выполняться в файлах образов. Обработка OCR выполняется в следующих ситуациях:

При добавлении в дело хранителей и источников данных, не относящихся к хранению. При применении OCR к файлам изображений текст в этих файлах будет доступен для поиска во время коллекции. Обработка OCR выполняется во время расширенного процесса индексирования . OCR выполняется только для элементов, которые обрабатываются во время расширенного индексирования. Например, если во время расширенного индексирования обрабатывается большой PDF-файл, который частично индексирован или с другими ошибками индексирования, к файлу также будет применено распознавание текста. Другими словами, обработка OCR выполняется только для файлов, которые переиндексированы во время расширенного процесса индексирования. Это означает, что могут возникнуть ситуации, когда в дело добавляются хранители, но некоторые вложения электронной почты не будут обрабатываться для OCR, так как эти файлы не обрабатываются во время расширенного индексирования.
При добавлении содержимого из других источников данных (которые не связаны с хранителем и добавляются в дело в нерепециальном источнике данных) в набор для проверки.

После добавления данных в набор для проверки текст изображения можно просмотреть, выполнить поиск, пометить тегами и проанализировать. Извлеченный текст можно просмотреть в средстве просмотра текста выбранного файла изображения в наборе для проверки. Дополнительные сведения см. в разделе: