Настройка параметров поиска и аналитики для случаев обнаружения электронных данных (премиум)

Вы можете настроить параметры для каждого случая Microsoft Purview eDiscovery (Премиум), чтобы управлять следующими функциями:

  • Неполные дубликаты и цепочки сообщений
  • Темы
  • Автоматически созданный запрос набора для проверки
  • Игнорирование текста
  • Распознавание текста

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Настройка параметров аналитики для обращения

Чтобы настроить параметры поиска и аналитики для дела, выполните следующие действия:

  1. На странице eDiscovery (премиум) выберите дело.
  2. На вкладке Параметры в разделе Поиск & аналитика нажмите кнопку Выбрать. Отобразится страница параметров регистра. Эти параметры применяются ко всем наборам проверки в случае.

В следующих разделах этой статьи описаны параметры аналитики, которые можно настроить для конкретного случая.

Неполные дубликаты и цепочки сообщений

В этом разделе вы можете задать параметры для обнаружения повторяющихся данных, обнаружения почти повторяющихся данных и потоков электронной почты. Дополнительные сведения см. в разделе Обнаружение повторяющихся данных и Email потоков.

  • Почти дубликаты или потоки электронной почты: Если этот параметр включен, обнаружение повторяющихся данных, обнаружение почти повторяющихся данных и потоки электронной почты включаются в рабочий процесс при выполнении аналитики данных в наборе для проверки.
  • Пороговое значение сходства документов и электронной почты: Если уровень сходства для двух документов превышает пороговое значение, оба документа помещаются в один и тот же набор, почти повторяющийся.
  • Минимальное или максимальное количество слов: Эти параметры указывают, что почти дубликаты и анализ потоков электронной почты выполняются только в документах с минимальным количеством слов и максимальным количеством слов.

Темы

В этом разделе вы можете задать параметры для тем. Дополнительные сведения см. в разделе Темы.

  • Темы: Если этот параметр включен, темы кластеризация выполняются в рамках рабочего процесса при выполнении аналитики данных в наборе для проверки.
  • Максимальное количество тем: Указывает максимальное количество тем, которые можно создать при выполнении аналитики данных в наборе для проверки.
  • Включите числа в темы: Если этот параметр включен, числа (которые идентифицируют тему) включаются при создании тем.
  • Динамическое изменение максимального числа тем: В некоторых ситуациях в наборе для проверки может быть недостаточно документов для создания нужного количества тем. Когда этот параметр включен, eDiscovery (премиум) динамически настраивает максимальное количество тем, а не пытается принудительно установить максимальное количество тем.

Запрос набора для проверки

Если установить флажок Автоматически создавать сохраненный поиск для проверки после аналитики, обнаружение электронных данных (премиум) автоматически создает запрос набора проверки с именем For Review.

Автоматически созданный запрос For Review.

Этот запрос в основном отфильтровывает повторяющиеся элементы из набора для проверки. Это позволяет просматривать уникальные элементы в наборе для проверки. Этот запрос создается только при запуске аналитики для набора для проверки в деле. Дополнительные сведения о запросах набора проверки см. в разделе Запрос данных в наборе для проверки.

Игнорирование текста

Существуют ситуации, когда определенный текст снижает качество аналитики, например длинные заявления об отказе от ответственности, которые добавляются в сообщения электронной почты независимо от содержимого сообщения. Если вам известен текст, который следует игнорировать, вы можете исключить его из аналитики, указав текстовую строку и функции аналитики (неполные дубликаты, цепочки сообщений электронной почты, темы и релевантность), для которых следует исключить текст. Также поддерживается использование регулярных выражений (RegEx) в качестве игнорируемого текста.

Распознавание текста (OCR)

Если этот параметр включен, обработка OCR будет выполняться в файлах образов. Обработка OCR выполняется в следующих ситуациях:

  • При добавлении в дело хранителей и источников данных, не относящихся к хранению. При применении OCR к файлам изображений текст в этих файлах будет доступен для поиска во время коллекции. Обработка OCR выполняется во время расширенного процесса индексирования . OCR выполняется только для элементов, которые обрабатываются во время расширенного индексирования. Например, если во время расширенного индексирования обрабатывается большой PDF-файл, который частично индексирован или с другими ошибками индексирования, к файлу также будет применено распознавание текста. Другими словами, обработка OCR выполняется только для файлов, которые переиндексированы во время расширенного процесса индексирования. Это означает, что могут возникнуть ситуации, когда в дело добавляются хранители, но некоторые вложения электронной почты не будут обрабатываться для OCR, так как эти файлы не обрабатываются во время расширенного индексирования.
  • При добавлении содержимого из других источников данных (которые не связаны с хранителем и добавляются в дело в нерепециальном источнике данных) в набор для проверки.

После добавления данных в набор для проверки текст изображения можно просмотреть, выполнить поиск, пометить тегами и проанализировать. Извлеченный текст можно просмотреть в средстве просмотра текста выбранного файла изображения в наборе для проверки. Дополнительные сведения см. в разделе: