Сведения о параметрах поиска и аналитики в случаях обнаружения электронных данных

Вы можете настроить параметры для каждого случая обнаружения электронных данных, чтобы управлять следующими функциями:

Неполные дубликаты и цепочки сообщений
Темы
Автоматически созданный запрос набора для проверки
Игнорирование текста
Распознавание текста

Совет

Приступая к работе с Microsoft Security Copilot изучить новые способы интеллектуальной и быстрой работы с использованием возможностей ИИ. Дополнительные сведения о Microsoft Security Copilot в Microsoft Purview.

Настройка параметров аналитики для обращения

Чтобы настроить параметры поиска и аналитики для дела, выполните следующие действия:

Перейдите на портал Microsoft Purview и войдите с учетными данными для учетной записи пользователя, назначенной разрешениями на обнаружение электронных данных.
Выберите решение eDiscovery карта, а затем выберите Варианты на панели навигации слева.
Выберите вариант, а затем выберите Параметры вариантов.
В разделе Параметры вариантов выберите Поиск & аналитика.
Откроется страница "Поиск & аналитика ". Эти параметры применяются ко всем наборам проверки в случае.
Выбрав подходящие параметры поиска и аналитики, нажмите кнопку Сохранить.

В следующих разделах описаны параметры аналитики, которые можно настроить для конкретного случая.

Неполные дубликаты и цепочки сообщений

В этом разделе задаются параметры для обнаружения повторяющихся данных, обнаружения почти повторяющихся данных и потоков электронной почты.

Почти дубликаты или потоки электронной почты: При включении этого параметра рабочий процесс включает обнаружение повторяющихся данных, обнаружение почти повторяющихся данных и потоки электронной почты при выполнении аналитики данных в наборе для проверки.
Пороговое значение сходства документов и электронной почты: Если уровень сходства для двух документов превышает пороговое значение, оба документа находятся в одном и том же наборе, близком к дубликату.
Минимальное или максимальное количество слов: Эти параметры указывают, что почти дубликаты и анализ потоков электронной почты выполняются только в документах с минимальным количеством слов и максимальным количеством слов.

Обнаружение схожих документов (почти дубликатов)

Рассмотрите набор документов для проверки, где подмножество документов использует один и тот же шаблон и в основном один и тот же стандартный язык, с некоторыми отличиями. Если рецензент может определить это подмножество, тщательно изучить один из них и просмотреть различия для остальных, он не пропустит ни одной уникальной информации, занимая лишь часть времени, необходимого для чтения всех документов. При обнаружении почти одинаковых документов текстовые документы группируются вместе, чтобы помочь вам сделать процесс проверки более эффективным.

При выполнении почти повторяющегося обнаружения система анализирует каждый документ с текстом. Затем он сравнивает каждый документ друг с другом, чтобы определить, превышает ли их сходство установленный порог. Если это так, система группирует документы вместе. После сравнения и группировки всех документов система помечает документ из каждой группы как "сводка"; При просмотре документов вы можете сначала просмотреть сводку и другие документы в том же почти повторяемом наборе, сосредоточив внимание на разнице между сводной и проверяемой документацией.

Потоки почты

Рассмотрим беседу по электронной почте, которая продолжается некоторое время. В большинстве случаев последнее сообщение в потоке электронной почты содержит содержимое всех предыдущих сообщений. Таким образом, просмотр последнего сообщения дает полный контекст беседы, которая произошла в потоке. Цепочки сообщений электронной почты определяют такие сообщения, чтобы проверяющие могли просмотреть часть собранных документов без потери контекста.

Email потоков в обнаружении электронных данных — это процесс организации последовательности связанных сообщений электронной почты, которые являются частью одной беседы. Эта последовательность включает в себя начальное сообщение электронной почты и все последующие ответы и перенаправления, связанные с исходным письмом. Группируя эти сообщения электронной почты в потоки, рецензенты видят весь контекст беседы, что упрощает понимание потока общения. Такой подход помогает рецензентам более эффективно определять соответствующую информацию и избавляет от необходимости проверять каждое электронное письмо по отдельности. Email сообщения, включенные в процесс аналитики, заполняются следующими метаданными:

Включено. Это поле определяет, содержит ли сообщение электронной почты все уникальное содержимое из потока, включая все предыдущие ответы. Это гарантирует, что проверяется только наиболее полное сообщение электронной почты в потоке, что важно для понимания полного контекста беседы без необходимости просматривать каждый отдельный ответ.
Имеет уникальные вложения. Это поле помечает сообщения электронной почты, содержащие вложения, не найденные в других сообщениях в том же потоке. Даже если содержимое сообщения электронной почты дублируется, уникальные вложения помечаются для проверки всех соответствующих документов. Этот аспект имеет важное значение в процессе юридической проверки, чтобы гарантировать отсутствие уникальных доказательств, даже если текст сообщения электронной почты не является уникальным.

Чем это отличается от бесед в Outlook?

С первого взгляда этот процесс похож на группы бесед в Outlook. Однако существуют некоторые важные различия. Рассмотрим беседу по электронной почте, которая вилки в две беседы. Например, кто-то отвечает на сообщение, которое не является последним в беседе, поэтому два последних сообщения в беседе содержат уникальное содержимое.

Outlook по-прежнему группирует сообщения электронной почты в одну беседу. Чтение только последнего сообщения электронной почты может пропустить контекст второго к последнему сообщению электронной почты, который также содержит уникальное содержимое. Так как потоки электронной почты анализируют каждое сообщение на отдельные компоненты и сравнивают их, потоки электронной почты помечают оба последних двух электронных письма как инклюзивные, гарантируя, что вы не пропустите контекст до тех пор, пока вы читаете все сообщения электронной почты, помеченные как инклюзивные.

Давайте также рассмотрим поток электронной почты с несколькими ответами, где некоторые ответы включают встроенные ответы, которые изменяют цитируемое содержимое. Если встроенный ответ изменяет часть предыдущего сообщения, последний ответ не полностью охватывает содержимое предыдущего сообщения. Как последний ответ, так и более раннее письмо с уникальным содержимым помечаются как инклюзивные. Такой подход гарантирует, что все уникальные сведения из встроенного ответа сохраняются и не упускаются из виду.

Темы

В этом разделе можно задать следующие параметры для тем:

Темы: Если этот параметр включен, рабочий процесс выполняет кластеризация темы при выполнении аналитики данных в наборе для проверки.
Максимальное количество тем: Указывает максимальное количество тем, которые рабочий процесс может создать при выполнении аналитики данных в наборе для проверки.
Включите числа в темы: Если этот параметр включен, рабочий процесс включает числа, определяющие тему при создании тем.
Динамическое изменение максимального числа тем: В некоторых ситуациях в наборе для проверки может быть недостаточно документов для создания нужного количества тем. Когда этот параметр включен, eDiscovery динамически настраивает максимальное количество тем, а не пытается принудительно установить максимальное количество тем.

При создании нового документа вы обычно начинаете с одной или нескольких идей, которые вы хотите передать в документе, а затем создаете документ, используя слова, которые соответствуют этим идеям. Чем более распространена идея, тем чаще встречаются слова, связанные с этой идеей. Этот метод также согласуется с тем, как читатели используют документы. Важные моменты, которые необходимо понять при чтении документа, — это основные идеи, которые документ пытается передать. Это понимание также включает в себя, где появляются идеи и какие отношения между идеями.

Этот процесс можно расширить, чтобы рецензент обнаружения электронных данных хотел использовать набор документов в деле. Они хотят узнать, какие идеи присутствуют в наборах для проверки и какие документы обсуждают эти идеи. Если они находят конкретный интересующий документ, они хотят иметь возможность видеть документы, в которых обсуждаются аналогичные идеи.

Функция Темы в обнаружении электронных данных пытается имитировать то, как люди рассуждают о документах, анализируя темы , обсуждаемые в наборе для проверки, и присваивая тему документам в наборе для проверки. В обнаружении электронных данных темы идут еще дальше и определяют доминирующую тему в каждом наборе и документе для проверки. Основной темой является тема, которая чаще всего появляется в документе.

Как работают темы?

Функция Темы анализирует документы с текстом в наборе для проверки для анализа общих тем, которые отображаются во всех документах в наборе для проверки. eDiscovery присваивает эти темы документам, в которых они появляются. Он также помечает каждую тему словами, которые используются в документах, которые представляют эту тему. Поскольку документ может содержать различные типы предметов, обнаружение электронных данных часто назначает несколько тем для проверки наборов и документов. Это назначение называется списком тем. Тема, наиболее заметная в наборе для проверки или документе, обозначена в качестве основной темы.

Настройка тем

Темы поддерживаются для вариантов и применяются ко всем наборам проверки в них. Вы можете настроить параметры для тем при создании нового дела или обновить параметры темы для существующего случая.

Чтобы настроить темы в случае, выполните следующие действия.

Перейдите на портал Microsoft Purview и войдите с учетными данными для учетной записи пользователя, назначенной разрешениями на обнаружение электронных данных.
Выберите решение eDiscovery карта, а затем выберите Варианты (предварительная версия) на панели навигации слева.
Выберите вариант, а затем выберите Параметры вариантов.
В разделе Параметры вариантов выберите Поиск & аналитика.
Выберите следующие параметры темы.
- Максимальное количество тем: Указывает максимальное количество тем, которые рабочий процесс может создать при выполнении аналитики данных в наборах для проверки, включенных в дело. Дополнительные сведения об ограничениях см. в разделе Ограничения в обнаружении электронных данных.
- Включите числа в темы: Числа, определяющие тему, включаются при создании тем.
- Динамическое изменение максимального числа тем: В некоторых ситуациях в наборе для проверки может оказаться недостаточно документов, чтобы получить требуемое количество тем для дела. Если этот параметр включен, максимальное число тем настраивается динамически, а не пытается принудительно применить максимальное число тем.
Если необходимо исключить ключевые слова, связанные с темами, введите текст или регулярное выражение в поле Пропустить текст . В поле Применить к выберите Темы , чтобы применить текст или регулярное выражение ко всем темам.
Выберите Сохранить.

После создания нового дела рабочий процесс автоматически запускает аналитику данных при добавлении наборов проверки в дело. Рабочий процесс создает темы для наборов проверки в рамках обработки аналитики.

Запрос набора для проверки

Если установить флажок Автоматически создавать сохраненный поиск для проверки после аналитики, обнаружение электронных данных автоматически создает запрос набора проверки с именем For Review.

Этот запрос отфильтровывает повторяющиеся элементы из набора для проверки, чтобы можно было быстро просмотреть уникальные элементы в наборе для проверки. Этот запрос создается только при запуске аналитики для набора для проверки в деле. Дополнительные сведения о запросах набора проверки см. в разделе Запрос данных в наборе для проверки.

Игнорирование текста

Определенный текст может снизить качество аналитики, например длинные заявления об отказе от ответственности, которые добавляются в сообщения электронной почты независимо от содержимого сообщения. Если вы знаете текст, который следует игнорировать, его можно исключить из аналитики, указав текстовую строку и функциональность аналитики (почти дубликаты, потоки электронной почты, темы и релевантность), для чего текст должен быть исключен. Также поддерживается использование регулярных выражений (RegEx) для игнорируемого текста.

Распознавание текста (OCR)

Если этот параметр включен, обработка OCR выполняется для файлов изображений. При применении распознавания текста к файлам изображений текст в этих файлах доступен в результатах поиска. OCR выполняется только для элементов, обработанных во время расширенного индексирования (если этот параметр выбран в поисковом запросе).

Например, если во время расширенного индексирования обрабатывается большой PDF-файл, который частично индексируется или имеет другие ошибки индексирования, применяется распознавание текста. Обработка OCR выполняется только для файлов, которые переиндексированы во время расширенного процесса индексирования. Это означает, что могут возникнуть ситуации, когда содержимое добавляется в набор для проверки, но некоторые вложения электронной почты не обрабатываются для OCR, так как эти файлы не обрабатываются во время расширенного индексирования.

После добавления данных в набор для проверки можно просматривать, искать, добавлять теги и анализировать текст изображения. Извлеченный текст можно просмотреть в средстве просмотра текста выбранного файла изображения в наборе для проверки. Дополнительные сведения см. в разделе:

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-03-03