電子情報開示検索結果での重複排除

この記事では、電子情報開示検索結果の重複除去のしくみと、重複除去アルゴリズムの制限事項について説明します。

電子情報開示ツールを使用して電子情報開示検索の結果をエクスポートする場合は、エクスポートされた結果を重複解除することができます。 これはどういう意味ですか? 重複除去を有効にすると (既定では重複除去は有効になっていません)、検索されたメールボックスに同じメッセージの複数のインスタンスが見つかった場合でも、電子メール メッセージのコピーは 1 つだけエクスポートされます。 重複除去は、検索結果のエクスポート後に確認および分析する必要がある項目の数を減らすことで、時間を節約するのに役立ちます。 ただし、重複除去のしくみを理解し、エクスポート プロセス中に一意の項目が重複としてマークされるアルゴリズムに制限があることに注意することが重要です。

重複するメッセージを識別する方法

電子情報開示ツールでは、次の電子メール プロパティの組み合わせを使用して、メッセージが重複しているかどうかを判断します。

  • InternetMessageId - このプロパティは、電子メール メッセージのインターネット メッセージ識別子を指定します。これは、特定のメッセージの特定のバージョンを参照するグローバルに一意の識別子です。 この ID は、送信者の電子メール クライアント プログラムまたはメッセージを送信するホスト電子メール システムによって生成されます。 ユーザーが複数の受信者にメッセージを送信する場合、インターネット メッセージ ID はメッセージのインスタンスごとに同じになります。 元のメッセージに対する後続のリビジョンは、別のメッセージ識別子を受け取ります。

  • ConversationTopic - このプロパティは、メッセージの会話スレッドの件名を指定します。 ConversationTopic プロパティの値は、会話の全体的なトピックを記述する文字列です。 会話は、最初のメッセージと、最初のメッセージに応答して送信されたすべてのメッセージで構成されます。 同じ会話内のメッセージは、 ConversationTopic プロパティに対して同じ値を持っています。 通常、このプロパティの値は、会話を生成した最初のメッセージの件名行です。

  • BodyTagInfo - これは内部 Exchange ストア プロパティです。 このプロパティの値は、メッセージの本文内のさまざまな属性をチェックすることによって計算されます。 このプロパティは、メッセージ本文の違いを識別するために使用されます。

電子情報開示のエクスポート プロセス中に、検索条件に一致するすべてのメッセージについて、これら 3 つのプロパティが比較されます。 これらのプロパティが 2 つ以上のメッセージで同じ場合、それらのメッセージは重複していると判断され、重複除去が有効になっている場合、メッセージのコピーは 1 つだけエクスポートされます。 エクスポートされるメッセージは、"ソース アイテム" と呼ばれます。 重複するメッセージに関する情報は、エクスポートされた検索結果に含まれる Results.csv レポートと Manifest.xml レポートに含まれています。 Results.csv ファイルでは、[アイテムに複製] 列に値が含まれていると 、重複するメッセージが 識別されます。 この列の値は、エクスポートされたメッセージの アイテム ID 列の値と一致します。

次の図は、検索結果と共にエクスポートされた Results.csv レポートと Manifest.xml レポートに重複するメッセージがどのように表示されるかを示しています。 これらのレポートには、重複除去アルゴリズムで使用される前述の電子メール プロパティは含まれません。 代わりに、レポートには、Exchange ストアによってアイテムに割り当てられる Item Identity プロパティが含まれます。

Results.csv レポート (Excel で表示)

Results.csv レポート内の重複するアイテムに関する情報を表示します。

Manifest.xml レポート (Excel で表示)

Manifest.xml レポート内の重複するアイテムに関する情報を表示します。

さらに、重複するメッセージの他のプロパティもエクスポート レポートに含まれます。 これには、重複するメッセージが存在するメールボックス、メッセージが配布グループに送信されたかどうか、メッセージが Cc'd または Bcc'd であったかどうかが別のユーザーに含まれます。

重複除去アルゴリズムの制限事項

重複除去アルゴリズムには、一意の項目が重複としてマークされる可能性がある既知の制限事項がいくつかあります。 オプションの重複除去機能を使用するかどうかを決定できるように、これらの制限事項を理解することが重要です。

重複除去機能によって誤ってメッセージが重複として識別され、エクスポートされない場合があります (ただし、エクスポート レポートでは重複として引用されます)。 これらは、ユーザーが編集しても送信しないメッセージです。 たとえば、ユーザーが Outlook でメッセージを選択し、メッセージの内容をコピーして、新しいメッセージに貼り付けたとします。 次に、添付ファイルを削除または追加したり、件名や本文自体を変更したりして、コピーの 1 つを変更します。 これら 2 つのメッセージが電子情報開示検索のクエリと一致する場合、検索結果のエクスポート時に重複除去が有効になっている場合、そのうちの 1 つのメッセージのみがエクスポートされます。 そのため、元のメッセージまたはコピーしたメッセージが変更された場合でも、変更されたメッセージはどちらも送信されないため、 InternetMessageIdConversationTopicBodyTagInfo のプロパティの値は更新されませんでした。 ただし、前述のように、両方のメッセージがエクスポート レポートに一覧表示されます

一意のメッセージは、メールボックスが訴訟ホールドまたはIn-Place保留になっている場合と同様に、書き込み時のコピー ページ保護機能が有効になっている場合に重複としてマークすることもできます。 書き込み時コピー機能は、元のアイテムのリビジョンが保存される前に、元のメッセージをコピーします (また、ユーザーの回復可能なアイテム フォルダーの Versions フォルダーに保存します)。 この場合、変更されたコピーと元のメッセージ (回復可能なアイテム フォルダー内) は重複メッセージと見なされる可能性があるため、エクスポートされるのはそのうちの 1 つのみです。

重要

重複除去アルゴリズムの制限が検索結果の品質に影響する可能性がある場合は、アイテムをエクスポートするときに重複除去を有効にしないでください。 このセクションで説明する状況が検索結果の要因になる可能性が低く、重複する可能性が最も高いアイテムの数を減らす場合は、重複除去を有効にすることを検討する必要があります。

詳細情報