Deduplizierung in eDiscovery-Suchergebnissen

In diesem Artikel wird beschrieben, wie die Deduplizierung von eDiscovery-Suchergebnissen funktioniert, und es werden die Einschränkungen des Deduplizierungsalgorithmus erläutert.

Wenn Sie eDiscovery-Tools zum Exportieren der Ergebnisse einer eDiscovery-Suche verwenden, haben Sie die Möglichkeit, die exportierten Ergebnisse zu deduplizieren. Was bedeutet dies? Wenn Sie die Deduplizierung aktivieren (standardmäßig ist die Deduplizierung nicht aktiviert), wird nur eine Kopie einer E-Mail-Nachricht exportiert, obwohl mehrere Instanzen derselben Nachricht in den durchsuchten Postfächern gefunden wurden. Die Deduplizierung hilft Ihnen, Zeit zu sparen, indem sie die Anzahl der Elemente reduziert, die Sie nach dem Exportieren der Suchergebnisse überprüfen und analysieren müssen. Es ist jedoch wichtig zu verstehen, wie die Deduplizierung funktioniert, und beachten Sie, dass es Einschränkungen für den Algorithmus gibt, die dazu führen können, dass ein eindeutiges Element während des Exportvorgangs als Duplikat markiert wird.

Die Informationen in diesem Artikel gelten für den Export von Suchergebnissen mit einem der folgenden eDiscovery-Tools:

Tipp

Wenn Sie kein E5-Kunde sind, verwenden Sie die 90-tägige Testversion von Microsoft Purview-Lösungen, um zu erfahren, wie zusätzliche Purview-Funktionen Ihre organization die Verwaltung von Datensicherheits- und Complianceanforderungen unterstützen können. Beginnen Sie jetzt im Microsoft Purview-Complianceportal Testversionshub. Erfahren Sie mehr über die Anmelde- und Testbedingungen.

Identifizieren doppelter Nachrichten

eDiscovery-Tools verwenden eine Kombination der folgenden E-Mail-Eigenschaften, um zu bestimmen, ob es sich bei einer Nachricht um ein Duplikat handelt:

  • InternetMessageId : Diese Eigenschaft gibt den Internetnachrichtenbezeichner einer E-Mail-Nachricht an. Hierbei handelt es sich um einen global eindeutigen Bezeichner, der auf eine bestimmte Version einer bestimmten Nachricht verweist. Diese ID wird vom E-Mail-Clientprogramm oder Host-E-Mail-System des Absenders generiert, das die Nachricht sendet. Wenn eine Person eine Nachricht an mehrere Empfänger sendet, ist die Internetnachrichten-ID für jede instance der Nachricht identisch. Nachfolgende Revisionen der ursprünglichen Nachricht erhalten einen anderen Nachrichtenbezeichner.
  • ConversationTopic : Diese Eigenschaft gibt den Betreff des Unterhaltungsthreads einer Nachricht an. Der Wert der ConversationTopic-Eigenschaft ist die Zeichenfolge, die den gesamten Artikel der Unterhaltung beschreibt. Eine Konversation besteht aus einer ersten Nachricht und allen Nachrichten, die als Antwort auf die ursprüngliche Nachricht gesendet werden. Nachrichten innerhalb derselben Unterhaltung haben den gleichen Wert für die ConversationTopic-Eigenschaft . Der Wert dieser Eigenschaft ist in der Regel die Betreffzeile aus der ursprünglichen Nachricht, die die Konversation ausgelöst hat.
  • BodyTagInfo : Dies ist eine interne Exchange-Speichereigenschaft. Der Wert dieser Eigenschaft wird berechnet, indem verschiedene Attribute im Nachrichtentext überprüft werden. Diese Eigenschaft wird verwendet, um Unterschiede im Nachrichtentext zu identifizieren.

Während des eDiscovery-Exportvorgangs werden diese drei Eigenschaften für jede Nachricht verglichen, die den Suchkriterien entspricht. Wenn diese Eigenschaften für zwei (oder mehr) Nachrichten identisch sind, werden diese Nachrichten als Duplikate ermittelt, und das Ergebnis ist, dass nur eine Kopie der Nachricht exportiert wird, wenn die Deduplizierung aktiviert ist. Die exportierte Nachricht wird als "Quellelement" bezeichnet. Informationen zu doppelten Nachrichten sind in den Results.csv - und Manifest.xml Berichten enthalten, die in den exportierten Suchergebnissen enthalten sind. In der Results.csv-Datei wird eine doppelte Nachricht durch einen Wert in der Spalte Duplizieren in Element identifiziert. Der Wert in dieser Spalte entspricht dem Wert in der Spalte Elementidentität für die nachricht, die exportiert wurde.

Die folgenden Grafiken zeigen, wie doppelte Nachrichten in den Results.csv und Manifest.xml Berichten angezeigt werden, die mit den Suchergebnissen exportiert werden. Diese Berichte enthalten nicht die zuvor beschriebenen E-Mail-Eigenschaften, die im Deduplizierungsalgorithmus verwendet werden. Stattdessen enthalten die Berichte die Elementidentitätseigenschaft , die Elementen vom Exchange-Speicher zugewiesen wird.

Results.csv Bericht (in Excel angezeigt)

Anzeigen von Informationen zu doppelten Elementen im Results.csv Bericht.

Manifest.xml Bericht (in Excel angezeigt)

Anzeigen von Informationen zu doppelten Elementen im Manifest.xml Bericht.

Darüber hinaus sind andere Eigenschaften aus doppelten Nachrichten in den Exportberichten enthalten. Dies umfasst das Postfach, in dem sich die doppelte Nachricht befindet, ob die Nachricht an eine Verteilergruppe gesendet wurde und ob die Nachricht Cc'd oder Bcc'd an einen anderen Benutzer war.

Einschränkungen des Deduplizierungsalgorithmus

Es gibt einige bekannte Einschränkungen des Deduplizierungsalgorithmus, die dazu führen können, dass eindeutige Elemente als Duplikate gekennzeichnet werden. Es ist wichtig, diese Einschränkungen zu verstehen, damit Sie entscheiden können, ob Sie die optionale Deduplizierungsfunktion verwenden möchten.

Es gibt eine Situation, in der das Deduplizierungsfeature eine Nachricht versehentlich als Duplikat identifiziert und nicht exportiert (aber dennoch als Duplikat in den Exportberichten zitiert). Dies sind Nachrichten, die ein Benutzer bearbeitet, aber nicht sendet. Angenommen, ein Benutzer wählt eine Nachricht in Outlook aus, kopiert den Inhalt der Nachricht und fügt sie dann in eine neue Nachricht ein. Anschließend ändert der Benutzer eine der Kopien, indem er eine Anlage entfernt oder hinzufügt oder die Betreffzeile oder den Text selbst ändert. Wenn diese beiden Nachrichten mit der Abfrage einer eDiscovery-Suche übereinstimmen, wird nur eine der Nachrichten exportiert, wenn die Deduplizierung beim Exportieren der Suchergebnisse aktiviert ist. Obwohl also die ursprüngliche Nachricht oder die kopierte Nachricht geändert wurde, wurde keine der überarbeiteten Nachrichten gesendet, und daher wurden die Werte der Eigenschaften InternetMessageId, ConversationTopic und BodyTagInfo nicht aktualisiert. Wie bereits erläutert, sind beide Nachrichten jedoch in den Exportberichten aufgeführt.

Eindeutige Nachrichten können auch als Duplikate markiert werden, wenn das Seitenschutzfeature "Beim Schreiben kopieren" aktiviert ist, z. B. im Fall, dass sich ein Postfach im Beweissicherungsverfahren oder In-Place Hold befindet. Das Feature Copy-on-Write kopiert die ursprüngliche Nachricht (und speichert sie im Ordner Versionen des Ordners "Wiederherstellbare Elemente" des Benutzers), bevor die Revision des ursprünglichen Elements gespeichert wird. In diesem Fall können die überarbeitete Kopie und die ursprüngliche Nachricht (im Ordner Wiederherstellbare Elemente) als doppelte Nachrichten betrachtet werden, sodass nur eine davon exportiert wird.

Wichtig

Wenn sich die Einschränkungen des Deduplizierungsalgorithmus auf die Qualität Ihrer Suchergebnisse auswirken können, sollten Sie die Deduplizierung beim Exportieren von Elementen nicht aktivieren. Wenn die in diesem Abschnitt beschriebenen Situationen wahrscheinlich keine Rolle in den Suchergebnissen haben und Sie die Anzahl der Elemente reduzieren möchten, die wahrscheinlich dupliziert werden, sollten Sie die Deduplizierung aktivieren.

Weitere Informationen

Weitere Informationen zum Exportieren von Suchergebnissen finden Sie unter: