Erste Schritte mit trainierbaren Klassifizierern

2025-04-01

Ein trainierbarer Microsoft Purview-Klassifizierer ist ein Tool, das Sie trainieren können, um verschiedene Arten von Inhalten zu erkennen, indem Sie ihm Beispiele zum Betrachten geben. Nach dem Training können Sie es verwenden, um Elemente für die Anwendung von Office-Vertraulichkeitsbezeichnungen, Kommunikationskonformitätsrichtlinien und Aufbewahrungsbezeichnungsrichtlinien zu identifizieren.

Für die Implementierung eines benutzerdefinierten trainierbaren Klassifizierers sind zwei Schritte erforderlich:

Stellen Sie zwei Gruppen von Beispieldaten bereit (von Menschen ausgewählt).
1. Ein Satz, der nur Elemente enthält, die in die Kategorie gehören.
2. Ein Satz, der nur Elemente enthält, die nicht in die Kategorie gehören.
Testen Sie die Fähigkeit des Klassifizierers, Übereinstimmungen zu erkennen.

In diesem Artikel wird erläutert, wie Sie einen benutzerdefinierten Klassifizierer erstellen und testen.

Weitere Informationen zu den verschiedenen Klassifizierertypen finden Sie unter Informationen zu trainierbaren Klassifizierern.

Tipp

Wenn Sie kein E5-Kunde sind, verwenden Sie die 90-tägige Testversion von Microsoft Purview-Lösungen, um zu erfahren, wie zusätzliche Purview-Funktionen Ihre Organisation bei der Verwaltung von Datensicherheits- und Complianceanforderungen unterstützen können. Beginnen Sie jetzt im Microsoft Purview-Testversionshub. Erfahren Sie mehr über Anmelde- und Testbedingungen.

Voraussetzungen

Lizenzierung

Informationen zur Lizenzierung finden Sie unter

Berechtigungen

Um Klassifizierer in den folgenden Szenarien verwenden zu können, benötigen Sie die folgenden Berechtigungen:

Szenario	Erforderliche Rollenberechtigungen
Richtlinie für Aufbewahrungsbezeichnungen	Datensatzverwaltung Aufbewahrungsverwaltung
Richtlinie für Vertraulichkeitsbezeichnungen	Sicherheitsadministrator Complianceadministrator Compliancedatenadministrator
Kommunikationskonformitätsrichtlinie	Insider-Risikomanagementadministrator Aufsichtsüberprüfungsadministrator

Wichtig

Standardmäßig kann nur der Benutzer, der einen benutzerdefinierten Klassifizierer erstellt, vorhersagen, die von diesem Klassifizierer erstellt werden, trainieren und überprüfen.

Vorbereitung auf einen benutzerdefinierten trainierbaren Klassifizierer

Es ist hilfreich, zu verstehen, was beim Erstellen eines benutzerdefinierten trainierbaren Klassifizierers erforderlich ist, bevor Sie sich damit befassen.

Allgemeiner Workflow

Weitere Informationen zum gesamten Workflow zum Erstellen benutzerdefinierter trainierbarer Klassifizierer finden Sie im Prozessablauf zum Erstellen benutzerdefinierter trainierbarer Klassifizierer.

Seeding-Inhalte

Um sicherzustellen, dass Ihr trainierbarer Klassifizierer unabhängig und genau identifizieren kann, dass ein Element zu einer bestimmten Inhaltskategorie gehört, müssen Sie es mit vielen Beispielen des Inhaltstyps in der Kategorie präsentieren. Diese Zufuhr von Proben an den trainierbaren Klassifizierer wird als Seeding bezeichnet. Ein Mensch muss die Person sein, die Startinhalte auswählt, und dieser Inhalt muss zwei Datensätze enthalten: eine, die nur Elemente enthält, die den Inhalt, den die Klassifizierung erkennen soll, stark darstellen (positive Stichproben) und eine zweite Gruppe von Elementen, die eindeutig nicht dazu gehören (negative Stichproben).

Zum Trainieren eines Klassifizierers sind mindestens 50 positive Proben (bis zu 500) und mindestens 150 negative Proben (bis zu 1500) erforderlich. Je mehr Beispiele Sie bereitstellen, desto genauer sind die Vorhersagen, die der Klassifizierer trifft. Der trainierbare Klassifizierer verarbeitet bis zu den 2.000 zuletzt erstellten Stichproben (nach Datei erstelltem Datums-/Zeitstempel).

Tipp

Um optimale Ergebnisse zu erzielen, verfügen Sie über mindestens 200 Elemente in Ihrem Testbeispielsatz, der mindestens 50 positive Und mindestens 150 negative Beispiele enthält.

Erstellen eines trainierbaren Klassifizierers

In der Vorschau: Der folgende Prozess automatisiert das Testen trainierbarer Klassifizierer und verkürzt den Erstellungsworkflow von 12 Tagen auf zwei Tage. (In einigen Fällen kann der Prozess nur wenige Stunden dauern.)

Sammeln Sie zwischen 50 und 500 Ausgangsinhaltselemente, die die Daten stark darstellen, die der Klassifizierer positiv als in der Kategorie identifizieren soll. Eine Liste der unterstützten Dateitypen finden Sie unter Standarddurchforstung von Dateinamenerweiterungen und analysierten Dateitypen in SharePoint Server.
Sammeln Sie einen zweiten Satz von Startinhalten (von 150 bis 1500 Elementen), der Daten darstellt, die nicht in die Kategorie gehören.
Platzieren Sie den positiven und negativen Startinhalt in separaten SharePoint-Ordnern. Jeder Ordner muss dediziert sein, um nur den Startinhalt zu speichern. Notieren Sie sich die Website, Bibliothek und Ordner-URL für jede Gruppe.

Tipp

Wenn Sie eine neue SharePoint-Website und einen neuen Ordner für Ihre Seeddaten erstellen, warten Sie mindestens eine Stunde, bis dieser Speicherort indiziert wird, bevor Sie den trainierbaren Klassifizierer erstellen, der diese Seeddaten verwendet.
Melden Sie sich entweder beim Microsoft Purview-Portal oder im Microsoft Purview-Portal mit der Rolle "Complianceadministrator" oder "Sicherheitsadministrator" an, und navigieren Sie zu "Data loss prevention>Data classification>classifiers".
Wählen Sie die Registerkarte Trainierbare Klassifizierer aus .
Wählen Sie Trainierbare Klassifizierung erstellen aus.
Fügen Sie die Quelle Ihrer positiven Beispiele hinzu: Wählen Sie die SharePoint-Website, Bibliothek und Ordner-URL für den Startinhalt aus, der vom Klassifizierer erkannt werden soll, und wählen Sie dann Weiter aus.
Fügen Sie die Quelle Ihrer negativen Beispiele hinzu: Wählen Sie die Url der SharePoint-Website, -Bibliothek und des Ordners für den Startinhalt aus, der vom Klassifizierer ignoriert werden soll, und wählen Sie dann Weiter aus.
Überprüfen Sie die Einstellungen, und wählen Sie Trainierbare Klassifizierung erstellen aus.
Innerhalb von maximal 24 Stunden verarbeitet der trainierbare Klassifizierer die Startdaten und erstellt ein Vorhersagemodell. Der Status des Klassifizierers ist In Arbeit, während die Seedingdaten verarbeitet werden. Wenn der Klassifizierer die Verarbeitung der Startdaten abgeschlossen hat, ist die status Änderungen an Training abgeschlossen, und die Elemente wurden getestet.
Sobald das Training abgeschlossen ist und Elemente (automatisch) getestet wurden, veröffentlichen Sie die Klassifizierung, indem Sie zur Verwendung Veröffentlichen auswählen.

Nach der Veröffentlichung ist Ihr Klassifizierer als Bedingung in office auto-labeling with sensitivity labels, autoapply retention label policy based on a condition and in Communication compliance verfügbar.

Testen Der Klassifizierung

Sobald der trainierbare Klassifizierer genügend positive und negative Stichproben verarbeitet, um ein Vorhersagemodell zu erstellen, müssen Sie die von ihr getroffenen Vorhersagen testen. Beim Testen des Klassifizierers überprüfen Sie, ob seine Vorhersagen richtig sind. Nachdem alle Daten verarbeitet wurden, gehen Sie die Ergebnisse manuell durch, und überprüfen Sie, ob jede Vorhersage richtig, falsch oder Sie nicht sicher sind. Microsoft verwendet dieses Feedback aggregiert, um das Vorhersagemodell zu verbessern.