Trainieren eines unstrukturierten Dokumentverarbeitungsmodells in Microsoft Syntex

Artikel
02/21/2024

^{Gilt für: ✓ Unstrukturierte Dokumentverarbeitung}

Befolgen Sie die Anweisungen unter Erstellen eines Modells in Syntex , um ein unstrukturiertes Dokumentverarbeitungsmodell in einem Inhaltscenter zu erstellen. Oder befolgen Sie die Anweisungen unter Erstellen eines Modells auf einer lokalen SharePoint-Website , um das Modell auf einer lokalen Website zu erstellen. Beginnen Sie dann mit diesem Artikel, um mit dem Trainieren Ihres Modells zu beginnen.

Erstellen eines Klassifizierers

Ein Klassifizierer ist ein Modelltyp, mit dem Sie die Identifizierung und Klassifizierung eines Dokumententyps automatisieren können.

Sie können zum Beispiel alle Dokumente zur Vertragsverlängerung identifizieren, die Ihrer Dokumentbibliothek hinzugefügt werden, wie in der folgenden Abbildung gezeigt.

Dokument

Das Erstellen eines Klassifizierers ermöglicht es Ihnen, einen neuen SharePoint-Inhaltstyp zu erstellen, der mit dem Modell verknüpft wird.

Beim Erstellen des Klassifizierers müssen Sie Erklärungen erstellen, um das Modell zu definieren. In diesem Schritt können Sie allgemeine Daten notieren, von denen Sie erwarten würden, dass sie diesen Dokumenttyp konsistent finden.

Verwenden Sie Beispiele für den Dokumenttyp ("Beispieldateien"), um Ihr Modell zu "trainieren", um Dateien mit dem gleichen Inhaltstyp zu identifizieren.

Zum Erstellen eines Klassifizierers müssen Sie:

Ihr Modell benennen.
Ihre Beispieldateien hinzufügen.
Beschriften Sie Ihre Beispieldateien.
Erklärung erstellen.
Testen Sie Ihr Modell.

Hinweis

Während Ihr Modell einen Klassifizierer verwendet, um Dokumenttypen zu identifizieren und zu klassifizieren, können Sie sich auch dafür entscheiden, bestimmte Informationen aus jeder durch das Modell identifizierten Datei abzurufen. Erstellen Sie hierzu einen Extraktor, der dem Modell hinzugefügt werden soll. Siehe Erstellen eines Extraktors

Ihr Modell benennen

Der erste Schritt zum Erstellen Ihres Modells ist die Benennung:

Wählen Sie im Inhaltscenter Neu und dann Modell aus.
Wählen Sie auf der Seite Optionen für die Modellerstellungdie Option Lehrmethode aus.
Wählen Sie auf der Seite Unterrichtsmethode: Details die Option Weiter aus.
Geben Sie auf der Seite Modell mit der Unterrichtsmethode erstellen im Feld Modellname den Namen des Modells ein. Wenn Sie beispielsweise Vertragsverlängerungsdokumente identifizieren möchten, könnten Sie das Modell Vertragsverlängerung benennen.
Klicken Sie auf Erstellen. Mit dieser Aktion wird eine Startseite für das Modell erstellt.

Wenn Sie ein Modell erstellen, erstellen Sie auch einen neuen Websiteinhaltstyp. Ein Inhaltstyp stellt eine Kategorie von Dokumenten dar, die gemeinsame Merkmale aufweisen und eine Sammlung von Spalten oder Metadateneigenschaften für diesen bestimmten Inhalt gemeinsam haben. SharePoint-Inhaltstypen werden über den Inhaltstypen-Katalog verwaltet. In diesem Beispiel erstellen Sie beim Erstellen des Modells einen neuen Inhaltstyp Vertragsverlängerung .

Wählen Sie Erweiterte Einstellungen aus, wenn Sie dieses Modell einem vorhandenen Unternehmensinhaltstyp im SharePoint-Inhaltstypkatalog zuordnen möchten, um dessen Schema zu verwenden. Unternehmensinhaltstypen werden im Inhaltstyp-Hub im SharePoint Admin Center gespeichert und für alle Websites im Mandanten syndiziert. Beachten Sie, dass Sie zwar einen vorhandenen Inhaltstyp verwenden können, um sein Schema für die Identifizierung und Klassifizierung zu nutzen, Sie aber dennoch Ihr Modell trainieren müssen, um Informationen aus identifizierten Dateien zu extrahieren.

Erweiterte Einstellungen.

Ihre Beispieldateien hinzufügen

Fügen Sie auf der Startseite des Modells Ihre Beispieldateien hinzu, die Sie benötigen, um das Modell zu trainieren, um Ihren Dokumenttyp zu identifizieren.

Hinweis

Sie sollten die gleichen Dateien sowohl für die Klassifizierer- als auch für die Extraktor-Schulung verwenden. Sie haben jederzeit die Möglichkeit, später weitere hinzuzufügen, aber in der Regel fügen Sie einen vollständigen Satz von Beispieldateien hinzu. Bezeichnen Sie einige, um Ihr Modell zu trainieren, und testen Sie die übrigen nicht bezeichneten, um die Modelleignung zu beurteilen.

Für Ihren Schulungssatz möchten Sie sowohl positive als auch negative Beispiele verwenden:

Positives Beispiel: Dokumente, die den Dokumenttyp darstellen. Diese enthalten Zeichenfolgen und Informationen, die in diesem Dokumenttyp immer vorhanden wären.
Negatives Beispiel: Jedes andere Dokument, das nicht das Dokument darstellt, das Sie klassifizieren möchten.

Achten Sie darauf, mindestens fünf positive Beispiele und mindestens ein negatives Beispiel zu verwenden, um Ihr Modell zu trainieren. Sie möchten eine weitere erstellen, um Ihr Modell nach dem Trainingsprozess zu testen.

Hinzufügen von Beispieldateien:

Wählen Sie auf der Startseite des Modells auf der Kachel Beispieldateien hinzufügen die Option Dateien hinzufügen aus.
Wählen Sie auf der Seite Beispieldateien für Ihr Modell auswählen aus, und wählen Sie Ihre Beispieldateien aus der Bibliothek "Schulungsdateien" im Inhaltscenter aus. Wenn Sie sie noch nicht hochgeladen haben, können Sie sie jetzt hochladen, indem Sie auf Hochladen klicken, um sie in die Bibliothek mit den Trainingsdateien zu kopieren.
Nachdem Sie Ihre Beispieldateien ausgewählt haben, die zum Trainieren des Modells verwendet werden sollen, wählen Sie Hinzufügen aus.

Ihre Beispieldateien bezeichnen

Nachdem Sie Ihre Beispieldateien hinzugefügt haben, müssen Sie sie entweder als positive oder negative Beispiele bezeichnen.

Wählen Sie auf der Startseite des Modells auf der Kachel Dateien klassifizieren und Training ausführen die Option Klassifizierung trainieren aus. In diesem Schritt wird die Bezeichnungsseite angezeigt, auf der eine Liste Ihrer Beispieldateien angezeigt wird, wobei die erste Datei im Viewer angezeigt wird.
Im Viewer oben auf der ersten Beispieldatei sollten Sie einen Text sehen, der Sie fragt, ob die Datei ein Beispiel für das gerade erstellte Modell ist. Wenn es sich um ein positives Beispiel handelt, wählen Sie Ja aus. Wenn es sich um ein negatives Beispiel handelt, wählen Sie Nein aus.
Wählen Sie aus der Liste Bezeichnete Beispiele auf der linken Seite weitere Dateien aus, die Sie als Beispiele verwenden möchten, und bezeichnen Sie diese.

Hinweis

Bezeichnen Sie mindestens fünf positive Beispiele. Sie müssen außerdem mindestens ein negatives Beispiel bezeichnen.

Erklärung erstellen

Der nächste Schritt besteht darin, auf der Seite "Trainieren" eine Erklärung zu erstellen. Eine Erklärung hilft dem Modell zu verstehen, wie das Dokument zu erkennen ist. Beispielsweise enthalten die Dokumente "Vertragsverlängerung" immer eine Textzeichenfolge Anforderung nach zusätzlicher Veröffentlichung.

Hinweis

Bei Verwendung mit Extraktoren identifiziert eine Erklärung die Zeichenfolge, die Sie aus dem Dokument extrahieren möchten.

Erstellen einer Erklärung:

Wählen Sie auf der Homepage des Modells die Registerkarte Trainieren, um zur Seite "Trainieren" zu wechseln.
Auf der Seite "Trainieren" sollten Sie im Abschnitt Geschulte Dateien eine Liste der Beispieldateien sehen, die Sie zuvor bezeichnet haben. Wählen Sie eine der positiven Dateien aus der Liste aus, die im Viewer angezeigt wird.
Wählen Sie im Abschnitt "Erklärung" Neu aus und dann Leerzeichen.
Auf der Seite Erklärung erstellen :
a. Geben Sie den Namen ein (zum Beispiel "Veröffentlichungssperre").
B. Wählen Sie den Typ aus. Wählen Sie für das Beispiel Begriffsliste, da Sie eine Textzeichenfolge hinzufügen.
C. Geben Sie im Feld Hier eingeben die Zeichenfolge ein. Für das Beispiel fügen Sie "Anforderung nach zusätzlicher Veröffentlichung" hinzu. Sie können Groß-/Kleinschreibung beachten", wenn bei der Zeichenfolge zwischen Groß- und Kleinschreibung unterschieden werden muss.
d. Klicken Sie auf Speichern.
Das Inhaltscenter prüft nun, ob die von Ihnen erstellte Erklärung vollständig genug war, um die verbleibenden bezeichneten Beispieldateien korrekt als positive und negative Beispiele zu identifizieren. Überprüfen Sie im Abschnitt Trainierte Dateien die Spalte Evaluation nach Abschluss des Trainings, um die Ergebnisse anzuzeigen. Die Dateien zeigen den Wert Übereinstimmung an, wenn die Erklärungen, die Sie erstellt haben, ausreichend waren, um mit dem übereinzustimmen, was Sie als positiv oder negativ bezeichnet haben.

Wenn Sie Keine Übereinstimmung bei den bezeichneten Dateien erhalten, müssen Sie möglicherweise eine zusätzliche Erklärung erstellen, um dem Modell weitere Informationen zur Identifizierung des Dokumententyps bereitzustellen. Wenn ein Konflikt auftritt, wählen Sie die Datei aus, um weitere Informationen darüber zu erhalten, warum der Konflikt aufgetreten ist.

Nachdem Sie einen Extraktor trainiert haben, kann dieser trainierte Extraktor als Erklärung verwendet werden. Im Abschnitt Erläuterungen wird dies als Modellreferenzangezeigt.

Screenshot des Abschnitts

Testen Ihres Modells

Wenn Sie eine Übereinstimmung für Ihre beschrifteten Beispieldateien erhalten haben, können Sie Ihr Modell jetzt mit ihren verbleibenden nicht bezeichneten Beispieldateien testen, die das Modell noch nicht gesehen hat. Dieser Schritt ist optional, aber ein nützlicher Schritt, um die "Fitness" oder Bereitschaft des Modells zu bewerten, bevor es verwendet wird, indem es in Dateien getestet wird, die das Modell noch nicht gesehen hat.

Wählen Sie auf der Homepage des Modells die Registerkarte Test. Dadurch wird das Modell für Ihre nicht beschrifteten Beispieldateien ausgeführt.
In der Liste Testdateien werden Ihre Beispieldateien angezeigt und zeigen an, ob das Modell sie als positiv oder negativ vorhergesagt hat. Mithilfe dieser Informationen können Sie ermitteln, wie effektiv Ihr Klassifizierer bei der Identifizierung Ihrer Dokumente ist.