Erstellen eines Extraktors in Microsoft Syntex

Gilt für: ✓ Unstrukturierte Dokumentverarbeitung



Vor oder nach der Erstellung eines Klassifizierermodells zur Automatisierung der Identifikation und Klassifizierung bestimmter Dokumenttypen können Sie dem Modell optional Extraktoren hinzufügen, um diesen Dokumenten spezifische Informationen zu entnehmen. Vielleicht möchten Sie zum Beispiel, dass Ihr Modell nicht nur alle zu Ihrer Dokumentbibliothek hinzugefügten Dokumente zu Vertragsverlängerungen identifiziert, sondern es soll auch für jedes Dokument das Startdatum der Inbetriebnahme als Spaltenwert in der Dokumentbibliothek angezeigt werden.

Dazu müssen Sie für jede Entität, die aus dem Dokument extrahiert werden soll, einen Extraktor erstellen. In unserem Beispiel möchten wir das Startdatum des Diensts für jedes Dokument zur Vertragsverlängerung extrahieren, das vom Modell identifiziert wird. Wir möchten in der Dokumentbibliothek eine Ansicht aller Vertragsverlängerungsdokumente mit einer Spalte anzeigen können, die den Wert des Dienststartdatums jedes Dokuments anzeigt.

Hinweis

Für die Erstellung eines Extraktors benutzen Sie dieselben Dateien, die Sie zuvor hochgeladen haben, um den Klassifizierer zu trainieren.

Benennen des Extraktors

  1. Wählen Sie auf der Startseite des Modells auf der Kachel Extraktoren erstellen und trainieren die Option Extraktor trainieren aus.

  2. Geben Sie in der Anzeige Neue Entitätsextraktionsfunktion den Namen Ihres Extraktors in das Feld Neuer Extraktorname ein. Vergeben Sie beispielsweise den Namen Startdatum der Inbetriebnahme, wenn Sie das Startdatum der Inbetriebnahme aus jedem Dokument zu Vertragsverlängerungen extrahieren möchten. Sie können auch eine bereits erstellte Spalte wiederverwenden (beispielsweise eine Spalte mit verwalteten Metadaten).

    Standardmäßig ist der Spaltentyp Eine Textzeile. Wenn Sie den Spaltentyp ändern möchten, wählen Sie Erweiterte Einstellungen>Spaltentyp und dann den gewünschten Typ aus.

    Screenshot: Bereich

    Hinweis

    Für Extraktoren mit dem Spaltentyp Einzelne Textzeile beträgt die maximale Zeichengrenze 255. Alle Zeichen, die Sie auswählen, die den Grenzwert überschreiten, werden abgeschnitten. Wenn Sie mehr als 255 Zeichen auswählen möchten, wählen Sie beim Erstellen des Extraktors den Spaltentyp Mehrere Textzeilen aus.

    Standardmäßig werden mehrere Zeilen mit Textspalten mit einer Beschränkung auf die Menge an Text erstellt, die hinzugefügt werden kann. In diesem Fall wird extrahierter Text möglicherweise abgeschnitten angezeigt. In diesem Fall kann die Spalteneinstellung Unbegrenzte Länge in Dokumentbibliotheken zulassen verwendet werden, um den Grenzwert zu entfernen.

  3. Wenn Sie fertig sind, wählen Sie Erstellen aus.

Hinzufügen einer Beschriftung

Im nächsten Schritt beschriften Sie die Entität, die Sie aus Ihren Beispiel-Schulungsdateien extrahieren möchten.

Durch das Erstellen eines Extraktors wird die Extraktorseite geöffnet. Dort sehen Sie eine Liste Ihrer Beispieldateien, wobei die erste Datei auf der Liste im Viewer angezeigt wird.

  1. Wählen Sie im Viewer die Daten, die aus den Dateien extrahiert werden sollen. Wenn Sie beispielsweise das Startdienstdatum extrahieren möchten, markieren Sie den Datumswert in der ersten Datei (Montag, 14. Oktober 2022). und wählen Sie dann Speichern aus. Der Wert sollte in der Liste mit beschrifteten Beispielen in der Spalte Beschriftung angezeigt werden.

  2. Wählen Sie Nächste Datei aus, um automatisch zu speichern, und öffnen Sie die nächste Datei in der Liste im Viewer. Oder wählen Sie Speichern, und wählen Sie dann eine andere Datei aus der Liste Beschriftete Beispiele aus.

  3. Wiederholen Sie im Viewer die Schritte 1 und 2, und wiederholen Sie dann den gesamten Vorgang, bis Sie die Beschriftung aller fünf Dateien gespeichert haben.

    Erweiterte Einstellungen.

Wenn Sie die Beschriftung der Dateien abgeschlossen haben, zeigt ein Benachrichtigungsbanner an, dass Sie zur Schulung fortfahren können. Sie können noch weitere Dokumente beschriften oder mit der Schulung fortfahren.

Verwenden Sie „Suchen“, um Ihre Datei zu durchsuchen

Sie können das Feature Suchen verwenden, um nach einer Entität in Ihrem Dokument zu suchen, die Sie beschriften möchten.

Suchen in der Datei.

Das Feature Suchen ist nützlich, wenn Sie ein großes Dokument durchsuchen oder wenn mehrere Instanzen der Entität im Dokument vorhanden sind. Wenn Sie mehrere Instanzen finden, können Sie in den Suchergebnissen die Instanz auswählen, die Sie benötigen, um zu diesem Ort im Viewer zu wechseln, sodass Sie sie beschriften können.

Hinzufügen einer Erläuterung

In unserem Beispiel erstellen wir eine Erklärung, die einen Hinweis zum Entitätsformat selbst und zu Variationen enthält, die es in den Beispieldokumenten haben könnte. Ein Datumswert kann beispielsweise in verschiedenen Formaten vorliegen, z. B.:

  • 10/14/2022
  • Dienstag, 14. Oktober 2022
  • Montag, 14. Oktober 2022

Um das Startdatum des Diensts zu identifizieren, können Sie eine Mustererklärung erstellen.

  1. Wählen Sie im Abschnitt Erläuterung Neu und geben Sie einen Namen ein (beispielsweise Datum).
  2. Wählen Sie als Typ Musterliste.
  3. Geben Sie als Wert die Datenvarianten an, wie sie in den Beispieldateien angezeigt werden. Wenn Sie z. B. Daten im Format 0/00/0000 haben, geben Sie sämtliche Varianten ein, die in Ihren Dokumenten angezeigt werden, wie z. B.:
    • 0/0/0000
    • 0/00/0000
    • 00/0/0000
    • 00/00/0000
  4. Klicken Sie auf Speichern.

Hinweis

Weitere Informationen zu Erläuterungstypen erhalten Sie unter Erläuterungstypen.

Verwenden der Erklärungsbibliothek

Zum Erstellen von Erklärungen für Elemente wie Datumsangaben ist es einfacher, die Erklärungsbibliothek zu verwenden , als alle Variationen manuell einzugeben. Die Erläuterungsbibliothek ist eine Zusammenstellung vordefinierter Erläuterungen zu Begriffen und Mustern. Die Bibliothek versucht, alle Formate für allgemeine Ausdrucks- oder Musterlisten bereitzustellen, z. B. Datumsangaben, Telefonnummern, Postleitzahlen und viele andere.

Für das Beispiel Dienststartdatum ist es effizienter, die vordefinierte Erklärung für Date in der Erklärungsbibliothek zu verwenden:

  1. Wählen Sie im Abschnitt Erläuterungdie Option Neu, und wählen Sie dann Aus der Erläuterungsbibliothek.

  2. Wählen Sie in der Erläuterungsbibliothek Datum. Sie können alle Varianten von Datumsangaben anzeigen lassen, die erkannt werden.

  3. Klicken Sie auf Hinzufügen.

    Erklärungsbibliothek.

  4. Auf der Seite Eine Erläuterung erstellen werden die Felder automatisch mit Informationen zum Datum aus der Erläuterungsbibliothek ausgefüllt. Wählen Sie Speichern aus.

    Datum.

Trainieren des Modells

Das Speichern Ihrer Erklärung beginnt mit dem Training. Wenn Ihr Modell über genügend Informationen verfügt, um die Daten aus Ihren beschrifteten Beispieldateien zu extrahieren, sehen Sie jede Datei mit der Bezeichnung Übereinstimmung.

Match.

Wenn die Erklärung nicht genügend Informationen enthält, um die Daten zu finden, die Sie extrahieren möchten, wird jede Datei mit Nichtübereinstimmung bezeichnet. Sie können Nicht übereinstimmende Dateien auswählen, um weitere Informationen darüber anzuzeigen, warum ein Konflikt aufgetreten ist.

Hinzufügen einer weiteren Erläuterung

Häufig ist der Konflikt ein Hinweis darauf, dass die von uns bereitgestellte Erklärung nicht genügend Informationen bereitstellte, um den Wert für das Startdatum des Diensts so zu extrahieren, dass er mit unseren bezeichneten Dateien übereinstimmt. Möglicherweise müssen Sie sie bearbeiten oder eine weitere Erklärung hinzufügen.

In unserem Beispiel können Sie sehen dass die Textzeichenfolge Startdatum für die Inbetriebnahme von immer vor dem tatsächlichen Wert steht. Um die Erkennung des Startdatums der Inbetriebnahme zu unterstützen, müssen Sie eine Erläuterung des Musters hinzufügen.

  1. Wählen Sie im Abschnitt Erläuterung Neu und geben Sie einen Namen ein (beispielsweise Präfixzeichenfolge).

  2. Wählen Sie als Typ Begriffsliste.

  3. Verwenden Sie Startdatum für die Inbetriebnahme von als Wert.

  4. Wählen Sie Speichern aus.

    Präfixzeichenfolge.

Erneutes Trainieren des Modells

Durch das Speichern der Erläuterung wird die Schulung erneut gestartet. Dieses Mal werden beide Erläuterungen in dem Beispiel verwendet. Wenn Ihr Modell über ausreichend Informationen verfügt, um Daten aus der Liste beschrifteter Beispiele zu extrahieren, wird jede Datei mit Übereinstimmung beschriftet.

Wenn Sie erneut Keine Übereinstimmung für Ihre beschrifteten Dateien erhalten, müssen Sie wahrscheinlich eine weitere Erläuterung erstellen, um dem Modell mehr Informationen zu liefern, mithilfe derer es den Dokumenttyp identifizieren kann, oder Änderungen an Ihren bestehenden Erläuterungen vornehmen.

Testen Ihres Modells

Wenn Sie eine Übereinstimmung mit den beschrifteten Beispieldateien erhalten haben, können Sie nun das Modell für die restlichen nicht beschrifteten Beispieldateien testen. Dieser Schritt ist optional, aber nützlich, um die "Fitness" oder Bereitschaft des Modells zu bewerten, bevor es verwendet wird, indem es in Dateien getestet wird, die das Modell noch nicht gesehen hat.

  1. Wählen Sie auf der Startseite des Modells die Registerkarte Test aus. Dadurch wird das Modell für Ihre nicht bezeichneten Beispieldateien ausgeführt.

  2. In der Liste der Testdateien werden Ihre Beispieldateien angezeigt, um zu zeigen, ob das Modell die benötigten Informationen extrahieren kann. Mithilfe dieser Informationen können Sie ermitteln, wie effektiv Ihr Klassifizierer bei der Identifizierung Ihrer Dokumente ist.

    Testen mit Ihren Dateien.

Weitere Verfeinerung eines Extraktors

Wenn Sie über doppelte Entitäten verfügen und nur einen Wert oder eine bestimmte Anzahl von Werten extrahieren möchten, können Sie eine Regel festlegen, um anzugeben, wie sie verarbeitet werden soll. Führen Sie die folgenden Schritte aus, um eine Regel zum Verfeinern extrahierter Informationen hinzuzufügen:

  1. Wählen Sie auf der Startseite des Modells im Abschnitt Entitätsextraktoren den Extraktor aus, den Sie verfeinern möchten, und wählen Sie dann Extrahierte Informationen einschränken aus.

    Screenshot des Abschnitts

  2. Wählen Sie auf der Seite Extrahierte Informationen einschränken eine der folgenden Regeln aus:

    • Behalten Sie einen oder mehrere der ersten Werte bei.
    • Behalten Sie mindestens einen der letzten Werte bei.
    • Entfernen doppelter Werte
    • Behalten Sie eine oder mehrere der ersten Zeilen bei.
    • Behalten Sie mindestens eine der letzten Zeilen bei.

    Screenshot der Seite

  3. Geben Sie die Anzahl der Zeilen oder Werte ein, die Sie verwenden möchten, und wählen Sie dann Verfeinern aus.

  4. Wenn Sie eine Regel bearbeiten möchten, indem Sie die Anzahl der Zeilen oder Werte ändern, wählen Sie den Extraktor aus, den Sie bearbeiten möchten, wählen Sie Extrahierte Informationen verfeinern aus, ändern Sie die Zahl, und wählen Sie dann Speichern aus.

  5. Wenn Sie den Extraktor testen, können Sie die Einschränkung in der Spalte Einschränkungsergebnis der Liste Testdateien sehen.

    Liste

  6. Wenn Sie eine Einschränkungsregel für einen Extraktor löschen möchten, wählen Sie den Extraktor aus, aus dem Sie die Regel entfernen möchten, wählen Sie Extrahierte Informationen einschränken und dann Löschen aus.

Siehe auch

Erstellen einer Klassifizierung

Beschreibungstypen

Nutzung der Terminologiespeichertaxonomie beim Erstellen eines Extraktors

Syntex-Barrierefreiheitsmodus