Daten und Zahlen aus Dokumenten extrahieren
Während viele zu extrahierende Felder einfache Texte sind, gibt es Fälle, in denen die zu extrahierenden Informationen ein Datum oder eine Zahl einschließlich Beträgen sind.
Das Importieren dieser Daten in ein Zielsystem kann umständlich sein und eine umfangreiche benutzerdefinierte Konvertierungslogik erfordern. Die meisten Importkonnektoren und APIs akzeptieren nur normalisierte Daten im ISO 8601-Format wie YYYY-MM-DD
. Sie akzeptieren auch nur Zahlen mit einem Punkt (.
) als Dezimaltrennzeichen ohne ein Tausendertrennzeichen wie NNN.DD
.
Weitere Informationen zum Datumsformat finden Sie unter Datums- und Uhrzeitformat „ISO 8601“.
Wir haben die Möglichkeit hinzugefügt, diesen Typ während des Felderstellungsschritts des Assistenten zu deklarieren und eine Datums- oder Zahlenkonvention (entspricht einem Gebietsschema) auszuwählen.
Datumskonventionen
Das folgende Beispiel zeigt einen Hypothekenbeleg mit einem Datumsfeld.
Das folgende Beispiel zeigt Datumsfeld-Formate.
Unterstützte Datumsformate
Wählen Sie beim Definieren des Felds zwischen Jahr, Monat, Tag; Monat, Tag, Jahr oder Tag, Monat, Jahr.
Als Datumstrennzeichen können folgende Zeichen verwendet werden: ,
-
/
.
\
. Leerzeichen können nicht als Trennzeichen verwendet werden. Zum Beispiel:
- 01,01,2020
- 01.01.2020
- 01/01/2020
Der Tag und der Monat können jeweils ein- oder zweistellig geschrieben werden, und das Jahr kann zwei- oder vierstellig sein:
- 1.1.2020
- 1.01.20
Wenn eine Datumszeichenfolge acht Ziffern hat, ist das Trennzeichen optional:
- 01012020
- 01 01 2020
Der Monat kann auch als vollständiger oder abgekürzter Name geschrieben werden. Wenn der Name verwendet wird, sind Trennzeichen optional. Dieses Format wird jedoch möglicherweise weniger genau erkannt als andere.
- 01. Jan 2020
- 01Jan2020
- 01 Jan 2020
Zahlenkonventionen
Das folgende Beispiel zeigt einen Hypothekenbeleg mit Zahlenfeldern.
Das folgende Beispiel zeigt Zahlenfeld-Formate.
Anmerkung
Für jedes Feld ist nur eine Konvention für ein bestimmtes Feld für alle Sammlungen dieses Modells zulässig. Wenn Sie beispielsweise einen Feldbetrag extrahieren, indem Sie Komma (,) als Dezimaltrennzeichen verwenden auswählen, wird der folgende Text 1234,56 oder 1 234,56 in 1234.56 konvertiert. Beträge im Format 12,34,576.78 oder 1,234.56 werden nicht konvertiert.
Beim Extrahieren wird der Text automatisch gemäß der bereitgestellten Konvention konvertiert. Dieser konvertierte Wert kann mit dem YOURFIELDNAME value
-Ergebnis abgerufen werden. Dieser Wert ist leer, wenn die Konvertierung nicht möglich ist. Der Originaltext kann mit dem YOURFIELDNAME text
-Ergebnis abgerufen werden.
Unterstützte Zahlenformate
Wählen Sie bei der Definition des Felds entweder Punkt (.) als Dezimaltrennzeichen verwenden oder Komma (,) als Dezimaltrennzeichen verwenden aus.
Wenn das Dezimaltrennzeichen ein Punkt (.
) ist, können Tausendertrennzeichen weggelassen und ein Komma (,
) oder Leerzeichen verwendet werden. Zum Beispiel:
- 1234.56
- 1,234.56
- 1 234,56
Wenn das Dezimaltrennzeichen ein Komma ist (,
), können Tausendertrennzeichen weggelassen werden. Zum Beispiel:
- 1234,56
- 1 234,56
Nächster Schritt
Dokumentverarbeitungsmodell trainieren und veröffentlichen
Verwandte Informationen
Training: Benutzerdefinierte Dokumente mit AI Builder verarbeiten (Modul)