Anforderungen und Einschränkungen für ein Dokumentverarbeitungsmodell

Unterstützte Sprachen

Modell für strukturierte und semistrukturierte Dokumente

Die folgenden Sprachen werden unterstützt, wenn ein Dokumentverarbeitungsmodell trainiert und Strukturierte und halbstrukturierte Dokumente als Dokumenttyp ausgewählt wird: Abaza, Abchasisch, Achinesisch, Acoli, Adangme, Adyghe, Afar, Afrikaans, Akan, Albanisch, Algonquin, Angika (Devanagari), Arabisch, Asturisch, Asu (Tansania), Avarisch, Awadhi-Hindi (Devanagari), Aymara, Aserbaidschanisch (Lateinisch), Bafia, Bagheli, Bambara, Baschkirisch, Baskisch, Belarussisch (Kyrillisch), Belarussisch (Lateinisch), Bemba (Sambia), Bemba (Sambia), Bhojpuri-Hindi (Devanagari), Bikol, Bini, Bislama, Bodo (Devanagari), Bosnisch (Lateinisch), Brajbha, Bretonisch, Bulgarisch, Bundeli, Burjatisch (Kyrillisch), Katalanisch, Cebuano, Chamling, Chamorro, Tschetschenisch, Chhattisgarhi (Devanagari), Chiga, Chinesisch (Vereinfacht), Chinesisch (Traditionell), Choctaw, Chukot, Tschuwaschisch, Kornisch, Korsisch, Cree, Creek, Krimtatarisch (Lateinisch), Kroatisch, Krähe, Tschechisch, Dänisch, Dargwa, Dari, Dhimal (Devanagari), Dogri (Devanagari), Duala, Dungan, Niederländisch, Efik, Englisch, Erzya (Kyrillisch), Estnisch, Färöisch, Fidschianisch, Filipino, Finnisch, Fon, Französisch, Friaulisch, Ga, Gagausisch (Lateinisch), Galicisch, Ganda, Gayo, Deutsch, Gilbertesisch, Gondi (Devanagari), Griechisch, Grönländisch, Guaraní, Gurung (Devanagari), Gusii, Haitianisch-Kreolisch, Halbi (Devanagari), Hani, Haryanvi, Hawaiisch, Hebräisch, Herero, Hiligaynon, Hindi, Hmong Daw (Lateinisch), Ho (Devanagiri), Ungarisch, Iban, Isländisch, Igbo, Iloko, Inari Sami, Indonesisch, Inguschisch, Interlingua, Inuktitut (Lateinisch), Irisch, Italienisch, Japanisch, Jaunsari (Devanagari), Javanesisch, Jola-Fonyi, Kabardisch, Kabuverdianu, Kachin (Lateinisch), Kalenjin, Kalmücken, Kangri (Devanagari), Kanuri, Karatschai-Balkar, Kara-Kalpak (Kyrillisch), Kara-Kalpak (Lateinisch), Kaschubisch, Kasachisch (Kyrillisch), Kasachisch (Lateinisch), Khakas, Khaling, Khasi, K'iche', Kikuyu, Kildin Sami, Kinyarwanda, Komi, Kongo, Koreanisch, Korku, Koryak, Kosraean, Kpelle, Kuanyama, Kumyk (Kyrillisch), Kurdisch (Arabisch), Kurdisch (Lateinisch), Kurukh (Devanagari), Kirgisisch (Kyrillisch), Lak, Lakota, Latein, Lettisch, Lezghian, Lingala, Litauisch, Niedersorbisch, Lozi, Lule Sami, Luo (Kenia und Tansania), Luxemburgisch, Luyia luy, Mazedonisch, Machame, Maduresisch, Mahasu Pahari (Devanagari), Makhuwa-Meetto, Makonde, Madagassisch, Malaiisch (Lateinisch), Maltesisch, Malto (Devanagari), Mandinka, Manx, Maori, Mapudungun, Marathi, Mari (Russland), Masai, Mende (Sierra Leone), Meru, Meta', Minangkabau, Mohawk, Mongolisch (Kyrillisch), Mongondow, Montenegrinisch (Kyrillisch), Montenegrinisch (Lateinisch), Morisyen, Mundang, Nahuatl, Navajo, Ndonga, Neapolitanisch, Nepali, Ngomba, Niuean, Nogay, Nord-Ndebele, Nord-Sami (Lateinisch), Norwegisch, Nyanja, Nyankole, Nzima, Okzitanisch, Ojibwa, Oromo, Ossetisch, Pampanga, Pangasinan, Papiamento, Pashtu, Pedi, Persisch, Polnisch, Portugiesisch, Punjabi (Arabisch), Quechua, Ripuarisch, Rumänisch, Rätoromanisch, Rundi, Russisch, Rwa, Sadri (Devanagari), Sacha, Samburu, Samoanisch (Lateinisch), Sango, Sangu (Gabun), Sanskrit (Devanagari), Santali (Devanagiri), Schottisch, Schottisch-Gälisch, Sena, Serbisch (Kyrillisch), Serbisch (Lateinisch), Shambala, Sherpa (Devanagari), Shona, Siksika, Sirmauri (Devanagari), Skolt Sami, Slowakisch, Slowenisch, Soga, Somali (Arabisch), Somali (Lateinisch), Songhai, Süd Ndebele, Süd-Altai, Süd-Sami, Südliches Sotho, Spanisch, Sundanesisch, Swahili (Lateinisch), Swati, Schwedisch, Tabassaran, Tachelhit, Tahitianisch, Taita, Tadschikisch (Kyrillisch), Tamil, Tatarisch (Kyrillisch), Tatarisch (Lateinisch), Teso, Tetum, Thailändisch, Thangmi, Tok Pisin, Tonganisch, Tsonga, Tswana, Türkisch, Turkmenisch (Lateinisch), Tuwinisch, Udmurtisch, Uigurisch (Kyrillisch), Ukrainisch, Obersorbisch, Urdu, Uigurisch (Arabisch), Usbekisch (Arabisch), Usbekisch (Kyrillisch), Usbekisch (Lateinisch), Vietnamesisch, Volapük, Vunjo, Walser, Walisisch, Westfriesisch, Wolof, Xhosa, Yucatec Maya, Zapotec, Zarma, Zhuang, Zulu

Modell für unstrukturierte Dokumente und Freiformdokumente

Die folgenden Sprachen werden unterstützt, wenn ein Dokumentverarbeitungsmodell trainiert und unstrukturierte und Freiformdokumente als Dokumenttyp ausgewählt wird: Afrikaans, Albanisch, Arabisch, Bulgarisch, Chinesisch (Han (vereinfachte Variante)), Chinesisch (Han (traditionelle Variante)), Kroatisch, Tschechisch, Dänisch, Niederländisch, Estnisch, Finnisch, Französisch, Deutsch, Hebräisch, Hindi, Ungarisch, Indonesisch, Italienisch, Japanisch, Koreanisch, Lettisch, Litauisch, Mazedonisch, Marathi, Neugriechisch (1453-), Nepali (Makrosprache), Norwegisch, Panjabi, Persisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Slowakisch, Slowenisch, Somali (Arabisch), Somali (Lateinisch), Spanisch, Suaheli (Makrosprache), Schwedisch, Tamilisch, Thailändisch, Türkisch, Ukrainisch, Urdu, Vietnamesisch

Anforderungen

Die Dokumentbearbeitung arbeitet mit Eingabedokumenten, die die folgenden Anforderungen erfüllen:

  • JPG, PNG oder PDF-Format (Text oder gescannt). In Text eingebettete PDFs eignen sich besser, da beim Extrahieren von Zeichen und ihrer Position keine Fehler auftreten.
  • TIFF-Dateien können nicht für Schulungen verwendet werden. Sie müssen Dokumente im PDF-, JPG- oder PNG-Format verwenden, um ein Modell zu trainieren. Sobald das Modell trainiert wurde, kann es Daten aus TIFF-Dateien extrahieren, wenn das Modell in einem Power Automate Cloud-Flow verwendet wird.
  • Wenn Ihre PDF-Dateien mit einem Kennwort gesperrt sind, müssen Sie die Sperre aufheben, bevor Sie sie senden.
  • Die maximale zu verarbeitende Dokumentgröße darf 20 MB nicht überschreiten.
  • Für Bilder müssen die Abmessungen zwischen 50 × 50 und 10.000 × 10.000 Pixel liegen.
  • Wenn Sie von Papierbelegen scannen, sollten die Scans von hoher Qualität sein.
  • Sie können bis zu 200 Sammlungen pro Modell erstellen.
  • In einem Cloud-Flow beträgt die Grenze der Felder, die für die Dokumentverarbeitung markiert werden können, 300.

Anmerkung

  • Das Extrahieren von Signaturen aus Dokumenten wird derzeit nicht unterstützt.
  • Felder, die sich über Seitengrenzen hinweg aufteilen, werden derzeit nicht unterstützt.
  • Zeilen, die von einer Seite zur anderen umbrechen, werden derzeit nicht unterstützt.

Optimierungstipp

Weitere Informationen zum Verbessern der Leistung von Dokumentverarbeitungsmodellen.

Nächster Schritt

Ein Formularverarbeitungsmodell erstellen