Jagamisviis:


Dokumenditöötlusmudeli nõuded ja piirangud

Toetatud keeled

Fikseeritud malliga dokumentide näidis

Dokumenditöötlusmudeli koolitamisel ja dokumenditüübiks Fikseeritud malliga dokumentide valimisel toetatakse järgmisi keeli.

Abaza, Abhaasia, Achinese, Acoli, Adangme, Adyghe, Afar, Afrikaanid, Akan, Albaania, Algonquin, Angika (Devanagari), Araabia, Astuuria, Asu (Tansaania), Avaric, Awadhi-Hindi (Devanagari), Aymara, Aserbaidžaani (ladina tähestik), Baffia, Bagheli, Bambara, Baškiiri, Baski, Valgevene (kirillitsa), Valgevene (ladina tähestik), Bemba (Sambia), Bemba (Sambia), Bhojpuri-Hindi (Devanagari), Bikol, Bini, Bislama, Bodo (Devanagari), Bosnia (ladina tähestik), Brajbha, Bretooni, Bulgaaria, Bundeli, Burjaat (kirillitsa), Katalaani, Cebuano, Chamling, Chamorro, Tšetšeenia, Chhattisgarhi (Devanagari), Chiga, Hiina lihtsustatud, Hiina traditsiooniline, Choctaw, Chukot, Chuvash, Cornish, Korsika, Cree, Creek, Krimmi tatarlane (ladina tähestik), horvaadi, vares, tšehhi, taani, Dargwa, Dari, Dhimal (Devanagari), Dogri (Devanagari), Duala, Dungan, hollandi, Efik, inglise, erzya (kirillitsa), eesti, fääri ese, fidži, filipiini, soome, fon, prantsuse, friuli, ga, gagauz (ladina tähestik), galeegi, ganda, gayo, saksa, gilbertese, gondi (devanagari), kreeka, Gröönimaa, Guarani, Gurung (Devanagari), Gusii, Haiti kreool, Halbi (Devanagari), Hani, Haryanvi, Havai, heebrea, Herero, Hiligaynon, hindi, Hmong Daw (ladina tähestik), Ho (Devanagiri), ungari, Iban, Islandi, Igbo, Iloko, Inari saami, indoneesia, ingushi, interlingua, inuktitut (ladina tähestik), iiri, itaalia, jaapani, jaunsari (devanagari), jaava, jola-fonyi, kabardi, kabuverdianu, kachin (ladina tähestik), Kalenjin, Kalmyk, Kangri (devanagari), Kanuri, Karachay-Balkar, Kara-Kalpak (kirillitsa), Kara-Kalpak (ladina tähestik), kašuubi, kasahhi (kirillitsa), kasahhi (ladina tähestik), khakas, khaing, khasi, k’iche’, kikuyu, kildini saami, kinyarwanda, komi, kongo, korea, korku, koryak, kosraean, kpelle, kuanyama, kumyk (kirillitsa), kurdi (araabia), kurdi (ladina tähestik), kurukh (devanagari), kirgiisi (kirillitsa), lak, lakota, ladina, läti, lezghian, lingala, leedu, alamsorbi, lozi, lule saami, luo (Keenia ja Tansaania), luksemburgi, luyia luy, makedoonia, Machame, Madurese, Mahasu Pahari (devanagari), Makhuwa-Meetto, Makonde, Madagaskari, Malai (ladina tähestik), Malta, Malto (Devanagari), Mandinka, Manx, Maori, Mapudungun, Marathi, Mari (Venemaa), Masai, Mende (Sierra Leone), Meru, Meta’, Minangkabau, Mohawk, Mongoolia (kirillitsa), Mongondow, Montenegro (kirillitsa), Montenegro (ladina tähestik), Morisyen, Mundang, Nahuatl, Navajo, Ndonga, Napoli, Nepali, Ngomba, Niuean, Nogay, Põhja-Ndebele, Põhjasaami (ladina tähestik), Norra, Nyanja, Nyankole, Nzima, oksitaani, Ojibwa, Oromo, Osseetia, Pampanga, Pangasinan, Papiamento, puštu, pedi, pärsia, poola, portugali, pandžabi (araabia), ketšua, ripuariani, rumeenia, romaani, rundi, vene, rwa, sadri (devanagari), sahha, samburu, samoa (ladina tähestik), sango, sangu (gabon), sanskriti (devanagari), santali(devanagiri), šoti, šoti gaeli, sena, serbia (kirillitsa), serbia (ladina tähestik), shambala, šerpa (devanagari), shona, siksika, sirmauri (devanagari), skolt saami, slovaki, sloveeni, soga, somaalia (araabia), somaalia (ladina tähestik), songhai, lõuna-ndebele, lõuna-altai, Lõuna-saami, Lõuna-Sotho, Hispaania, Sundanese, Suahiili (ladina tähestik), Swati, Rootsi, Tabassaran, Tachelhit, Tahitian, Taita, Tadžiki (kirillitsa), Tamili, tatari (kirillitsa), tatari (ladina tähestik), Teso, Tetum, Tai, Thangmi, Tok Pisin, Tongan, Tsonga, Tswana, Türgi, Türkmenistani (ladina tähestik), Tuvan, udmurdi, Uiguuri (kirillitsa), Ukraina, Ülem-Sorbi, Urdu, Uiguuri (araabia), Usbeki (araabia), Usbeki (kirillitsa), Usbeki (ladina tähestik), Vietnami, Volapüki, Vunjo, Walseri, Kõmri, Lääne-Friisi, Wolof, Xhosa, Yucatec Maya, Zapotec, Zarma, Zhuang, Zulu

Ülddokumentide näidis

Dokumenditöötlusmudeli koolitamisel ja dokumendi tüübiks Ülddokumendid valimisel toetatakse järgmisi keeli.

Afrikaani, albaania, araabia, bulgaaria, hiina (hani (lihtsustatud variant)), hiina (hani (traditsiooniline variant)), horvaadi, tšehhi, taani, hollandi, eesti, soome, prantsuse, saksa, heebrea, hindi, ungari, indoneesia, itaalia, jaapani, korea, läti, leedu, makedoonia, marathi, uuskreeka (1453-), nepali (makrokeel), norra, panjabi, pärsia, poola, portugali, rumeenia, vene, slovaki, sloveeni, somaalia (araabia), somaalia (ladina tähestik), hispaania, suahiili (makrokeel), rootsi, Tamili, Tai, Türgi, Ukraina, Urdu, Vietnami

Nõuded

Dokumenditöötlus toimib sisenddokumentidega, mis vastavad järgmistele nõuetele:

  • JPG-, PNG- või PDF-vormingus (tekst või skannitud). Tekstiga manustatud PDF-failid on paremad, kuna märkide ekstraheerimisel ja asukohal ei esine vigu.
  • TIFF-faile ei saa treenimiseks kasutada. Mudeli treenimiseks peate kasutama PDF-, JPG- või PNG-vormingus dokumente. Kui mudel on koolitatud, saab see TIFF-failidest andmeid ekstraktida, kui mudelit kasutatakse Power Automate'i pilvevoos.
  • Kui teie PDF-failid on parooliga lukustatud, peate lukustuse enne nende esitamist eemaldama.
  • Töödeldava dokumendi maksimaalne maht ei tohi ületada 20 MB.
  • Piltide mõõtmed peavad olema vahemikus 50 × 50 kuni 10 000 × 10 000 pikslit.
  • Kui skannida paberdokumentidest, peaksid skaneeringud olema kvaliteetsed pildid.
  • Mudeli kohta saate luua kuni 200 kollektsiooni.
  • Pilvevoos on dokumentide töötlemiseks sildistatavate väljade limiit 300.

Märkus.

  • Allkirjade ekstraktimine dokumentidest on praegu toetatud ainult fikseeritud malli dokumentide puhul.
  • Väljad, mis jagunevad üle lehe piiride, ei ole praegu toetatud.
  • Ühelt lehelt teisele murduvaid ridu praegu ei toetata.

Optimeerimise näpunäide

Siit saate teada, kuidas parandada dokumenditöötlusmudelite jõudlust.

Järgmine etapp

Vormitöötlusmudeli loomine