Obsługa języka: analiza dokumentów

Artykuł
10/16/2024

Ta zawartość dotyczy: v4.0 (wersja zapoznawcza) | Poprzednie wersje: v3.1 (GA) v3.0 (GA) v2.1 (GA)

Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja: v4.0 (wersja zapoznawcza) | | Poprzednie wersje: v3.0 v2.1

Ta zawartość dotyczy: wersja 3.0 (GA) | Najnowsze wersje: wersja 4.0 (wersja zapoznawcza) 3.1 | Poprzednia wersja: wersja 2.1

Ta zawartość dotyczy: wersja 2.1 | Najnowsza wersja: wersja 4.0 (wersja zapoznawcza)

Modele analizy dokumentów usługi Azure AI zapewniają obsługę wielojęzycznego przetwarzania dokumentów. Nasze możliwości obsługi języka umożliwiają użytkownikom komunikowanie się z aplikacjami w naturalny sposób i zwiększanie poziomu globalnego wsparcia. Modele analizy dokumentów umożliwiają wyodrębnianie tekstu z formularzy i dokumentów oraz zwracanie zawartości gotowej do działania, użycia lub postępu organizacji. W poniższych tabelach wymieniono dostępny język i ustawienia regionalne obsługiwane przez model i funkcję:

Przeczytaj: Model odczytu umożliwia wyodrębnianie i analizowanie tekstu drukowanego i odręcznego. Ten model jest podstawowym aparatem OCR dla innych wstępnie utworzonych modeli analizy dokumentów, takich jak układ, dokument ogólny, faktura, paragon, dokument tożsamości ,karta ubezpieczenia zdrowotnego, dokumenty podatkowe i modele niestandardowe. Aby uzyskać więcej informacji, zobacz Omówienie modelu odczytu

Układ: model układu umożliwia wyodrębnianie i analizowanie tekstu, tabel, struktury dokumentu i znaków zaznaczenia (takich jak przyciski radiowe i pola wyboru) z formularzy i dokumentów.

Dokument ogólny: Ogólny model dokumentu umożliwia wyodrębnianie i analizowanie par tekstu, struktury dokumentów i par klucz-wartość. Aby uzyskać więcej informacji, zobacz Ogólne omówienie modelu dokumentów

Uwaga

Kod języka opcjonalny

Modele uniwersalne oparte na uczeniu głębokim w usłudze Document Intelligence wyodrębniają cały tekst wielojęzyczny w dokumentach, w tym wiersze tekstu z językami mieszanymi i nie wymagają określenia kodu językowego.
Nie podaj kodu języka jako parametru, chyba że masz pewność, że język i chcesz wymusić zastosowanie tylko odpowiedniego modelu. W przeciwnym razie usługa może zwrócić niekompletny i niepoprawny tekst.
Ponadto nie trzeba określać ustawień regionalnych. Jest to opcjonalny parametr. Technologia uczenia głębokiego analizy dokumentów automatycznie wykrywa język tekstu na obrazie.

Odczyt modelu

Identyfikator modelu: wstępnie utworzony odczyt

W poniższej tabeli wymieniono obsługę języka odczytu modelu na potrzeby wyodrębniania i analizowania tekstu drukowanego.

Język	Kod (opcjonalnie)
Abaza	`abq`
Abchaski	`ab`
Achinese	`ace`
Acoli	`ach`
Adangme	`ada`
Adyghe	`ady`
Afar	`aa`
Afrikaans	`af`
Akan	`ak`
Albański	`sq`
Algonquin	`alq`
Angika (Devanagari)	`anp`
Arabski	`ar`
Asturyjski	`ast`
Asu (Tanzania)	`asa`
Avaric	`av`
Awadhi-Hindi (Devanagari)	`awa`
Ajmara	`ay`
Azerbejdżan (łaciński)	`az`
Bafia	`ksf`
Bagheli	`bfy`
Bambara	`bm`
Baszkirski	`ba`
Baskijski	`eu`
Białorusin (cyrylica)	`be`, `be-cyrl`
Białorusi (łaciński)	`be`, `be-latn`
Bemba (Zambia)	`bem`
Bena (Tanzania)	`bez`
Bhojpuri-Hindi (Devanagari)	`bho`
Bikol	`bik`
Bini	`bin`
Bislama	`bi`
Bodo (Devanagari)	`brx`
Bośniacki (łaciński)	`bs`
Brajbha	`bra`
Bretoński	`br`
Bułgarski	`bg`
Bundeli	`bns`
Buryat (Cyrylica)	`bua`
Kataloński	`ca`
Cebuano	`ceb`
Chamling	`rab`
Chamorro	`ch`
Czeczeński	`ce`
Chhattisgarhi (Devanagari)	`hne`
Chiga	`cgg`
Chiński uproszczony	`zh-Hans`
Chiński tradycyjny	`zh-Hant`
Choctaw	`cho`
Czukotka	`ckt`
Czuwaski	`cv`
Kornwalijski	`kw`
Korsykański	`co`
Cree	`cr`
Potok	`mus`
Tatar krymski (łaciński)	`crh`
Chorwacki	`hr`
Wrona	`cro`
Czeski	`cs`
Duński	`da`
Dargwa	`dar`
Dari	`prs`
Dhimal (Devanagari)	`dhi`
Dogri (Devanagari)	`doi`
Duala	`dua`
Dungan	`dng`
Niderlandzki	`nl`
Efik	`efi`
angielski	`en`
Erzya (cyrylica)	`myv`
Estoński	`et`
Farerski	`fo`
Fidżijski	`fj`
Filipino	`fil`
Fiński	`fi`

Język	Kod (opcjonalnie)
`Fon`	`fon`
Francuski	`fr`
Friulian	`fur`
`Ga`	`gaa`
Gagauz (łaciński)	`gag`
Galicyjski	`gl`
Ganda	`lg`
Gayo	`gay`
Niemiecki	`de`
Gilbertese	`gil`
Gondi (Devanagari)	`gon`
Grecki	`el`
Grenlandzki	`kl`
Guarani	`gn`
Gurung (Devanagari)	`gvr`
Gusii	`guz`
Kreolski haitański	`ht`
Halbi (Devanagari)	`hlb`
Hani	`hni`
Haryanvi	`bgc`
Hawajski	`haw`
Hebrajski	`he`
Herero	`hz`
Hiligaynon	`hil`
Hindi	`hi`
Hmong Daw (łaciński)	`mww`
Ho(Devanagiri)	`hoc`
Węgierski	`hu`
Iban	`iba`
Islandzki	`is`
Igbo	`ig`
Iloko	`ilo`
Inari Sami	`smn`
Indonezyjski	`id`
Ingush	`inh`
Interlingua	`ia`
Inuktitut (łaciński)	`iu`
Irlandzki	`ga`
Włoski	`it`
japoński	`ja`
Jaunsari (Devanagari)	`Jns`
Jawajski	`jv`
Jola-Fonyi	`dyo`
Kabardian	`kbd`
Kabuverdianu	`kea`
Kachin (łaciński)	`kac`
Kalenjin	`kln`
Kalmyk	`xal`
Kangri (Devanagari)	`xnr`
Kanuri	`kr`
Karachay-Balkar	`krc`
Kara-Kalpak (cyrylica)	`kaa-cyrl`
Kara-Kalpak (łaciński)	`kaa`
Kaszubski	`csb`
Kazachski (cyrylica)	`kk-cyrl`
Kazachski (łaciński)	`kk-latn`
Khakas	`kjh`
Khaling	`klr`
Khasi	`kha`
K'iche'	`quc`
Kikuyu	`ki`
Kildin Sami	`sjd`
Kinyarwanda	`rw`
Komi	`kv`
Kongo	`kg`
Koreański	`ko`
Korku	`kfq`
Koryak	`kpy`
Kosraean	`kos`
Kpelle	`kpe`
Kuanyama	`kj`
Kumyk (Cyrylica)	`kum`
Kurdyjski (arabski)	`ku-arab`
Kurdyjski (łaciński)	`ku-latn`
Kurukh (Devanagari)	`kru`
Kyrgyz (Cyrylica)	`ky`
`Lak`	`lbe`
Lakota	`lkt`

Język	Kod (opcjonalnie)
Łacina	`la`
Łotewski	`lv`
Lezghian	`lex`
Lingala	`ln`
Litewski	`lt`
Dolnołużycki	`dsb`
Lozi	`loz`
Lule Sami	`smj`
Luo (Kenia i Tanzania)	`luo`
Luksemburski	`lb`
Luyia	`luy`
Macedoński	`mk`
Machame	`jmc`
Madurese	`mad`
Mahasu Pahari (Devanagari)	`bfz`
Makhuwa-Meetto	`mgh`
Makonde	`kde`
Malgaski	`mg`
Malajski (łaciński)	`ms`
Maltański	`mt`
Malto (Devanagari)	`kmj`
Mandinka	`mnk`
Manx	`gv`
Maoryski	`mi`
Mapudungun	`arn`
Marathi	`mr`
Mari (Rosja)	`chm`
Masai	`mas`
Mende (Sierra Leone)	`men`
Meru	`mer`
Meta"	`mgo`
Minangkabau	`min`
Mohawk	`moh`
Mongolski (cyrylica)	`mn`
Mongondow	`mog`
Czarnogóra (cyrylica)	`cnr-cyrl`
Czarnogóra (łacińska)	`cnr-latn`
Morisyen	`mfe`
Mundang	`mua`
Język nahuatl	`nah`
Nawaho	`nv`
Ndonga	`ng`
Neapolitański	`nap`
Nepalski	`ne`
Ngomba	`jgo`
Niuean	`niu`
Nogay	`nog`
North Ndebele	`nd`
Północny Sami (łaciński)	`sme`
Norweski	`no`
Nyanja	`ny`
Nyankole	`nyn`
Nzima	`nzi`
Occitan	`oc`
Ojibwa	`oj`
Oromo	`om`
Ossetic	`os`
Pampanga	`pam`
Pangasinan	`pag`
Papiamento	`pap`
Paszto	`ps`
Pedi	`nso`
Perski	`fa`
Polski	`pl`
Portugalski	`pt`
Punjabi (arabski)	`pa`
Keczua	`qu`
Ripuarian	`ksh`
Rumuński	`ro`
Retoromański	`rm`
Rundi	`rn`
Rosyjski	`ru`
`Rwa`	`rwk`
Sadri (Devanagari)	`sck`
Republika Sacha	`sah`
Samburu	`saq`
Samoan (łaciński)	`sm`
Sango	`sg`

Język	Kod (opcjonalnie)
Sangu (Gabon)	`snq`
Sanskrit (Devanagari)	`sa`
Santali (Devanagiri)	`sat`
Szkoci	`sco`
Język szkocki gaelicki	`gd`
Sena	`seh`
Serbski (cyrylica)	`sr-cyrl`
Serbski (łaciński)	`sr`, s`r-latn`
Shambala	`ksb`
Shona	`sn`
Siksika	`bla`
Sirmauri (Devanagari)	`srx`
Skolt Sami	`sms`
Słowacki	`sk`
Słoweński	`sl`
Soga	`xog`
Somalia (arabski)	`so`
Somalijski (łaciński)	`so-latn`
Songhai	`son`
South Ndebele	`nr`
Południowy Ałtaj	`alt`
Południowy Sami	`sma`
Południowy Sotho	`st`
Hiszpański	`es`
Sundanese	`su`
Swahili (łaciński)	`sw`
Swati	`ss`
Szwedzki	`sv`
Tabassaran	`tab`
Tachelhit	`shi`
Tahitański	`ty`
Taita	`dav`
Tadżyk (cyrylica)	`tg`
Tamilski	`ta`
Tatar (Cyrylica)	`tt-cyrl`
Tatar (łaciński)	`tt`
Teso	`teo`
Tetum	`tet`
Tajlandzki	`th`
Thangmi	`thf`
Tok Pisin	`tpi`
Tonga	`to`
Tsonga	`ts`
Tswana	`tn`
Turecki	`tr`
Turkmen (łaciński)	`tk`
Tuvan	`tyv`
Udmurt	`udm`
Ujgur (cyrylica)	`ug-cyrl`
Ukraiński	`uk`
Górnołużycki	`hsb`
Urdu	`ur`
Uygur (arabski)	`ug`
Uzbek (arabski)	`uz-arab`
Uzbecki (Cyrylica)	`uz-cyrl`
Uzbek (łaciński)	`uz`
Wietnamski	`vi`
Volapük	`vo`
Vunjo	`vun`
Walser	`wae`
Walijski	`cy`
Zachodni Fryzyjscy	`fy`
Wolof	`wo`
Xhosa	`xh`
Maya	`yua`
Zapotec	`zap`
Zarma	`dje`
Zhen	`za`
Zulu	`zu`

W poniższej tabeli wymieniono obsługę języka odczytu modelu na potrzeby wyodrębniania i analizowania tekstu drukowanego.

Język	Kod (opcjonalnie)
Afrikaans	`af`
Angika	`anp`
Arabski	`ar`
Asturyjski	`ast`
Awadhi	`awa`
Azerbejdżański	`az`
Białorusin (cyrylica)	`be`, `be-cyrl`
Białorusi (łaciński)	`be-latn`
Bagheli	`bfy`
Mahasu Pahari	`bfz`
Bułgarski	`bg`
Haryanvi	`bgc`
Bhojpuri	`bho`
Bislama	`bi`
Bundeli	`bns`
Bretoński	`br`
Braj	`bra`
Bodo	`brx`
Bośniacki	`bs`
Pochówek	`bua`
Kataloński	`ca`
Cebuano	`ceb`
Chamorro	`ch`
Czarnogóra (łacińska)	`cnr`, `cnr-latn`
Czarnogóra (cyrylica)	`cnr-cyrl`
Korsykański	`co`
Krymskotatarski	`crh`
Czeski	`cs`
Kaszubski	`csb`
Walijski	`cy`
Duński	`da`
Niemiecki	`de`
Dhimal	`dhi`
Dogri	`doi`
Dolnołużycki	`dsb`
angielski	`en`
Hiszpański	`es`
Estoński	`et`
Baskijski	`eu`
Perski	`fa`
Fiński	`fi`
Filipino	`fil`

Język	Kod (opcjonalnie)
Fidżijski	`fj`
Farerski	`fo`
Francuski	`fr`
Friulian	`fur`
Zachodni Fryzyjscy	`fy`
Irlandzki	`ga`
Gagauz	`gag`
Język szkocki gaelicki	`gd`
Gilbertese	`gil`
Galicyjski	`gl`
Gondi	`gon`
Manx	`gv`
Gurung	`gvr`
Hawajski	`haw`
Hindi	`hi`
Halbi	`hlb`
Chhattisgarhi	`hne`
Hani	`hni`
`Ho`	`hoc`
Chorwacki	`hr`
Górnołużycki	`hsb`
Haitański	`ht`
Węgierski	`hu`
Interlingua	`ia`
Indonezyjski	`id`
Islandzki	`is`
Włoski	`it`
Inuktitut	`iu`
japoński
Jaunsari	`jns`
Jawajski	`jv`
Kara-Kalpak (łaciński)	`kaa`, `kaa-latn`
Kara-Kalpak (cyrylica)	`kaa-cyrl`
Kaczin	`kac`
Kabuverdianu	`kea`
Korku	`kfq`
Khasi	`kha`
Kazachski (łaciński)	`kk`, `kk-latn`
Kazachski (cyrylica)	`kk-cyrl`
Grenlandzki	`kl`
Khaling	`klr`
Malto	`kmj`

Język	Kod (opcjonalnie)
Koreański
Kosraean	`kos`
Koryak	`kpy`
Karachay-Balkar	`krc`
Kurukh	`kru`
Kölsch	`ksh`
Kurdyjski (łaciński)	`ku`, `ku-latn`
Kurdyjski (arabski)	`ku-arab`
Kumyk	`kum`
Kornwalijski	`kw`
Kirgiski	`ky`
Łacina	`la`
Luksemburski	`lb`
Lakota	`lkt`
Litewski	`lt`
Maoryski	`mi`
Mongolski	`mn`
Marathi	`mr`
Malajski	`ms`
Maltański	`mt`
Hmong `Daw`	`mww`
Erzya	`myv`
Neapolitański	`nap`
Nepalski	`ne`
Niuean	`niu`
Niderlandzki	`nl`
Norweski	`no`
Nogai	`nog`
Occitan	`oc`
Ossetian	`os`
Panjabi	`pa`
Polski	`pl`
Dari	`prs`
Pushto	`ps`
Portugalski	`pt`
K'iche'	`quc`
Camling	`rab`
Retoromański	`rm`
Rumuński	`ro`
Rosyjski	`ru`
Sanskryt	`sa`
Santali	`sat`

Język	Kod (opcjonalnie)
Sadri	`sck`
Szkoci	`sco`
Słowacki	`sk`
Słoweński	`sl`
Samoański	`sm`
Południowy Sami	`sma`
Północny Sami	`sme`
Lule Sami	`smj`
Inari Sami	`smn`
Skolt Sami	`sms`
Somalijski	`so`
Albański	`sq`
Serbski (łaciński)	`sr`, `sr-latn`
Sirmauri	`srx`
Szwedzki	`sv`
Suahili	`sw`
Tetum	`tet`
Tadżycki	`tg`
Thangmi	`thf`
Turkmeński	`tk`
Tonga	`to`
Turecki	`tr`
Tatarski	`tt`
Tuvinian	`tyv`
Ujgurski	`ug`
Urdu	`ur`
Uzbek (łaciński)	`uz`, `uz-latn`
Uzbecki (Cyrylica)	`uz-cyrl`
Uzbek (arabski)	`uz-arab`
Volapük	`vo`
Walser	`wae`
Kangri	`xnr`
Yucateco	`yua`
Zhen	`za`
Chiński (Han (wariant uproszczony))	`zh`, `zh-hans`
Chiński (Han (tradycyjny wariant))	`zh-hant`
Zulu	`zu`

W poniższej tabeli wymieniono obsługę języka odczytu modelu na potrzeby wyodrębniania i analizowania tekstu odręcznego .

Język	Kod języka (opcjonalnie)	Język	Kod języka (opcjonalnie)
Angielski	`en`	Japoński	`ja`
Chiński uproszczony	`zh-Hans`	Koreański	`ko`
Francuski	`fr`	Portugalski	`pt`
Niemiecki	`de`	Hiszpański	`es`
Włoski	`it`	Rosyjski (wersja zapoznawcza)	`ru`
Tajski (wersja zapoznawcza)	`th`	Arabski (wersja zapoznawcza)	`ar`

W poniższej tabeli wymieniono obsługę języka odczytu modelu na potrzeby wyodrębniania i analizowania tekstu odręcznego .

Język	Kod języka (opcjonalnie)	Język	Kod języka (opcjonalnie)
Angielski	`en`	Japoński	`ja`
Chiński uproszczony	`zh-Hans`	Koreański	`ko`
Francuski	`fr`	Portugalski	`pt`
Niemiecki	`de`	Hiszpański	`es`
Włoski	`it`

W poniższej tabeli wymieniono obsługę języka odczytu modelu na potrzeby wyodrębniania i analizowania tekstu odręcznego .

Język	Kod języka (opcjonalnie)	Język	Kod języka (opcjonalnie)
Angielski	`en`	Japoński	`ja`
Chiński uproszczony	`zh-Hans`	Koreański	`ko`
Francuski	`fr`	Portugalski	`pt`
Niemiecki	`de`	Hiszpański	`es`
Włoski	`it`

Interfejs API modelu odczytu obsługuje wykrywanie języka dla następujących języków w dokumentach. Ta lista może zawierać języki, które nie są obecnie obsługiwane na potrzeby wyodrębniania tekstu.

Ważne

Wykrywanie języka

Model odczytu analizy dokumentów może wykrywać obecność języków i zwracać kody języków dla wykrytych języków.

Wykryte języki a wyodrębnione języki

W tej sekcji wymieniono języki, które można wykryć z dokumentów przy użyciu modelu odczytu, jeśli jest obecny.
Należy pamiętać, że ta lista różni się od listy języków, z których obsługujemy wyodrębnianie tekstu, który jest określony w powyższych sekcjach dla każdego modelu.

Język	Kod
Afrikaans	`af`
Albański	`sq`
Amharski	`am`
Arabski	`ar`
Ormiański	`hy`
Asamski	`as`
Azerbejdżański	`az`
Baskijski	`eu`
Białoruski	`be`
Bengalski	`bn`
Bośniacki	`bs`
Bułgarski	`bg`
Birmański	`my`
Kataloński	`ca`
Środkowy Khmer	`km`
Chiński	`zh`
Chiński uproszczony	`zh_chs`
Chiński tradycyjny	`zh_cht`
Korsykański	`co`
Chorwacki	`hr`
Czeski	`cs`
Duński	`da`
Dari	`prs`
Divehi	`dv`
niderlandzki	`nl`
angielski	`en`
Esperanto	`eo`
Estoński	`et`
Fidżijski	`fj`
Fiński	`fi`
Francuski	`fr`
Galicyjski	`gl`
Gruziński	`ka`
Niemiecki	`de`
Grecki	`el`
Gudżarati	`gu`
Haitański	`ht`
Hausa	`ha`
Hebrajski	`he`
Hindi	`hi`
Hmong Daw	`mww`
Węgierski	`hu`
Islandzki	`is`
Igbo	`ig`
Indonezyjski	`id`
Inuktitut	`iu`
Irlandzki	`ga`
Włoski	`it`
japoński	`ja`
Jawajski	`jv`
Kannada	`kn`
Kazachski	`kk`
Kinyarwanda	`rw`
Kirgiski	`ky`
Koreański	`ko`
Kurdyjski	`ku`
Laotański	`lo`
Łacina	`la`

Język	Kod
Łotewski	`lv`
Litewski	`lt`
Luksemburski	`lb`
Macedoński	`mk`
Malgaski	`mg`
Malajski	`ms`
Malayalam	`ml`
Maltański	`mt`
Maoryski	`mi`
Marathi	`mr`
Mongolski	`mn`
Nepalski	`ne`
Norweski	`no`
Norweski Nynorsk	`nn`
Orija	`or`
Pasht	`ps`
Perski	`fa`
Polski	`pl`
Portugalski	`pt`
Pendżabski	`pa`
Queretaro Otomi	`otq`
Rumuński	`ro`
Rosyjski	`ru`
Samoański	`sm`
Serbski	`sr`
Shona	`sn`
Sindhi	`sd`
Sinhala	`si`
Słowacki	`sk`
Słoweński	`sl`
Somalijski	`so`
Hiszpański	`es`
Sundanese	`su`
Suahili	`sw`
Szwedzki	`sv`
Tagalog	`tl`
Tahitański	`ty`
Tadżycki	`tg`
Tamilski	`ta`
Tatarski	`tt`
Telugu	`te`
Tajlandzki	`th`
Tybetański	`bo`
Tigrinia	`ti`
Tonga	`to`
Turecki	`tr`
Turkmeński	`tk`
Ukraiński	`uk`
Urdu	`ur`
Uzbecki	`uz`
Wietnamski	`vi`
Walijski	`cy`
Xhosa	`xh`
Jidysz	`yi`
Joruba	`yo`
Maya	`yua`
Zulu	`zu`

Układ

Identyfikator modelu: wstępnie utworzony układ

Układ: tekst drukowany
Układ: tekst odręczny

W poniższej tabeli wymieniono obsługiwane języki dla tekstu drukowanego:

Język	Kod (opcjonalnie)
Abaza	`abq`
Abchaski	`ab`
Achinese	`ace`
Acoli	`ach`
Adangme	`ada`
Adyghe	`ady`
Afar	`aa`
Afrikaans	`af`
Akan	`ak`
Albański	`sq`
Algonquin	`alq`
Angika (Devanagari)	`anp`
Arabski	`ar`
Asturyjski	`ast`
Asu (Tanzania)	`asa`
Avaric	`av`
Awadhi-Hindi (Devanagari)	`awa`
Ajmara	`ay`
Azerbejdżan (łaciński)	`az`
Bafia	`ksf`
Bagheli	`bfy`
Bambara	`bm`
Baszkirski	`ba`
Baskijski	`eu`
Białorusin (cyrylica)	`be`, `be-cyrl`
Białorusi (łaciński)	`be`, `be-latn`
Bemba (Zambia)	`bem`
Bena (Tanzania)	`bez`
Bhojpuri-Hindi (Devanagari)	`bho`
Bikol	`bik`
Bini	`bin`
Bislama	`bi`
Bodo (Devanagari)	`brx`
Bośniacki (łaciński)	`bs`
Brajbha	`bra`
Bretoński	`br`
Bułgarski	`bg`
Bundeli	`bns`
Buryat (Cyrylica)	`bua`
Kataloński	`ca`
Cebuano	`ceb`
Chamling	`rab`
Chamorro	`ch`
Czeczeński	`ce`
Chhattisgarhi (Devanagari)	`hne`
Chiga	`cgg`
Chiński uproszczony	`zh-Hans`
Chiński tradycyjny	`zh-Hant`
Choctaw	`cho`
Czukotka	`ckt`
Czuwaski	`cv`
Kornwalijski	`kw`
Korsykański	`co`
Cree	`cr`
Potok	`mus`
Tatar krymski (łaciński)	`crh`
Chorwacki	`hr`
Wrona	`cro`
Czeski	`cs`
Duński	`da`
Dargwa	`dar`
Dari	`prs`
Dhimal (Devanagari)	`dhi`
Dogri (Devanagari)	`doi`
Duala	`dua`
Dungan	`dng`
Niderlandzki	`nl`
Efik	`efi`
angielski	`en`
Erzya (cyrylica)	`myv`
Estoński	`et`
Farerski	`fo`
Fidżijski	`fj`
Filipino	`fil`
Fiński	`fi`

Język	Kod (opcjonalnie)
`Fon`	`fon`
Francuski	`fr`
Friulian	`fur`
`Ga`	`gaa`
Gagauz (łaciński)	`gag`
Galicyjski	`gl`
Ganda	`lg`
Gayo	`gay`
Niemiecki	`de`
Gilbertese	`gil`
Gondi (Devanagari)	`gon`
Grecki	`el`
Grenlandzki	`kl`
Guarani	`gn`
Gurung (Devanagari)	`gvr`
Gusii	`guz`
Kreolski haitański	`ht`
Halbi (Devanagari)	`hlb`
Hani	`hni`
Haryanvi	`bgc`
Hawajski	`haw`
Hebrajski	`he`
Herero	`hz`
Hiligaynon	`hil`
Hindi	`hi`
Hmong Daw (łaciński)	`mww`
Ho(Devanagiri)	`hoc`
Węgierski	`hu`
Iban	`iba`
Islandzki	`is`
Igbo	`ig`
Iloko	`ilo`
Inari Sami	`smn`
Indonezyjski	`id`
Ingush	`inh`
Interlingua	`ia`
Inuktitut (łaciński)	`iu`
Irlandzki	`ga`
Włoski	`it`
japoński	`ja`
Jaunsari (Devanagari)	`Jns`
Jawajski	`jv`
Jola-Fonyi	`dyo`
Kabardian	`kbd`
Kabuverdianu	`kea`
Kachin (łaciński)	`kac`
Kalenjin	`kln`
Kalmyk	`xal`
Kangri (Devanagari)	`xnr`
Kanuri	`kr`
Karachay-Balkar	`krc`
Kara-Kalpak (cyrylica)	`kaa-cyrl`
Kara-Kalpak (łaciński)	`kaa`
Kaszubski	`csb`
Kazachski (cyrylica)	`kk-cyrl`
Kazachski (łaciński)	`kk-latn`
Khakas	`kjh`
Khaling	`klr`
Khasi	`kha`
K'iche'	`quc`
Kikuyu	`ki`
Kildin Sami	`sjd`
Kinyarwanda	`rw`
Komi	`kv`
Kongo	`kg`
Koreański	`ko`
Korku	`kfq`
Koryak	`kpy`
Kosraean	`kos`
Kpelle	`kpe`
Kuanyama	`kj`
Kumyk (Cyrylica)	`kum`
Kurdyjski (arabski)	`ku-arab`
Kurdyjski (łaciński)	`ku-latn`

Język	Kod (opcjonalnie)
Kurukh (Devanagari)	`kru`
Kyrgyz (Cyrylica)	`ky`
`Lak`	`lbe`
Lakota	`lkt`
Łacina	`la`
Łotewski	`lv`
Lezghian	`lex`
Lingala	`ln`
Litewski	`lt`
Dolnołużycki	`dsb`
Lozi	`loz`
Lule Sami	`smj`
Luo (Kenia i Tanzania)	`luo`
Luksemburski	`lb`
Luyia	`luy`
Macedoński	`mk`
Machame	`jmc`
Madurese	`mad`
Mahasu Pahari (Devanagari)	`bfz`
Makhuwa-Meetto	`mgh`
Makonde	`kde`
Malgaski	`mg`
Malajski (łaciński)	`ms`
Maltański	`mt`
Malto (Devanagari)	`kmj`
Mandinka	`mnk`
Manx	`gv`
Maoryski	`mi`
Mapudungun	`arn`
Marathi	`mr`
Mari (Rosja)	`chm`
Masai	`mas`
Mende (Sierra Leone)	`men`
Meru	`mer`
Meta"	`mgo`
Minangkabau	`min`
Mohawk	`moh`
Mongolski (cyrylica)	`mn`
Mongondow	`mog`
Czarnogóra (cyrylica)	`cnr-cyrl`
Czarnogóra (łacińska)	`cnr-latn`
Morisyen	`mfe`
Mundang	`mua`
Język nahuatl	`nah`
Nawaho	`nv`
Ndonga	`ng`
Neapolitański	`nap`
Nepalski	`ne`
Ngomba	`jgo`
Niuean	`niu`
Nogay	`nog`
North Ndebele	`nd`
Północny Sami (łaciński)	`sme`
Norweski	`no`
Nyanja	`ny`
Nyankole	`nyn`
Nzima	`nzi`
Occitan	`oc`
Ojibwa	`oj`
Oromo	`om`
Ossetic	`os`
Pampanga	`pam`
Pangasinan	`pag`
Papiamento	`pap`
Paszto	`ps`
Pedi	`nso`
Perski	`fa`
Polski	`pl`
Portugalski	`pt`
Punjabi (arabski)	`pa`
Keczua	`qu`
Ripuarian	`ksh`
Rumuński	`ro`
Retoromański	`rm`
Rundi	`rn`
Rosyjski	`ru`

Język	Kod (opcjonalnie)
`Rwa`	`rwk`
Sadri (Devanagari)	`sck`
Republika Sacha	`sah`
Samburu	`saq`
Samoan (łaciński)	`sm`
Sango	`sg`
Sangu (Gabon)	`snq`
Sanskrit (Devanagari)	`sa`
Santali (Devanagiri)	`sat`
Szkoci	`sco`
Język szkocki gaelicki	`gd`
Sena	`seh`
Serbski (cyrylica)	`sr-cyrl`
Serbski (łaciński)	`sr`, `sr-latn`
Shambala	`ksb`
Shona	`sn`
Siksika	`bla`
Sirmauri (Devanagari)	`srx`
Skolt Sami	`sms`
Słowacki	`sk`
Słoweński	`sl`
Soga	`xog`
Somalia (arabski)	`so`
Somalijski (łaciński)	`so-latn`
Songhai	`son`
South Ndebele	`nr`
Południowy Ałtaj	`alt`
Południowy Sami	`sma`
Południowy Sotho	`st`
Hiszpański	`es`
Sundanese	`su`
Swahili (łaciński)	`sw`
Swati	`ss`
Szwedzki	`sv`
Tabassaran	`tab`
Tachelhit	`shi`
Tahitański	`ty`
Taita	`dav`
Tadżyk (cyrylica)	`tg`
Tamilski	`ta`
Tatar (Cyrylica)	`tt-cyrl`
Tatar (łaciński)	`tt`
Teso	`teo`
Tetum	`tet`
Tajlandzki	`th`
Thangmi	`thf`
Tok Pisin	`tpi`
Tonga	`to`
Tsonga	`ts`
Tswana	`tn`
Turecki	`tr`
Turkmen (łaciński)	`tk`
Tuvan	`tyv`
Udmurt	`udm`
Ujgur (cyrylica)	`ug-cyrl`
Ukraiński	`uk`
Górnołużycki	`hsb`
Urdu	`ur`
Uygur (arabski)	`ug`
Uzbek (arabski)	`uz-arab`
Uzbecki (Cyrylica)	`uz-cyrl`
Uzbek (łaciński)	`uz`
Wietnamski	`vi`
Volapük	`vo`
Vunjo	`vun`
Walser	`wae`
Walijski	`cy`
Zachodni Fryzyjscy	`fy`
Wolof	`wo`
Xhosa	`xh`
Maya	`yua`
Zapotec	`zap`
Zarma	`dje`
Zhen	`za`
Zulu	`zu`

W poniższej tabeli wymieniono obsługę języka modelu układu na potrzeby wyodrębniania i analizowania tekstu drukowanego.

Język	Kod (opcjonalnie)
Afrikaans	`af`
Angika	`anp`
Arabski	`ar`
Asturyjski	`ast`
Awadhi	`awa`
Azerbejdżański	`az`
Białorusin (cyrylica)	`be`, `be-cyrl`
Białorusi (łaciński)	`be-latn`
Bagheli	`bfy`
Mahasu Pahari	`bfz`
Bułgarski	`bg`
Haryanvi	`bgc`
Bhojpuri	`bho`
Bislama	`bi`
Bundeli	`bns`
Bretoński	`br`
Braj	`bra`
Bodo	`brx`
Bośniacki	`bs`
Pochówek	`bua`
Kataloński	`ca`
Cebuano	`ceb`
Chamorro	`ch`
Czarnogóra (łacińska)	`cnr`, `cnr-latn`
Czarnogóra (cyrylica)	`cnr-cyrl`
Korsykański	`co`
Krymskotatarski	`crh`
Czeski	`cs`
Kaszubski	`csb`
Walijski	`cy`
Duński	`da`
Niemiecki	`de`
Dhimal	`dhi`
Dogri	`doi`
Dolnołużycki	`dsb`
angielski	`en`
Hiszpański	`es`
Estoński	`et`
Baskijski	`eu`
Perski	`fa`
Fiński	`fi`
Filipino	`fil`

Język	Kod (opcjonalnie)
Fidżijski	`fj`
Farerski	`fo`
Francuski	`fr`
Friulian	`fur`
Zachodni Fryzyjscy	`fy`
Irlandzki	`ga`
Gagauz	`gag`
Język szkocki gaelicki	`gd`
Gilbertese	`gil`
Galicyjski	`gl`
Gondi	`gon`
Manx	`gv`
Gurung	`gvr`
Hawajski	`haw`
Hindi	`hi`
Halbi	`hlb`
Chhattisgarhi	`hne`
Hani	`hni`
`Ho`	`hoc`
Chorwacki	`hr`
Górnołużycki	`hsb`
Haitański	`ht`
Węgierski	`hu`
Interlingua	`ia`
Indonezyjski	`id`
Islandzki	`is`
Włoski	`it`
Inuktitut	`iu`
japoński
Jaunsari	`jns`
Jawajski	`jv`
Kara-Kalpak (łaciński)	`kaa`, `kaa-latn`
Kara-Kalpak (cyrylica)	`kaa-cyrl`
Kaczin	`kac`
Kabuverdianu	`kea`
Korku	`kfq`
Khasi	`kha`
Kazachski (łaciński)	`kk`, `kk-latn`
Kazachski (cyrylica)	`kk-cyrl`
Grenlandzki	`kl`
Khaling	`klr`
Malto	`kmj`

Język	Kod (opcjonalnie)
Koreański
Kosraean	`kos`
Koryak	`kpy`
Karachay-Balkar	`krc`
Kurukh	`kru`
Kölsch	`ksh`
Kurdyjski (łaciński)	`ku`, `ku-latn`
Kurdyjski (arabski)	`ku-arab`
Kumyk	`kum`
Kornwalijski	`kw`
Kirgiski	`ky`
Łacina	`la`
Luksemburski	`lb`
Lakota	`lkt`
Litewski	`lt`
Maoryski	`mi`
Mongolski	`mn`
Marathi	`mr`
Malajski	`ms`
Maltański	`mt`
Hmong `Daw`	`mww`
Erzya	`myv`
Neapolitański	`nap`
Nepalski	`ne`
Niuean	`niu`
Niderlandzki	`nl`
Norweski	`no`
Nogai	`nog`
Occitan	`oc`
Ossetian	`os`
Panjabi	`pa`
Polski	`pl`
Dari	`prs`
Pushto	`ps`
Portugalski	`pt`
K'iche'	`quc`
Camling	`rab`
Retoromański	`rm`
Rumuński	`ro`
Rosyjski	`ru`
Sanskryt	`sa`
Santali	`sat`

Język	Kod (opcjonalnie)
Sadri	`sck`
Szkoci	`sco`
Słowacki	`sk`
Słoweński	`sl`
Samoański	`sm`
Południowy Sami	`sma`
Północny Sami	`sme`
Lule Sami	`smj`
Inari Sami	`smn`
Skolt Sami	`sms`
Somalijski	`so`
Albański	`sq`
Serbski (łaciński)	`sr`, `sr-latn`
Sirmauri	`srx`
Szwedzki	`sv`
Suahili	`sw`
Tetum	`tet`
Tadżycki	`tg`
Thangmi	`thf`
Turkmeński	`tk`
Tonga	`to`
Turecki	`tr`
Tatarski	`tt`
Tuvinian	`tyv`
Ujgurski	`ug`
Urdu	`ur`
Uzbek (łaciński)	`uz`, `uz-latn`
Uzbecki (Cyrylica)	`uz-cyrl`
Uzbek (arabski)	`uz-arab`
Volapük	`vo`
Walser	`wae`
Kangri	`xnr`
Yucateco	`yua`
Zhen	`za`
Chiński (Han (wariant uproszczony))	`zh`, `zh-hans`
Chiński (Han (tradycyjny wariant))	`zh-hant`
Zulu	`zu`

Język	Kod języka
Afrikaans	`af`
Albański	`sq`
Asturyjski	`ast`
Baskijski	`eu`
Bislama	`bi`
Bretoński	`br`
Kataloński	`ca`
Cebuano	`ceb`
Chamorro	`ch`
Chiński (uproszczony)	`zh-Hans`
Chiński (tradycyjny)	`zh-Hant`
Kornwalijski	`kw`
Korsykański	`co`
Tatar krymski (łaciński)	`crh`
Czeski	`cs`
Duński	`da`
niderlandzki	`nl`
Angielski (drukowany i odręczny)	`en`
Estoński	`et`
Fidżijski	`fj`
Filipino	`fil`
Fiński	`fi`
Francuski	`fr`
Friulian	`fur`
Galicyjski	`gl`
Niemiecki	`de`
Gilbertese	`gil`
Grenlandzki	`kl`
Kreolski haitański	`ht`
Hani	`hni`
Hmong Daw (łaciński)	`mww`
węgierski,	`hu`
Indonezyjski	`id`
Interlingua	`ia`
Inuktitut (łaciński)	`iu`
Irlandzki	`ga`

Język	Kod języka
Włoski	`it`
japoński	`ja`
Jawajski	`jv`
K'iche'	`quc`
Kabuverdianu	`kea`
Kachin (łaciński)	`kac`
Kara-Kalpak	`kaa`
Kaszubski	`csb`
Khasi	`kha`
Koreański	`ko`
Kurdyjski (łaciński)	`kur`
Luksemburski	`lb`
Malajski (łaciński)	`ms`
Manx	`gv`
Neapolitański	`nap`
Norweski	`no`
Occitan	`oc`
Polski	`pl`
Portugalski	`pt`
Retoromański	`rm`
Szkoci	`sco`
Język szkocki gaelicki	`gd`
słoweński	`slv`
Hiszpański	`es`
Swahili (łaciński)	`sw`
Szwedzki	`sv`
Tatar (łaciński)	`tat`
Tetum	`tet`
Turecki	`tr`
Górnołużycki	`hsb`
Uzbek (łaciński)	`uz`
Volapük	`vo`
Walser	`wae`
Zachodni Fryzyjscy	`fy`
Maya	`yua`
Zhen	`za`
Zulu	`zu`

W poniższej tabeli wymieniono obsługę języka modelu układu na potrzeby wyodrębniania i analizowania tekstu odręcznego .

Język	Kod języka (opcjonalnie)	Język	Kod języka (opcjonalnie)
Angielski	`en`	Japoński	`ja`
Chiński uproszczony	`zh-Hans`	Koreański	`ko`
Francuski	`fr`	Portugalski	`pt`
Niemiecki	`de`	Hiszpański	`es`
Włoski	`it`	Rosyjski (wersja zapoznawcza)	`ru`
Tajski (wersja zapoznawcza)	`th`	Arabski (wersja zapoznawcza)	`ar`

Identyfikator modelu: wstępnie utworzony układ

W poniższej tabeli wymieniono obsługę języka modelu układu na potrzeby wyodrębniania i analizowania tekstu odręcznego .

Język	Kod języka (opcjonalnie)	Język	Kod języka (opcjonalnie)
Angielski	`en`	Japoński	`ja`
Chiński uproszczony	`zh-Hans`	Koreański	`ko`
Francuski	`fr`	Portugalski	`pt`
Niemiecki	`de`	Hiszpański	`es`
Włoski	`it`

Uwaga

Analiza dokumentów w wersji 2.1 nie obsługuje wyodrębniania tekstu odręcznego.

W poniższej tabeli wymieniono obsługę języka modelu układu na potrzeby wyodrębniania i analizowania tekstu odręcznego .

Język	Kod języka (opcjonalnie)	Język	Kod języka (opcjonalnie)
Angielski	`en`	Japoński	`ja`
Chiński uproszczony	`zh-Hans`	Koreański	`ko`
Francuski	`fr`	Portugalski	`pt`
Niemiecki	`de`	Hiszpański	`es`
Włoski	`it`	Rosyjski (wersja zapoznawcza)	`ru`
Tajski (wersja zapoznawcza)	`th`	Arabski (wersja zapoznawcza)	`ar`

Dokument ogólny

Ważne

W przypadku analizy dokumentów w wersji 4.0:2024-07-31-preview, 2023-10-31-preview i w przyszłości ogólny model dokumentu (wstępnie utworzony dokument) jest dodawany do układu (wstępnie utworzony układ). Aby wyodrębnić pary klucz-wartość, znaczniki zaznaczenia, tekst, tabele i strukturę z dokumentów, użyj następujących modeli:

Pary klucz-wartość	version	Model ID
Model układu z określonym ciągiem `features=keyValuePairs` zapytania.	• v4:2024-02-29-preview, 2023-10-31-preview • v3.1:2023-07-31 (OGÓLNA dostępność)	`prebuilt-layout`
Ogólny model dokumentu	• v3.1:2023-07-31 (GA) • v3.0:2022-08-31 (GA)	`prebuilt-document`

Dokument ogólny

Identyfikator modelu: wstępnie utworzony dokument

W poniższej tabeli wymieniono ogólną obsługę języka modelu dokumentów.

Model `ID`	Język — kod ustawień regionalnych	Wartość domyślna
wstępnie utworzony dokument	Angielski (Stany Zjednoczone)— en-`US`	Angielski (Stany Zjednoczone)— en-`US`

Udostępnij za pośrednictwem

Obsługa języka: analiza dokumentów

Odczyt modelu

Identyfikator modelu: wstępnie utworzony odczyt

Układ

Identyfikator modelu: wstępnie utworzony układ

Identyfikator modelu: wstępnie utworzony układ

Dokument ogólny

Identyfikator modelu: wstępnie utworzony dokument

Opinia

Dodatkowe zasoby