Suporte a idiomas para o Reconhecimento de Formulários
Este artigo se aplica a:Reconhecimento de Formulários v3.0. Versão anterior:Reconhecimento de Formulários v2.1
Este artigo aborda os idiomas com suporte para extração (por recurso) e detecção (somente leitura) de texto e de campo. Ambos os grupos são mutuamente exclusivos.
Modelo de leitura, layout e formulário personalizado (modelo)
As listas a seguir incluem as linguagens atualmente em GA na versão v3,0 mais recente para modelos de Leitura, Layout e Modelo personalizado (formulário).
Observação
Código de idioma opcional
Os modelos universais baseados em aprendizado profundo do Reconhecimento de Formulários extraem todo o texto multilíngue em seus documentos, incluindo linhas de texto com idiomas mistos, e não exigem a especificação de um código de idioma. Não forneça o código de idioma como o parâmetro, a menos que você tenha certeza sobre o idioma e queira forçar o serviço a aplicar apenas o modelo relevante. Caso contrário, o serviço poderá retornar texto incompleto e incorreto.
Para usar os idiomas na versão v3.0 de suporte, confira o Guia de migração da API REST v3.0 para entender as diferenças da API v2.1 GA e explorar as guias de início rápido da API REST e SDK v3.0.
Texto manuscrito
A tabela a seguir lista os idiomas com suporte para extração de textos manuscritos.
Idioma | Código de idioma (opcional) | Idioma | Código de idioma (opcional) |
---|---|---|---|
Inglês | en |
Japonês | ja |
Chinês simplificado | zh-Hans |
Coreano | ko |
Francês | fr |
Português | pt |
Alemão | de |
Espanhol | es |
Italiano | it |
Texto impresso
A tabela a seguir lista os idiomas com suporte para texto de impressão pela versão GA mais recente.
Idioma | Código (opcional) | Idioma | Código (opcional) |
---|---|---|---|
Africâner | af |
Khasi | kha |
Albanês | sq |
Quiché | quc |
Angika (Devanagari) | anp |
Coreano | ko |
Árabe | ar |
Korku | kfq |
Asturiano | ast |
koryak | kpy |
Awadhi-Hindi (Devanagari) | awa |
kosraean | kos |
Azerbaidjano (Latino) | az |
kumyk (cirílico) | kum |
Bagheli | bfy |
Curdo (árabe) | ku-arab |
Basco | eu |
Curdo (latino) | ku-latn |
bielorrusso (cirílico) | be , be-cyrl |
Kurukh (Devanagari) | kru |
bielorrusso (latino) | be , be-latn |
quirguiz (cirílico) | ky |
Bhojpuri-Hindi (Devanagari) | bho |
Lakota | lkt |
Bislama | bi |
Latim | la |
Bodo (Devanagari) | brx |
Lituano | lt |
Bósnio (latim) | bs |
baixo sorábio | dsb |
Brajbha | bra |
sami de Lule | smj |
Bretão | br |
Luxemburguês | lb |
Búlgaro | bg |
Mahasu Pahari (Devanagari) | bfz |
Bundeli | bns |
Malaio (latino) | ms |
buryat (cirílico) | bua |
Maltês | mt |
Catalão | ca |
Malto (Devanagari) | kmj |
Cebuano | ceb |
Manx | gv |
Chamling | rab |
Maori | mi |
Chamorro | ch |
Marati | mr |
Chhattisgarhi (Devanagari) | hne |
Mongol (Cirílico) | mn |
Chinês simplificado | zh-Hans |
montenegrino (cirílico) | cnr-cyrl |
Chinês (tradicional) | zh-Hant |
montenegrino (latino) | cnr-latn |
Córnico | kw |
Napolitano | nap |
Corso | co |
Nepali | ne |
Tártaro da Crimeia (latim) | crh |
niueano | niu |
Croata | hr |
nogay | nog |
Tcheco | cs |
sami setentrional (latino) | sme |
Dinamarquês | da |
Norueguês | no |
Dari | prs |
Occitânico | oc |
Dhimal (Devanagari) | dhi |
osseto | os |
Dogri (Devanagari) | doi |
Pashto | ps |
Holandês | nl |
Persa | fa |
Inglês | en |
Polonês | pl |
erzya (cirílico) | myv |
Português | pt |
Estoniano | et |
Punjabi (Árabe) | pa |
Faroês | fo |
ripuário | ksh |
Fijiano | fj |
Romeno | ro |
Filipino | fil |
Romanche | rm |
Finlandês | fi |
Russo | ru |
Francês | fr |
Sadri (Devanagari) | sck |
Friuliano | fur |
samoano (latino) | sm |
gagauz (latino) | gag |
Sanskrit (Devanagari) | sa |
Galego | gl |
Santali(Devanagiri) | sat |
Alemão | de |
Escocês | sco |
Gilbertês | gil |
Gaélico escocês | gd |
Gondi (Devanagari) | gon |
Sérvio (latino) | sr , sr-latn |
Groenlandês | kl |
Sherpa (Devanagari) | xsr |
Gurung (Devanagari) | gvr |
Sirmauri (Devanagari) | srx |
Crioulo haitiano | ht |
sami de Skolt | sms |
Halbi (Devanagari) | hlb |
Eslovaco | sk |
Hani | hni |
Esloveno | sl |
Haryanvi | bgc |
Somali (árabe) | so |
havaiano | haw |
sami do sul | sma |
Híndi | hi |
Espanhol | es |
Hmong daw (latim) | mww |
Suaíli (latim) | sw |
Ho(Devanagiri) | hoc |
Sueco | sv |
Húngaro | hu |
Tadjique (Cirílico) | tg |
Islandês | is |
Tártaro (latim) | tt |
sami de Inari | smn |
Tetum | tet |
Indonésio | id |
Thani | thf |
Interlíngua | ia |
Tongan | to |
Inuktitut (Latino) | iu |
Turco | tr |
Irlandês | ga |
turcomeno (latino) | tk |
Italiano | it |
Tuva | tyv |
Japonês | ja |
Alto sorábio | hsb |
Jaunsari (Devanagari) | Jns |
Urdu | ur |
Javanês | jv |
Uigur (árabe) | ug |
Kabuverdianu | kea |
Usbeque (árabe) | uz-arab |
Kachin (latim) | kac |
Uzbeque (cirílico) | uz-cyrl |
Kangri (Devanagari) | xnr |
Uzbeque (latino) | uz |
Karachay-Balkar | krc |
Volapuque | vo |
kara-kalpak (cirílico) | kaa-cyrl |
Walser | wae |
Caracalpaque (latino) | kaa |
Galês | cy |
Cashubiano | csb |
Frísio ocidental | fy |
cazaque (cirílico) | kk-cyrl |
Yucatec Maya | yua |
cazaque (latino) | kk-latn |
Zuangue | za |
Khaling | klr |
Zulu | zu |
Imprimir texto na versão prévia (versão 2023-02-28-preview da API)
Use o parâmetro api-version=2023-02-28-preview
ao usar a API REST ou o SDK correspondente para oferecer suporte a esses idiomas em seus aplicativos.
Idioma | Código (opcional) | Idioma | Código (opcional) |
---|---|---|---|
Abaza | abq |
Malgaxe | mg |
Abecásia | ab |
Mandinka | mnk |
Achinese | ace |
Mapudungun | arn |
Acoli | ach |
Mari (Rússia) | chm |
Adangme | ada |
Masai | mas |
Adyghe | ady |
Mende (Serra Leoa) | men |
Afar | aa |
Meru | mer |
Akan | ak |
Meta' | mgo |
Algonquin | alq |
Minangkabau | min |
Asu (Tanzânia) | asa |
Mohawk | moh |
Avaric | av |
Mongondow | mog |
Aimará | ay |
Morisyen | mfe |
Bafia | ksf |
Mundang | mua |
Bambara | bm |
Nahuatl | nah |
Bashkir | ba |
Navajo | nv |
Bemba (Zâmbia) | bem |
Ndonga | ng |
Bena (Tanzânia) | bez |
Ngomba | jgo |
Bikol | bik |
Ndebele do Norte | nd |
Bini | bin |
Nianja | ny |
Checheno | ce |
Nyankole | nyn |
Chiga | cgg |
Nzima | nzi |
Choctaw | cho |
Ojibwa | oj |
Chukot | ckt |
Oromo | om |
Chuvash | cv |
Pampanga | pam |
Cree | cr |
Pangasinan | pag |
Creek | mus |
Papiamento | pap |
Crow | cro |
Pedi | nso |
Dargwa | dar |
Quíchua | qu |
Duala | dua |
Rundi | rn |
Dungan | dng |
Rwa | rwk |
Efik | efi |
Samburu | saq |
Fon | fon |
Sango | sg |
Ga | gaa |
Sangu (Gabão) | snq |
Ganda | lg |
Sena | seh |
Gayo | gay |
Sérvio (cirílico) | sr-cyrl |
Guarani | gn |
Shambala | ksb |
Gusii | guz |
Shona | sn |
Grego | el |
Siksika | bla |
Hebraico | he |
Soga | xog |
Herero | hz |
Somali (latino) | so-latn |
Hiligaynon | hil |
Songhai | son |
Iban | iba |
Ndebele do Sul | nr |
Igbo | ig |
Altai do Sul | alt |
Iloko | ilo |
Sotho do Sul | st |
Ingush | inh |
Sundanês | su |
Jola-Fonyi | dyo |
Swati | ss |
Kabardian | kbd |
Tabassaran | tab |
Kalenjin | kln |
Tachelhit | shi |
Kalmyk | xal |
Taitiano | ty |
Kanuri | kr |
Taita | dav |
Khakas | kjh |
Tâmil | ta |
Kikuyu | ki |
Tatar (cirílico) | tt-cyrl |
Kildin Sami | sjd |
Teso | teo |
Quiniaruanda | rw |
Tailandês | th |
Komi | kv |
Tok Pisin | tpi |
Kongo | kg |
Tsonga | ts |
Kpelle | kpe |
Tswana | tn |
Kuanyama | kj |
Udmurt | udm |
Lak | lbe |
Uighur (cirílico) | ug-cyrl |
Letão | lv |
Ucraniano | uk |
Lezghian | lex |
Vietnamita | vi |
Lingala | ln |
Vunjo | vun |
Lozi | loz |
Wolof | wo |
Luo (Quênia e Tanzânia) | luo |
Xhosa | xh |
Luyia | luy |
Yakut | sah |
Macedônio | mk |
Zapoteca | zap |
Machame | jmc |
Zarma | dje |
Madurese | mad |
||
Makhuwa-Meetto | mgh |
||
Makonde | kde |
Modelo neural personalizado
Linguagem | Versão da API |
---|---|
Inglês | 2022-08-31 (GA), 2023-02-28-preview |
Espanhol | 2023-02-28-preview |
Alemão | 2023-02-28-preview |
Francês | 2023-02-28-preview |
Italiano | 2023-02-28-preview |
Holandês | 2023-02-28-preview |
Modelo de recibo
Observação
Não é necessário especificar uma localidade. Esse é um parâmetro opcional. A tecnologia de aprendizagem profunda do Reconhecimento de Formulários detectará automaticamente o idioma do texto em sua imagem.
O recibo dá suporte a todos os recibos em inglês e às seguintes localidades:
Linguagem | Código de localidade |
---|---|
Inglês | en-au |
Inglês (Canadá) | en-ca |
Inglês (Reino Unido) | en-gb |
Inglês (Índia) | en-in |
Inglês (Estados Unidos) | en-us |
Francês | fr |
Espanhol | es |
Modelo de cartão de visita
Observação
Não é necessário especificar uma localidade. Esse é um parâmetro opcional. A tecnologia de aprendizagem profunda do Reconhecimento de Formulários detectará automaticamente o idioma do texto em sua imagem.
O Cartão de Visita é compatível com todos os cartões de visita em inglês com as seguintes localidades:
Linguagem | Código de localidade |
---|---|
Inglês | en-US , en-CA , en-GB , en-IN |
Alemão | de |
Francês | fr |
Italiano | it |
Português | pt |
Holandês | nl |
As versões 2022-06-30 e posteriores incluem suporte ao idioma japonês:
Linguagem | Código de localidade |
---|---|
Japonês | ja |
Modelo de fatura
Linguagem | Código de localidade |
---|---|
Inglês | en-US , en-CA , en-GB , en-IN |
Espanhol | es |
Alemão | de |
Francês | fr |
Italiano | it |
Português | pt |
Holandês | nl |
Modelo de documento de identificação
Essa tecnologia está disponível atualmente para licenças de driver dos EUA e para a página biográfica de passaportes internacionais (exceto visa e outros documentos de viagem).
Documento geral
Linguagem | Código de localidade |
---|---|
Inglês (Estados Unidos) | pt-br |
Idiomas detectados: API de Leitura
A API de Leitura dá suporte à detecção dos idiomas a seguir nos documentos. Esta lista pode incluir idiomas que não têm suporte para extração de texto no momento.
Observação
Detecção de idioma
O modelo de leitura do Reconhecimento de Formulários pode detectar a possível presença de idiomas e retornar códigos de idioma para os idiomas detectados. Para determinar se o texto também pode ser extraído para determinado idioma, confira as seções anteriores.
Observação
Idiomas detectados versus idiomas extraídos
Esta seção lista os idiomas que podemos detectar nos documentos usando o modelo de leitura, se aplicável. Observe que essa lista é diferente da lista de idiomas dos quais damos suporte à extração de texto, que é especificada nas seções acima para cada modelo.
Idioma | Código |
---|---|
Africâner | af |
Albanês | sq |
Amárico | am |
Árabe | ar |
Armênia | hy |
Assamês | as |
Azerbaidjano | az |
Basco | eu |
Bielorrusso | be |
Bengali | bn |
Bósnio | bs |
Búlgaro | bg |
Birmanês | my |
Catalão | ca |
Khmer Central | km |
Chinês | zh |
Chinês simplificado | zh_chs |
Chinês (tradicional) | zh_cht |
Corso | co |
Croata | hr |
Tcheco | cs |
Dinamarquês | da |
Dari | prs |
Divehi | dv |
Holandês | nl |
Inglês | en |
Esperanto | eo |
Estoniano | et |
Fijiano | fj |
Finlandês | fi |
Francês | fr |
Galego | gl |
Georgiano | ka |
Alemão | de |
Grego | el |
Guzerate | gu |
Haitiano | ht |
Hausa | ha |
Hebraico | he |
Híndi | hi |
Hmong Daw | mww |
Húngaro | hu |
Islandês | is |
Igbo | ig |
Indonésio | id |
Inuktitut | iu |
Irlandês | ga |
Italiano | it |
Japonês | ja |
Javanês | jv |
canarim | kn |
Cazaque | kk |
Quiniaruanda | rw |
Quirguiz | ky |
Coreano | ko |
Curdo | ku |
Lao | lo |
Latim | la |
Letão | lv |
Lituano | lt |
Luxemburguês | lb |
Macedônio | mk |
Malgaxe | mg |
Malaio | ms |
Malaiala | ml |
Maltês | mt |
Maori | mi |
Marati | mr |
Mongol | mn |
Nepali | ne |
Norueguês | no |
Norueguês Nynorsk | nn |
Oriya | or |
Pasht | ps |
Persa | fa |
Polonês | pl |
Português | pt |
Panjabi | pa |
Queretaro Otomi | otq |
Romeno | ro |
Russo | ru |
Samoano | sm |
Sérvio | sr |
Shona | sn |
Sindhi | sd |
Sinhala | si |
Eslovaco | sk |
Esloveno | sl |
Somali | so |
Espanhol | es |
Sundanês | su |
Swahili | sw |
Sueco | sv |
Tagalo | tl |
Taitiano | ty |
Tajik | tg |
Tâmil | ta |
Tártaro | tt |
Télugo | te |
Tailandês | th |
Tibetano | bo |
Tigrinya | ti |
Tongan | to |
Turco | tr |
Turcomeno | tk |
Ucraniano | uk |
Urdu | ur |
Uzbek | uz |
Vietnamita | vi |
Galês | cy |
Xhosa | xh |
Iídiche | yi |
Ioruba | yo |
Yucatec Maya | yua |
Zulu | zu |
Este artigo se aplica a:Reconhecimento de Formulários v2.1. Versão posterior:Reconhecimento de Formulários v3.0
Esta tabela lista os idiomas escritos compatíveis com cada serviço do Reconhecimento de Formulários.
Layout e modelo personalizado
Linguagem | Código de idioma |
---|---|
Africâner | af |
Albanês | sq |
Asturiano | ast |
Basco | eu |
Bislama | bi |
Bretão | br |
Catalão | ca |
Cebuano | ceb |
Chamorro | ch |
Chinês (Simplificado) | zh-Hans |
Chinês (Tradicional) | zh-Hant |
Córnico | kw |
Corso | co |
Tártaro da Crimeia (latim) | crh |
Tcheco | cs |
Dinamarquês | da |
Holandês | nl |
Inglês (em letra de forma e manuscrito) | en |
Estoniano | et |
Fijiano | fj |
Filipino | fil |
Finlandês | fi |
Francês | fr |
Friuliano | fur |
Galego | gl |
Alemão | de |
Gilbertês | gil |
Groenlandês | kl |
Crioulo haitiano | ht |
Hani | hni |
Hmong daw (latim) | mww |
Húngaro | hu |
Indonésio | id |
Interlíngua | ia |
Inuktitut (Latino) | iu |
Irlandês | ga |
Italiano | it |
Japonês | ja |
Javanês | jv |
Quiché | quc |
Kabuverdianu | kea |
Kachin (latim) | kac |
Kara-Kalpak | kaa |
Cashubiano | csb |
Khasi | kha |
Coreano | ko |
Curdo (latim) | kur |
Luxemburguês | lb |
Malaio (latino) | ms |
Manx | gv |
Napolitano | nap |
Norueguês | no |
Occitânico | oc |
Polonês | pl |
Português | pt |
Romanche | rm |
Escocês | sco |
Gaélico escocês | gd |
Esloveno | slv |
Espanhol | es |
Suaíli (latim) | sw |
Sueco | sv |
Tártaro (latim) | tat |
Tetum | tet |
Turco | tr |
Alto sorábio | hsb |
Uzbeque (latino) | uz |
Volapuque | vo |
Walser | wae |
Frísio ocidental | fy |
Yucatec Maya | yua |
Zuangue | za |
Zulu | zu |
Recebimento predefinido e cartão de visita
Observação
Não é necessário especificar uma localidade. Esse é um parâmetro opcional. A tecnologia de aprendizagem profunda do Reconhecimento de Formulários detectará automaticamente o idioma do texto em sua imagem.
Recibos e cartões de visita predefinidos oferecem suporte a todos os recibos e cartões de visita em inglês com as seguintes localidades:
Linguagem | Código de localidade |
---|---|
Inglês (Austrália) | en-au |
Inglês (Canadá) | en-ca |
Inglês (Reino Unido) | en-gb |
Inglês (Índia) | en-in |
Inglês (Estados Unidos) | en-us |
Modelo de fatura predefinido
Linguagem | Código de localidade |
---|---|
Inglês (Estados Unidos) | pt-br |
Documentos de identidade pré-criados
Essa tecnologia está disponível atualmente para licenças de driver dos EUA e para a página biográfica de passaportes internacionais (exceto visa e outros documentos de viagem).