Suporte a idiomas para o Reconhecimento de Formulários

Este artigo se aplica a:marca de seleção do Reconhecimento de Formulários v3.0Reconhecimento de Formulários v3.0. Versão anterior:Reconhecimento de Formulários v2.1

Este artigo aborda os idiomas com suporte para extração (por recurso) e detecção (somente leitura) de texto e de campo. Ambos os grupos são mutuamente exclusivos.

Modelo de leitura, layout e formulário personalizado (modelo)

As listas a seguir incluem as linguagens atualmente em GA na versão v3,0 mais recente para modelos de Leitura, Layout e Modelo personalizado (formulário).

Observação

Código de idioma opcional

Os modelos universais baseados em aprendizado profundo do Reconhecimento de Formulários extraem todo o texto multilíngue em seus documentos, incluindo linhas de texto com idiomas mistos, e não exigem a especificação de um código de idioma. Não forneça o código de idioma como o parâmetro, a menos que você tenha certeza sobre o idioma e queira forçar o serviço a aplicar apenas o modelo relevante. Caso contrário, o serviço poderá retornar texto incompleto e incorreto.

Para usar os idiomas na versão v3.0 de suporte, confira o Guia de migração da API REST v3.0 para entender as diferenças da API v2.1 GA e explorar as guias de início rápido da API REST e SDK v3.0.

Texto manuscrito

A tabela a seguir lista os idiomas com suporte para extração de textos manuscritos.

Idioma Código de idioma (opcional) Idioma Código de idioma (opcional)
Inglês en Japonês ja
Chinês simplificado zh-Hans Coreano ko
Francês fr Português pt
Alemão de Espanhol es
Italiano it

A tabela a seguir lista os idiomas com suporte para texto de impressão pela versão GA mais recente.

Idioma Código (opcional) Idioma Código (opcional)
Africâner af Khasi kha
Albanês sq Quiché quc
Angika (Devanagari) anp Coreano ko
Árabe ar Korku kfq
Asturiano ast koryak kpy
Awadhi-Hindi (Devanagari) awa kosraean kos
Azerbaidjano (Latino) az kumyk (cirílico) kum
Bagheli bfy Curdo (árabe) ku-arab
Basco eu Curdo (latino) ku-latn
bielorrusso (cirílico) be, be-cyrl Kurukh (Devanagari) kru
bielorrusso (latino) be, be-latn quirguiz (cirílico) ky
Bhojpuri-Hindi (Devanagari) bho Lakota lkt
Bislama bi Latim la
Bodo (Devanagari) brx Lituano lt
Bósnio (latim) bs baixo sorábio dsb
Brajbha bra sami de Lule smj
Bretão br Luxemburguês lb
Búlgaro bg Mahasu Pahari (Devanagari) bfz
Bundeli bns Malaio (latino) ms
buryat (cirílico) bua Maltês mt
Catalão ca Malto (Devanagari) kmj
Cebuano ceb Manx gv
Chamling rab Maori mi
Chamorro ch Marati mr
Chhattisgarhi (Devanagari) hne Mongol (Cirílico) mn
Chinês simplificado zh-Hans montenegrino (cirílico) cnr-cyrl
Chinês (tradicional) zh-Hant montenegrino (latino) cnr-latn
Córnico kw Napolitano nap
Corso co Nepali ne
Tártaro da Crimeia (latim) crh niueano niu
Croata hr nogay nog
Tcheco cs sami setentrional (latino) sme
Dinamarquês da Norueguês no
Dari prs Occitânico oc
Dhimal (Devanagari) dhi osseto os
Dogri (Devanagari) doi Pashto ps
Holandês nl Persa fa
Inglês en Polonês pl
erzya (cirílico) myv Português pt
Estoniano et Punjabi (Árabe) pa
Faroês fo ripuário ksh
Fijiano fj Romeno ro
Filipino fil Romanche rm
Finlandês fi Russo ru
Francês fr Sadri (Devanagari) sck
Friuliano fur samoano (latino) sm
gagauz (latino) gag Sanskrit (Devanagari) sa
Galego gl Santali(Devanagiri) sat
Alemão de Escocês sco
Gilbertês gil Gaélico escocês gd
Gondi (Devanagari) gon Sérvio (latino) sr, sr-latn
Groenlandês kl Sherpa (Devanagari) xsr
Gurung (Devanagari) gvr Sirmauri (Devanagari) srx
Crioulo haitiano ht sami de Skolt sms
Halbi (Devanagari) hlb Eslovaco sk
Hani hni Esloveno sl
Haryanvi bgc Somali (árabe) so
havaiano haw sami do sul sma
Híndi hi Espanhol es
Hmong daw (latim) mww Suaíli (latim) sw
Ho(Devanagiri) hoc Sueco sv
Húngaro hu Tadjique (Cirílico) tg
Islandês is Tártaro (latim) tt
sami de Inari smn Tetum tet
Indonésio id Thani thf
Interlíngua ia Tongan to
Inuktitut (Latino) iu Turco tr
Irlandês ga turcomeno (latino) tk
Italiano it Tuva tyv
Japonês ja Alto sorábio hsb
Jaunsari (Devanagari) Jns Urdu ur
Javanês jv Uigur (árabe) ug
Kabuverdianu kea Usbeque (árabe) uz-arab
Kachin (latim) kac Uzbeque (cirílico) uz-cyrl
Kangri (Devanagari) xnr Uzbeque (latino) uz
Karachay-Balkar krc Volapuque vo
kara-kalpak (cirílico) kaa-cyrl Walser wae
Caracalpaque (latino) kaa Galês cy
Cashubiano csb Frísio ocidental fy
cazaque (cirílico) kk-cyrl Yucatec Maya yua
cazaque (latino) kk-latn Zuangue za
Khaling klr Zulu zu

Use o parâmetro api-version=2023-02-28-preview ao usar a API REST ou o SDK correspondente para oferecer suporte a esses idiomas em seus aplicativos.

Idioma Código (opcional) Idioma Código (opcional)
Abaza abq Malgaxe mg
Abecásia ab Mandinka mnk
Achinese ace Mapudungun arn
Acoli ach Mari (Rússia) chm
Adangme ada Masai mas
Adyghe ady Mende (Serra Leoa) men
Afar aa Meru mer
Akan ak Meta' mgo
Algonquin alq Minangkabau min
Asu (Tanzânia) asa Mohawk moh
Avaric av Mongondow mog
Aimará ay Morisyen mfe
Bafia ksf Mundang mua
Bambara bm Nahuatl nah
Bashkir ba Navajo nv
Bemba (Zâmbia) bem Ndonga ng
Bena (Tanzânia) bez Ngomba jgo
Bikol bik Ndebele do Norte nd
Bini bin Nianja ny
Checheno ce Nyankole nyn
Chiga cgg Nzima nzi
Choctaw cho Ojibwa oj
Chukot ckt Oromo om
Chuvash cv Pampanga pam
Cree cr Pangasinan pag
Creek mus Papiamento pap
Crow cro Pedi nso
Dargwa dar Quíchua qu
Duala dua Rundi rn
Dungan dng Rwa rwk
Efik efi Samburu saq
Fon fon Sango sg
Ga gaa Sangu (Gabão) snq
Ganda lg Sena seh
Gayo gay Sérvio (cirílico) sr-cyrl
Guarani gn Shambala ksb
Gusii guz Shona sn
Grego el Siksika bla
Hebraico he Soga xog
Herero hz Somali (latino) so-latn
Hiligaynon hil Songhai son
Iban iba Ndebele do Sul nr
Igbo ig Altai do Sul alt
Iloko ilo Sotho do Sul st
Ingush inh Sundanês su
Jola-Fonyi dyo Swati ss
Kabardian kbd Tabassaran tab
Kalenjin kln Tachelhit shi
Kalmyk xal Taitiano ty
Kanuri kr Taita dav
Khakas kjh Tâmil ta
Kikuyu ki Tatar (cirílico) tt-cyrl
Kildin Sami sjd Teso teo
Quiniaruanda rw Tailandês th
Komi kv Tok Pisin tpi
Kongo kg Tsonga ts
Kpelle kpe Tswana tn
Kuanyama kj Udmurt udm
Lak lbe Uighur (cirílico) ug-cyrl
Letão lv Ucraniano uk
Lezghian lex Vietnamita vi
Lingala ln Vunjo vun
Lozi loz Wolof wo
Luo (Quênia e Tanzânia) luo Xhosa xh
Luyia luy Yakut sah
Macedônio mk Zapoteca zap
Machame jmc Zarma dje
Madurese mad
Makhuwa-Meetto mgh
Makonde kde

Modelo neural personalizado

Linguagem Versão da API
Inglês 2022-08-31 (GA), 2023-02-28-preview
Espanhol 2023-02-28-preview
Alemão 2023-02-28-preview
Francês 2023-02-28-preview
Italiano 2023-02-28-preview
Holandês 2023-02-28-preview

Modelo de recibo

Observação

Não é necessário especificar uma localidade. Esse é um parâmetro opcional. A tecnologia de aprendizagem profunda do Reconhecimento de Formulários detectará automaticamente o idioma do texto em sua imagem.

O recibo dá suporte a todos os recibos em inglês e às seguintes localidades:

Linguagem Código de localidade
Inglês en-au
Inglês (Canadá) en-ca
Inglês (Reino Unido) en-gb
Inglês (Índia) en-in
Inglês (Estados Unidos) en-us
Francês fr
Espanhol es

Modelo de cartão de visita

Observação

Não é necessário especificar uma localidade. Esse é um parâmetro opcional. A tecnologia de aprendizagem profunda do Reconhecimento de Formulários detectará automaticamente o idioma do texto em sua imagem.

O Cartão de Visita é compatível com todos os cartões de visita em inglês com as seguintes localidades:

Linguagem Código de localidade
Inglês en-US, en-CA, en-GB, en-IN
Alemão de
Francês fr
Italiano it
Português pt
Holandês nl

As versões 2022-06-30 e posteriores incluem suporte ao idioma japonês:

Linguagem Código de localidade
Japonês ja

Modelo de fatura

Linguagem Código de localidade
Inglês en-US, en-CA, en-GB, en-IN
Espanhol es
Alemão de
Francês fr
Italiano it
Português pt
Holandês nl

Modelo de documento de identificação

Essa tecnologia está disponível atualmente para licenças de driver dos EUA e para a página biográfica de passaportes internacionais (exceto visa e outros documentos de viagem).

Documento geral

Linguagem Código de localidade
Inglês (Estados Unidos) pt-br

Idiomas detectados: API de Leitura

A API de Leitura dá suporte à detecção dos idiomas a seguir nos documentos. Esta lista pode incluir idiomas que não têm suporte para extração de texto no momento.

Observação

Detecção de idioma

O modelo de leitura do Reconhecimento de Formulários pode detectar a possível presença de idiomas e retornar códigos de idioma para os idiomas detectados. Para determinar se o texto também pode ser extraído para determinado idioma, confira as seções anteriores.

Observação

Idiomas detectados versus idiomas extraídos

Esta seção lista os idiomas que podemos detectar nos documentos usando o modelo de leitura, se aplicável. Observe que essa lista é diferente da lista de idiomas dos quais damos suporte à extração de texto, que é especificada nas seções acima para cada modelo.

Idioma Código
Africâner af
Albanês sq
Amárico am
Árabe ar
Armênia hy
Assamês as
Azerbaidjano az
Basco eu
Bielorrusso be
Bengali bn
Bósnio bs
Búlgaro bg
Birmanês my
Catalão ca
Khmer Central km
Chinês zh
Chinês simplificado zh_chs
Chinês (tradicional) zh_cht
Corso co
Croata hr
Tcheco cs
Dinamarquês da
Dari prs
Divehi dv
Holandês nl
Inglês en
Esperanto eo
Estoniano et
Fijiano fj
Finlandês fi
Francês fr
Galego gl
Georgiano ka
Alemão de
Grego el
Guzerate gu
Haitiano ht
Hausa ha
Hebraico he
Híndi hi
Hmong Daw mww
Húngaro hu
Islandês is
Igbo ig
Indonésio id
Inuktitut iu
Irlandês ga
Italiano it
Japonês ja
Javanês jv
canarim kn
Cazaque kk
Quiniaruanda rw
Quirguiz ky
Coreano ko
Curdo ku
Lao lo
Latim la
Letão lv
Lituano lt
Luxemburguês lb
Macedônio mk
Malgaxe mg
Malaio ms
Malaiala ml
Maltês mt
Maori mi
Marati mr
Mongol mn
Nepali ne
Norueguês no
Norueguês Nynorsk nn
Oriya or
Pasht ps
Persa fa
Polonês pl
Português pt
Panjabi pa
Queretaro Otomi otq
Romeno ro
Russo ru
Samoano sm
Sérvio sr
Shona sn
Sindhi sd
Sinhala si
Eslovaco sk
Esloveno sl
Somali so
Espanhol es
Sundanês su
Swahili sw
Sueco sv
Tagalo tl
Taitiano ty
Tajik tg
Tâmil ta
Tártaro tt
Télugo te
Tailandês th
Tibetano bo
Tigrinya ti
Tongan to
Turco tr
Turcomeno tk
Ucraniano uk
Urdu ur
Uzbek uz
Vietnamita vi
Galês cy
Xhosa xh
Iídiche yi
Ioruba yo
Yucatec Maya yua
Zulu zu

Este artigo se aplica a:marca de seleção do Reconhecimento de Formulários v2.1Reconhecimento de Formulários v2.1. Versão posterior:Reconhecimento de Formulários v3.0

Esta tabela lista os idiomas escritos compatíveis com cada serviço do Reconhecimento de Formulários.

Layout e modelo personalizado

Linguagem Código de idioma
Africâner af
Albanês sq
Asturiano ast
Basco eu
Bislama bi
Bretão br
Catalão ca
Cebuano ceb
Chamorro ch
Chinês (Simplificado) zh-Hans
Chinês (Tradicional) zh-Hant
Córnico kw
Corso co
Tártaro da Crimeia (latim) crh
Tcheco cs
Dinamarquês da
Holandês nl
Inglês (em letra de forma e manuscrito) en
Estoniano et
Fijiano fj
Filipino fil
Finlandês fi
Francês fr
Friuliano fur
Galego gl
Alemão de
Gilbertês gil
Groenlandês kl
Crioulo haitiano ht
Hani hni
Hmong daw (latim) mww
Húngaro hu
Indonésio id
Interlíngua ia
Inuktitut (Latino) iu
Irlandês ga
Italiano it
Japonês ja
Javanês jv
Quiché quc
Kabuverdianu kea
Kachin (latim) kac
Kara-Kalpak kaa
Cashubiano csb
Khasi kha
Coreano ko
Curdo (latim) kur
Luxemburguês lb
Malaio (latino) ms
Manx gv
Napolitano nap
Norueguês no
Occitânico oc
Polonês pl
Português pt
Romanche rm
Escocês sco
Gaélico escocês gd
Esloveno slv
Espanhol es
Suaíli (latim) sw
Sueco sv
Tártaro (latim) tat
Tetum tet
Turco tr
Alto sorábio hsb
Uzbeque (latino) uz
Volapuque vo
Walser wae
Frísio ocidental fy
Yucatec Maya yua
Zuangue za
Zulu zu

Recebimento predefinido e cartão de visita

Observação

Não é necessário especificar uma localidade. Esse é um parâmetro opcional. A tecnologia de aprendizagem profunda do Reconhecimento de Formulários detectará automaticamente o idioma do texto em sua imagem.

Recibos e cartões de visita predefinidos oferecem suporte a todos os recibos e cartões de visita em inglês com as seguintes localidades:

Linguagem Código de localidade
Inglês (Austrália) en-au
Inglês (Canadá) en-ca
Inglês (Reino Unido) en-gb
Inglês (Índia) en-in
Inglês (Estados Unidos) en-us

Modelo de fatura predefinido

Linguagem Código de localidade
Inglês (Estados Unidos) pt-br

Documentos de identidade pré-criados

Essa tecnologia está disponível atualmente para licenças de driver dos EUA e para a página biográfica de passaportes internacionais (exceto visa e outros documentos de viagem).

Próximas etapas