Compatibilidad de idiomas con Form Recognizer

Este artículo es aplicable a:Form Recognizer v3.0Form Recognizer v3.0. Versión anterior: Form Recognizer v2.1

En este artículo se tratan los idiomas admitidos para la extracción (por característica) y la detección (solo lectura) de texto y campos. Ambos grupos son mutuamente excluyentes.

Modelo (plantilla) de formulario personalizado, diseño y lectura

En las listas siguientes se incluyen los idiomas disponibles actualmente con carácter general (GA) en la versión 3.0 más reciente. Estos idiomas son compatibles con las características de modelo de lectura, diseño y formulario personalizado (plantilla).

Nota

Código de idioma (opcional)

Los modelos universales basados en aprendizaje profundo de Form Recognizer extraen todo el texto multilingüe de los documentos, incluidas las líneas de texto con idiomas combinados, y no requieren especificar un código de idioma. No proporcione el código de idioma como parámetro a menos que esté seguro del idioma y desee forzar al servicio a aplicar solo el modelo correspondiente. De lo contrario, el servicio puede devolver texto incompleto e incorrecto.

Para usar los idiomas compatibles con la versión 3.0, consulte la guía de migración de la API de REST de la versión 3.0 para entender las diferencias con la API GA de la versión 2.1 y explore los inicios rápidos del SDK y la API de REST de la versión 3.0.

Texto manuscrito

En la tabla siguiente se enumeran los idiomas admitidos para la extracción de textos manuscritos.

Idioma Código de idioma (opcional) Lenguaje Código de idioma (opcional)
Inglés en Japonés ja
Chino simplificado zh-Hans Coreano ko
Francés fr Portugués pt
Alemán de Español es
Italiano it

En la tabla siguiente se enumeran los idiomas para el texto impreso que admite la versión de disponibilidad general (GA) más reciente.

Lenguaje Código (opcional) Lenguaje Código (opcional)
Afrikáans af Khasi kha
Albanés sq Quiché quc
Angika (devanagari) anp Coreano ko
Árabe ar Korku kfq
Asturiano ast Koriakia kpy
Awadhi-Hindi (devanagari) awa Kosreano kos
Azerbaiyano (latino) az Cumuco (cirílico) kum
Bagheli bfy Kurdo (árabe) ku-arab
Vasco eu Kurdo (latino) ku-latn
Bielorruso (cirílico) be, be-cyrl Kurukh (devanagari) kru
Bielorruso (latino) be, be-latn Kirguís (cirílico) ky
Bhojpuri-Hindi (devanagari) bho Lakota lkt
Bislama bi Latín la
Bodo (devanagari) brx Lituano lt
Bosnio (latino) bs Bajo sorbio dsb
Brajbha bra Sami lule smj
Bretón br Luxemburgués lb
Búlgaro bg Mahasu Pahari (devanagari) bfz
Bundeli bns Malayo (latino) ms
Buriato (cirílico) bua Maltés mt
Catalán ca Malto (devanagari) kmj
Cebuano ceb Manx gv
Chamling rab Maori mi
Chamorro ch Maratí mr
Chhattisgarhi (devanagari) hne Mongol (cirílico) mn
Chino simplificado zh-Hans Montenegrino (cirílico) cnr-cyrl
Chino tradicional zh-Hant Montenegrino (latino) cnr-latn
Córnico kw Napolitano nap
Corso co Nepalí ne
Tártaro de Crimea (Latín) crh Niueano niu
Croata hr Nogayo nog
Checo cs Sami septentrional (latino) sme
Danés da Noruego no
Dari prs Occitano oc
Dhimal (devanagari) dhi Osetio os
Dogri (devanagari) doi Pastún ps
Neerlandés nl Persa fa
Inglés en Polaco pl
Erzya (cirílico) myv Portugués pt
Estonio et Punyabí (árabe) pa
Feroés fo Ripuario ksh
Fiyiano fj Rumano ro
Filipino fil Romanche rm
Finés fi Ruso ru
Francés fr Sadri (devanagari) sck
Friulano fur Samoano (latino) sm
Gagauzo (latino) gag Sánscrito (Devanagari) sa
Gallego gl Santali (devanagiri) sat
Alemán de Escocés sco
Gilbertés gil Gaélico escocés gd
Gondi (devanagari) gon Serbio (latino) sr, sr-latn
Groenlandés kl Sherpa (devanagari) xsr
Gurung (devanagari) gvr Sirmauri (devanagari) srx
Criollo haitiano ht Sami skolt sms
Halbi (devanagari) hlb Eslovaco sk
Hani hni Esloveno sl
Haryanvi bgc Somalí (árabe) so
Hawaiano haw Sami meridional sma
Hindi hi Español es
Hmong Daw (Latín) mww Swahili (Latín) sw
Ho (devanagiri) hoc Sueco sv
Húngaro hu Tayiko (cirílico) tg
Islandés is Tártaro (Latín) tt
Sami inari smn Tetum tet
Indonesio id Thangmi thf
Interlingua ia Tongano to
Inuktitut (latino) iu Turco tr
Irlandés ga Turcomano (latino) tk
Italiano it Tuvano tyv
Japonés ja Alto sorbio hsb
Jaunsari (devanagari) Jns Urdu ur
Javanés jv Uigur (árabe) ug
Caboverdiano kea Uzbeko (árabe) uz-arab
Kachin (Latín) kac Uzbeko (cirílico) uz-cyrl
Kangri (devanagari) xnr Uzbeko (latino) uz
Karachái-bálkaro krc Volapük vo
Karakalpako (cirílico) kaa-cyrl Walser wae
Karakalpako (latino) kaa Galés cy
Casubio csb Frisón occidental fy
Kazajo (cirílico) kk-cyrl Maya Yucateco yua
Kazajo (latino) kk-latn Zhuang za
Khaling klr Zulú zu

Use el parámetro api-version=2022-06-30-preview al usar la API REST o el SDK correspondiente para admitir estos idiomas en las aplicaciones.

Lenguaje Código (opcional) Lenguaje Código (opcional)
Abaza abq Malgache mg
Abjasio ab Mandinká mnk
Achenés ace Mapuche arn
Acholí ach Mari (Rusia) chm
Adangme ada Masái mas
Adigué ady Mende (Sierra Leona) men
Afar aa Meru mer
Akan ak Meta' mgo
Algonquino alq Minangkabau min
Asu (Tanzania) asa Mohawk moh
Avar av Mongondow mog
Aimara ay Mauriciano mfe
Bafia ksf Mundang mua
Bambara bm Náhuatl nah
Bashkir ba Navajo nv
Bemba (Zambia) bem Ndonga ng
Bena (Tanzania) bez Ngomba jgo
Bikol bik Ndebele septentrional nd
Bini bin Nyanja ny
Checheno ce Nyankole nyn
Chiga cgg Nzima nzi
Choctaw cho Ojibwa oj
Chukot ckt Oromo om
Chuvasio cv Pampango pam
Cree cr Pangasinense pag
Creek mus Papiamento pap
Crow cro Pedi nso
Dargwa dar Quechua qu
Duala dua Rundi rn
Dungano dng Rwa rwk
Efik efi Samburu saq
Fon fon Sango sg
Ga gaa Sangu (Gabón) snq
Ganda lg Sena seh
Gayo gay Serbio (cirílico) sr-cyrl
Guaraní gn Shambala ksb
Gusii guz Shona sn
Griego el Siksiká bla
Herero hz Soga xog
Hiligaynon hil Somalí (latino) so-latn
Iban iba Songhay son
Igbo ig Ndebele meridional nr
Ilocano ilo Altaico del Sur alt
Ingusetio inh Sotho meridional st
Jola-fonyi dyo Sundanés su
Cabardiano kbd Swati ss
Kalenjin kln Tabassaran tab
Calmuco xal Tashelhit shi
Kanuri kr Tahitiano ty
Jakasio kjh Taita dav
Kikuyu ki Tártaro (cirílico) tt-cyrl
Sami kildin sjd Teso teo
Kinyarwanda rw Tailandés th
Komi kv Tok Pisin tpi
Kongo kg Tsonga ts
Kpelle kpe Tswana tn
Kuanyama kj Udmurto udm
Lak lbe Uigur (cirílico) ug-cyrl
Letón lv Ucraniano uk
Lezgiano lex Vietnamita vi
Lingala ln Vunjo vun
Lozi loz Wolof wo
Luo (Kenia y Tanzania) luo Xhosa xh
Luyia luy Yakuto sah
Macedonio mk Zapoteco zap
Machame jmc Zarma dje
Madureso mad
Makhuwa-meetto mgh
Makonde kde

Modelo neuronal personalizado

Lenguaje Código de configuración regional
Spanish (Traditional Sort) - Spain es-es

Modelo de recibo

Nota

No es necesario especificar una configuración regional. Se trata de un parámetro opcional. La tecnología de aprendizaje profundo de Form Recognizer detectará automáticamente el idioma del texto de la imagen.

El modelo de recibo admite todos los recibos en inglés y las configuraciones regionales siguientes:

Lenguaje Código de configuración regional
Inglés (Australia) en-au
Inglés (Canadá) en-ca
Inglés (Reino Unido) en-gb
Inglés (India) en-in
Spanish (Traditional Sort) - Spain en-us
Francés fr
Español es

Modelo de tarjeta de presentación

Nota

No es necesario especificar una configuración regional. Se trata de un parámetro opcional. La tecnología de aprendizaje profundo de Form Recognizer detectará automáticamente el idioma del texto de la imagen.

El modelo de tarjeta de presentación admite todas las tarjetas de presentación en inglés con las siguientes configuraciones regionales:

Lenguaje Código de configuración regional
Inglés (Australia) en-au
Inglés (Canadá) en-ca
Inglés (Reino Unido) en-gb
Inglés (India) en-in
Spanish (Traditional Sort) - Spain en-us

Las versiones 2022-06-30 y posteriores incluyen compatibilidad con idiomas japoneses:

Lenguaje Código de configuración regional
Japonés ja

Modelo de factura

Lenguaje Código de configuración regional
Spanish (Traditional Sort) - Spain es-ES
Español es
Alemán (2022-06-30 y versiones posteriores) de
Francés (2022-06-30 y versiones posteriores) fr
Italiano (2022-06-30 y versiones posteriores) it
Portugués (2022-06-30 y versiones posteriores) pt
Neerlandés (2022-06-30 y versiones posteriores) nl

Modelo de documentación de id.

Esta tecnología está disponible actualmente para los permisos de conducir de EE. UU. y la página de información personal de los pasaportes internacionales (excepto los visados y otros documentos de viajes).

Documento general

Lenguaje Código de configuración regional
Spanish (Traditional Sort) - Spain es-es

Idiomas detectados: Read API

Read API admite la detección de los siguientes idiomas en los documentos. Esta lista puede incluir idiomas que no se admiten actualmente para la extracción de texto.

Nota

Detección de idioma

El modelo de lectura de Form Recognizer puede detectar la posible presencia de idiomas y devolver códigos de idioma para los idiomas detectados. Para determinar si también se puede extraer texto para un idioma determinado, consulte las secciones anteriores.

Nota

Idiomas detectados frente a idiomas extraídos

En esta sección se enumeran los idiomas que se pueden detectar desde los documentos mediante el modelo De lectura, si está presente. Tenga en cuenta que esta lista difiere de la lista de idiomas de los que se admite la extracción de texto, que se especifica en las secciones anteriores para cada modelo.

Idioma Código
Afrikáans af
Albanés sq
Amárico am
Árabe ar
Armenio hy
Asamés as
Azerbaiyano az
Vasco eu
Bielorruso be
Bengalí bn
Bosnio bs
Búlgaro bg
Birmano my
Catalán ca
Camboyano km
Chino zh
Chino simplificado zh_chs
Chino tradicional zh_cht
Corso co
Croata hr
Checo cs
Danés da
Dari prs
Divehi dv
Neerlandés nl
Inglés en
Esperanto eo
Estonio et
Fiyiano fj
Finés fi
Francés fr
Gallego gl
Georgiano ka
Alemán de
Griego el
Gujarati gu
Haitiano ht
Hausa ha
Hebreo he
Hindi hi
Hmong Daw mww
Húngaro hu
Islandés is
Igbo ig
Indonesio id
Inuktitut iu
Irlandés ga
Italiano it
Japonés ja
Javanés jv
Canarés kn
Kazajo kk
Kinyarwanda rw
Kirguís ky
Coreano ko
Kurdo ku
Lao lo
Latín la
Letón lv
Lituano lt
Luxemburgués lb
Macedonio mk
Malgache mg
Malayo ms
Malayalam ml
Maltés mt
Maori mi
Maratí mr
Mongol mn
Nepalí ne
Noruego no
Noruego nynorsk nn
Odia or
Pastún ps
Persa fa
Polaco pl
Portugués pt
Punjabi pa
Otomí Querétaro otq
Rumano ro
Ruso ru
Samoano sm
Serbio sr
Shona sn
Sindhi sd
Cingalés si
Eslovaco sk
Esloveno sl
Somalí so
Español es
Sundanés su
Swahili sw
Sueco sv
Tagalo tl
Tahitiano ty
Tayiko tg
Tamil ta
Tatar tt
Telugu te
Tailandés th
Tibetano bo
Tigriña ti
Tongano to
Turco tr
Turcomano tk
Ucraniano uk
Urdu ur
Uzbeko uz
Vietnamita vi
Galés cy
Xhosa xh
Yidis yi
Yoruba yo
Maya Yucateco yua
Zulú zu

Este artículo se aplica a:Form Recognizer v2.1 checkmarkForm Recognizer v2.1. Versión más reciente: Form Recognizer v3.0

En esta tabla se enumeran los idiomas escritos que admite el servicio Form Recognizer.

Diseño y modelo personalizado

Idioma Código de lenguaje
Afrikáans af
Albanés sq
Asturiano ast
Vasco eu
Bislama bi
Bretón br
Catalán ca
Cebuano ceb
Chamorro ch
Chino (simplificado) zh-Hans
Chino (tradicional) zh-Hant
Córnico kw
Corso co
Tártaro de Crimea (Latín) crh
Checo cs
Danés da
Neerlandés nl
Inglés (impreso y manuscrito) en
Estonio et
Fiyiano fj
Filipino fil
Finés fi
Francés fr
Friulano fur
Gallego gl
Alemán de
Gilbertés gil
Groenlandés kl
Criollo haitiano ht
Hani hni
Hmong Daw (Latín) mww
Húngaro hu
Indonesio id
Interlingua ia
Inuktitut (latino) iu
Irlandés ga
Italiano it
Japonés ja
Javanés jv
Quiché quc
Caboverdiano kea
Kachin (Latín) kac
Kara-Kalpak kaa
Casubio csb
Khasi kha
Coreano ko
Kurdo (latino) kur
Luxemburgués lb
Malayo (latino) ms
Manx gv
Napolitano nap
Noruego no
Occitano oc
Polaco pl
Portugués pt
Romanche rm
Escocés sco
Gaélico escocés gd
Esloveno slv
Español es
Swahili (Latín) sw
Sueco sv
Tártaro (Latín) tat
Tetum tet
Turco tr
Alto sorbio hsb
Uzbeko (latino) uz
Volapük vo
Walser wae
Frisón occidental fy
Maya Yucateco yua
Zhuang za
Zulú zu

Recibo compilado previamente y tarjeta de visita

Nota

No es necesario especificar una configuración regional. Se trata de un parámetro opcional. La tecnología de aprendizaje profundo de Form Recognizer detectará automáticamente el idioma del texto de la imagen.

Los recibos precompilados y las tarjetas de visita admiten todas las tarjetas de visita y recibos en inglés con las configuraciones regionales siguientes:

Lenguaje Código de configuración regional
Inglés (Australia) en-au
Inglés (Canadá) en-ca
Inglés (Reino Unido) en-gb
Inglés (India) en-in
Inglés (Estados Unidos) en-us

Factura compilada previamente

Lenguaje Código de configuración regional
Spanish (Traditional Sort) - Spain es-es

Documentos de identidad compilados previamente

Esta tecnología está disponible actualmente para los permisos de conducir de EE. UU. y la página de información personal de los pasaportes internacionales (excepto los visados y otros documentos de viajes).

Pasos siguientes