Compatibilidad de idiomas con Form Recognizer
Este artículo es aplicable a:Form Recognizer v3.0. Versión anterior: Form Recognizer v2.1
En este artículo se tratan los idiomas admitidos para la extracción (por característica) y la detección (solo lectura) de texto y campos. Ambos grupos son mutuamente excluyentes.
Modelo (plantilla) de formulario personalizado, diseño y lectura
En las listas siguientes se incluyen los idiomas disponibles actualmente con carácter general (GA) en la versión 3.0 más reciente. Estos idiomas son compatibles con las características de modelo de lectura, diseño y formulario personalizado (plantilla).
Nota
Código de idioma (opcional)
Los modelos universales basados en aprendizaje profundo de Form Recognizer extraen todo el texto multilingüe de los documentos, incluidas las líneas de texto con idiomas combinados, y no requieren especificar un código de idioma. No proporcione el código de idioma como parámetro a menos que esté seguro del idioma y desee forzar al servicio a aplicar solo el modelo correspondiente. De lo contrario, el servicio puede devolver texto incompleto e incorrecto.
Para usar los idiomas compatibles con la versión 3.0, consulte la guía de migración de la API de REST de la versión 3.0 para entender las diferencias con la API GA de la versión 2.1 y explore los inicios rápidos del SDK y la API de REST de la versión 3.0.
Texto manuscrito
En la tabla siguiente se enumeran los idiomas admitidos para la extracción de textos manuscritos.
Idioma | Código de idioma (opcional) | Lenguaje | Código de idioma (opcional) |
---|---|---|---|
Inglés | en |
Japonés | ja |
Chino simplificado | zh-Hans |
Coreano | ko |
Francés | fr |
Portugués | pt |
Alemán | de |
Español | es |
Italiano | it |
Imprimir texto
En la tabla siguiente se enumeran los idiomas para el texto impreso que admite la versión de disponibilidad general (GA) más reciente.
Lenguaje | Código (opcional) | Lenguaje | Código (opcional) |
---|---|---|---|
Afrikáans | af |
Khasi | kha |
Albanés | sq |
Quiché | quc |
Angika (devanagari) | anp |
Coreano | ko |
Árabe | ar |
Korku | kfq |
Asturiano | ast |
Koriakia | kpy |
Awadhi-Hindi (devanagari) | awa |
Kosreano | kos |
Azerbaiyano (latino) | az |
Cumuco (cirílico) | kum |
Bagheli | bfy |
Kurdo (árabe) | ku-arab |
Vasco | eu |
Kurdo (latino) | ku-latn |
Bielorruso (cirílico) | be , be-cyrl |
Kurukh (devanagari) | kru |
Bielorruso (latino) | be , be-latn |
Kirguís (cirílico) | ky |
Bhojpuri-Hindi (devanagari) | bho |
Lakota | lkt |
Bislama | bi |
Latín | la |
Bodo (devanagari) | brx |
Lituano | lt |
Bosnio (latino) | bs |
Bajo sorbio | dsb |
Brajbha | bra |
Sami lule | smj |
Bretón | br |
Luxemburgués | lb |
Búlgaro | bg |
Mahasu Pahari (devanagari) | bfz |
Bundeli | bns |
Malayo (latino) | ms |
Buriato (cirílico) | bua |
Maltés | mt |
Catalán | ca |
Malto (devanagari) | kmj |
Cebuano | ceb |
Manx | gv |
Chamling | rab |
Maori | mi |
Chamorro | ch |
Maratí | mr |
Chhattisgarhi (devanagari) | hne |
Mongol (cirílico) | mn |
Chino simplificado | zh-Hans |
Montenegrino (cirílico) | cnr-cyrl |
Chino tradicional | zh-Hant |
Montenegrino (latino) | cnr-latn |
Córnico | kw |
Napolitano | nap |
Corso | co |
Nepalí | ne |
Tártaro de Crimea (Latín) | crh |
Niueano | niu |
Croata | hr |
Nogayo | nog |
Checo | cs |
Sami septentrional (latino) | sme |
Danés | da |
Noruego | no |
Dari | prs |
Occitano | oc |
Dhimal (devanagari) | dhi |
Osetio | os |
Dogri (devanagari) | doi |
Pastún | ps |
Neerlandés | nl |
Persa | fa |
Inglés | en |
Polaco | pl |
Erzya (cirílico) | myv |
Portugués | pt |
Estonio | et |
Punyabí (árabe) | pa |
Feroés | fo |
Ripuario | ksh |
Fiyiano | fj |
Rumano | ro |
Filipino | fil |
Romanche | rm |
Finés | fi |
Ruso | ru |
Francés | fr |
Sadri (devanagari) | sck |
Friulano | fur |
Samoano (latino) | sm |
Gagauzo (latino) | gag |
Sánscrito (Devanagari) | sa |
Gallego | gl |
Santali (devanagiri) | sat |
Alemán | de |
Escocés | sco |
Gilbertés | gil |
Gaélico escocés | gd |
Gondi (devanagari) | gon |
Serbio (latino) | sr , sr-latn |
Groenlandés | kl |
Sherpa (devanagari) | xsr |
Gurung (devanagari) | gvr |
Sirmauri (devanagari) | srx |
Criollo haitiano | ht |
Sami skolt | sms |
Halbi (devanagari) | hlb |
Eslovaco | sk |
Hani | hni |
Esloveno | sl |
Haryanvi | bgc |
Somalí (árabe) | so |
Hawaiano | haw |
Sami meridional | sma |
Hindi | hi |
Español | es |
Hmong Daw (Latín) | mww |
Swahili (Latín) | sw |
Ho (devanagiri) | hoc |
Sueco | sv |
Húngaro | hu |
Tayiko (cirílico) | tg |
Islandés | is |
Tártaro (Latín) | tt |
Sami inari | smn |
Tetum | tet |
Indonesio | id |
Thangmi | thf |
Interlingua | ia |
Tongano | to |
Inuktitut (latino) | iu |
Turco | tr |
Irlandés | ga |
Turcomano (latino) | tk |
Italiano | it |
Tuvano | tyv |
Japonés | ja |
Alto sorbio | hsb |
Jaunsari (devanagari) | Jns |
Urdu | ur |
Javanés | jv |
Uigur (árabe) | ug |
Caboverdiano | kea |
Uzbeko (árabe) | uz-arab |
Kachin (Latín) | kac |
Uzbeko (cirílico) | uz-cyrl |
Kangri (devanagari) | xnr |
Uzbeko (latino) | uz |
Karachái-bálkaro | krc |
Volapük | vo |
Karakalpako (cirílico) | kaa-cyrl |
Walser | wae |
Karakalpako (latino) | kaa |
Galés | cy |
Casubio | csb |
Frisón occidental | fy |
Kazajo (cirílico) | kk-cyrl |
Maya Yucateco | yua |
Kazajo (latino) | kk-latn |
Zhuang | za |
Khaling | klr |
Zulú | zu |
Impresión de texto en versión preliminar (versión de API 2022-06-30-preview)
Use el parámetro api-version=2022-06-30-preview
al usar la API REST o el SDK correspondiente para admitir estos idiomas en las aplicaciones.
Lenguaje | Código (opcional) | Lenguaje | Código (opcional) |
---|---|---|---|
Abaza | abq |
Malgache | mg |
Abjasio | ab |
Mandinká | mnk |
Achenés | ace |
Mapuche | arn |
Acholí | ach |
Mari (Rusia) | chm |
Adangme | ada |
Masái | mas |
Adigué | ady |
Mende (Sierra Leona) | men |
Afar | aa |
Meru | mer |
Akan | ak |
Meta' | mgo |
Algonquino | alq |
Minangkabau | min |
Asu (Tanzania) | asa |
Mohawk | moh |
Avar | av |
Mongondow | mog |
Aimara | ay |
Mauriciano | mfe |
Bafia | ksf |
Mundang | mua |
Bambara | bm |
Náhuatl | nah |
Bashkir | ba |
Navajo | nv |
Bemba (Zambia) | bem |
Ndonga | ng |
Bena (Tanzania) | bez |
Ngomba | jgo |
Bikol | bik |
Ndebele septentrional | nd |
Bini | bin |
Nyanja | ny |
Checheno | ce |
Nyankole | nyn |
Chiga | cgg |
Nzima | nzi |
Choctaw | cho |
Ojibwa | oj |
Chukot | ckt |
Oromo | om |
Chuvasio | cv |
Pampango | pam |
Cree | cr |
Pangasinense | pag |
Creek | mus |
Papiamento | pap |
Crow | cro |
Pedi | nso |
Dargwa | dar |
Quechua | qu |
Duala | dua |
Rundi | rn |
Dungano | dng |
Rwa | rwk |
Efik | efi |
Samburu | saq |
Fon | fon |
Sango | sg |
Ga | gaa |
Sangu (Gabón) | snq |
Ganda | lg |
Sena | seh |
Gayo | gay |
Serbio (cirílico) | sr-cyrl |
Guaraní | gn |
Shambala | ksb |
Gusii | guz |
Shona | sn |
Griego | el |
Siksiká | bla |
Herero | hz |
Soga | xog |
Hiligaynon | hil |
Somalí (latino) | so-latn |
Iban | iba |
Songhay | son |
Igbo | ig |
Ndebele meridional | nr |
Ilocano | ilo |
Altaico del Sur | alt |
Ingusetio | inh |
Sotho meridional | st |
Jola-fonyi | dyo |
Sundanés | su |
Cabardiano | kbd |
Swati | ss |
Kalenjin | kln |
Tabassaran | tab |
Calmuco | xal |
Tashelhit | shi |
Kanuri | kr |
Tahitiano | ty |
Jakasio | kjh |
Taita | dav |
Kikuyu | ki |
Tártaro (cirílico) | tt-cyrl |
Sami kildin | sjd |
Teso | teo |
Kinyarwanda | rw |
Tailandés | th |
Komi | kv |
Tok Pisin | tpi |
Kongo | kg |
Tsonga | ts |
Kpelle | kpe |
Tswana | tn |
Kuanyama | kj |
Udmurto | udm |
Lak | lbe |
Uigur (cirílico) | ug-cyrl |
Letón | lv |
Ucraniano | uk |
Lezgiano | lex |
Vietnamita | vi |
Lingala | ln |
Vunjo | vun |
Lozi | loz |
Wolof | wo |
Luo (Kenia y Tanzania) | luo |
Xhosa | xh |
Luyia | luy |
Yakuto | sah |
Macedonio | mk |
Zapoteco | zap |
Machame | jmc |
Zarma | dje |
Madureso | mad |
||
Makhuwa-meetto | mgh |
||
Makonde | kde |
Modelo neuronal personalizado
Lenguaje | Código de configuración regional |
---|---|
Spanish (Traditional Sort) - Spain | es-es |
Modelo de recibo
Nota
No es necesario especificar una configuración regional. Se trata de un parámetro opcional. La tecnología de aprendizaje profundo de Form Recognizer detectará automáticamente el idioma del texto de la imagen.
El modelo de recibo admite todos los recibos en inglés y las configuraciones regionales siguientes:
Lenguaje | Código de configuración regional |
---|---|
Inglés (Australia) | en-au |
Inglés (Canadá) | en-ca |
Inglés (Reino Unido) | en-gb |
Inglés (India) | en-in |
Spanish (Traditional Sort) - Spain | en-us |
Francés | fr |
Español | es |
Modelo de tarjeta de presentación
Nota
No es necesario especificar una configuración regional. Se trata de un parámetro opcional. La tecnología de aprendizaje profundo de Form Recognizer detectará automáticamente el idioma del texto de la imagen.
El modelo de tarjeta de presentación admite todas las tarjetas de presentación en inglés con las siguientes configuraciones regionales:
Lenguaje | Código de configuración regional |
---|---|
Inglés (Australia) | en-au |
Inglés (Canadá) | en-ca |
Inglés (Reino Unido) | en-gb |
Inglés (India) | en-in |
Spanish (Traditional Sort) - Spain | en-us |
Las versiones 2022-06-30 y posteriores incluyen compatibilidad con idiomas japoneses:
Lenguaje | Código de configuración regional |
---|---|
Japonés | ja |
Modelo de factura
Lenguaje | Código de configuración regional |
---|---|
Spanish (Traditional Sort) - Spain | es-ES |
Español | es |
Alemán (2022-06-30 y versiones posteriores) | de |
Francés (2022-06-30 y versiones posteriores) | fr |
Italiano (2022-06-30 y versiones posteriores) | it |
Portugués (2022-06-30 y versiones posteriores) | pt |
Neerlandés (2022-06-30 y versiones posteriores) | nl |
Modelo de documentación de id.
Esta tecnología está disponible actualmente para los permisos de conducir de EE. UU. y la página de información personal de los pasaportes internacionales (excepto los visados y otros documentos de viajes).
Documento general
Lenguaje | Código de configuración regional |
---|---|
Spanish (Traditional Sort) - Spain | es-es |
Idiomas detectados: Read API
Read API admite la detección de los siguientes idiomas en los documentos. Esta lista puede incluir idiomas que no se admiten actualmente para la extracción de texto.
Nota
Detección de idioma
El modelo de lectura de Form Recognizer puede detectar la posible presencia de idiomas y devolver códigos de idioma para los idiomas detectados. Para determinar si también se puede extraer texto para un idioma determinado, consulte las secciones anteriores.
Nota
Idiomas detectados frente a idiomas extraídos
En esta sección se enumeran los idiomas que se pueden detectar desde los documentos mediante el modelo De lectura, si está presente. Tenga en cuenta que esta lista difiere de la lista de idiomas de los que se admite la extracción de texto, que se especifica en las secciones anteriores para cada modelo.
Idioma | Código |
---|---|
Afrikáans | af |
Albanés | sq |
Amárico | am |
Árabe | ar |
Armenio | hy |
Asamés | as |
Azerbaiyano | az |
Vasco | eu |
Bielorruso | be |
Bengalí | bn |
Bosnio | bs |
Búlgaro | bg |
Birmano | my |
Catalán | ca |
Camboyano | km |
Chino | zh |
Chino simplificado | zh_chs |
Chino tradicional | zh_cht |
Corso | co |
Croata | hr |
Checo | cs |
Danés | da |
Dari | prs |
Divehi | dv |
Neerlandés | nl |
Inglés | en |
Esperanto | eo |
Estonio | et |
Fiyiano | fj |
Finés | fi |
Francés | fr |
Gallego | gl |
Georgiano | ka |
Alemán | de |
Griego | el |
Gujarati | gu |
Haitiano | ht |
Hausa | ha |
Hebreo | he |
Hindi | hi |
Hmong Daw | mww |
Húngaro | hu |
Islandés | is |
Igbo | ig |
Indonesio | id |
Inuktitut | iu |
Irlandés | ga |
Italiano | it |
Japonés | ja |
Javanés | jv |
Canarés | kn |
Kazajo | kk |
Kinyarwanda | rw |
Kirguís | ky |
Coreano | ko |
Kurdo | ku |
Lao | lo |
Latín | la |
Letón | lv |
Lituano | lt |
Luxemburgués | lb |
Macedonio | mk |
Malgache | mg |
Malayo | ms |
Malayalam | ml |
Maltés | mt |
Maori | mi |
Maratí | mr |
Mongol | mn |
Nepalí | ne |
Noruego | no |
Noruego nynorsk | nn |
Odia | or |
Pastún | ps |
Persa | fa |
Polaco | pl |
Portugués | pt |
Punjabi | pa |
Otomí Querétaro | otq |
Rumano | ro |
Ruso | ru |
Samoano | sm |
Serbio | sr |
Shona | sn |
Sindhi | sd |
Cingalés | si |
Eslovaco | sk |
Esloveno | sl |
Somalí | so |
Español | es |
Sundanés | su |
Swahili | sw |
Sueco | sv |
Tagalo | tl |
Tahitiano | ty |
Tayiko | tg |
Tamil | ta |
Tatar | tt |
Telugu | te |
Tailandés | th |
Tibetano | bo |
Tigriña | ti |
Tongano | to |
Turco | tr |
Turcomano | tk |
Ucraniano | uk |
Urdu | ur |
Uzbeko | uz |
Vietnamita | vi |
Galés | cy |
Xhosa | xh |
Yidis | yi |
Yoruba | yo |
Maya Yucateco | yua |
Zulú | zu |
Este artículo se aplica a:Form Recognizer v2.1. Versión más reciente: Form Recognizer v3.0
En esta tabla se enumeran los idiomas escritos que admite el servicio Form Recognizer.
Diseño y modelo personalizado
Idioma | Código de lenguaje |
---|---|
Afrikáans | af |
Albanés | sq |
Asturiano | ast |
Vasco | eu |
Bislama | bi |
Bretón | br |
Catalán | ca |
Cebuano | ceb |
Chamorro | ch |
Chino (simplificado) | zh-Hans |
Chino (tradicional) | zh-Hant |
Córnico | kw |
Corso | co |
Tártaro de Crimea (Latín) | crh |
Checo | cs |
Danés | da |
Neerlandés | nl |
Inglés (impreso y manuscrito) | en |
Estonio | et |
Fiyiano | fj |
Filipino | fil |
Finés | fi |
Francés | fr |
Friulano | fur |
Gallego | gl |
Alemán | de |
Gilbertés | gil |
Groenlandés | kl |
Criollo haitiano | ht |
Hani | hni |
Hmong Daw (Latín) | mww |
Húngaro | hu |
Indonesio | id |
Interlingua | ia |
Inuktitut (latino) | iu |
Irlandés | ga |
Italiano | it |
Japonés | ja |
Javanés | jv |
Quiché | quc |
Caboverdiano | kea |
Kachin (Latín) | kac |
Kara-Kalpak | kaa |
Casubio | csb |
Khasi | kha |
Coreano | ko |
Kurdo (latino) | kur |
Luxemburgués | lb |
Malayo (latino) | ms |
Manx | gv |
Napolitano | nap |
Noruego | no |
Occitano | oc |
Polaco | pl |
Portugués | pt |
Romanche | rm |
Escocés | sco |
Gaélico escocés | gd |
Esloveno | slv |
Español | es |
Swahili (Latín) | sw |
Sueco | sv |
Tártaro (Latín) | tat |
Tetum | tet |
Turco | tr |
Alto sorbio | hsb |
Uzbeko (latino) | uz |
Volapük | vo |
Walser | wae |
Frisón occidental | fy |
Maya Yucateco | yua |
Zhuang | za |
Zulú | zu |
Recibo compilado previamente y tarjeta de visita
Nota
No es necesario especificar una configuración regional. Se trata de un parámetro opcional. La tecnología de aprendizaje profundo de Form Recognizer detectará automáticamente el idioma del texto de la imagen.
Los recibos precompilados y las tarjetas de visita admiten todas las tarjetas de visita y recibos en inglés con las configuraciones regionales siguientes:
Lenguaje | Código de configuración regional |
---|---|
Inglés (Australia) | en-au |
Inglés (Canadá) | en-ca |
Inglés (Reino Unido) | en-gb |
Inglés (India) | en-in |
Inglés (Estados Unidos) | en-us |
Factura compilada previamente
Lenguaje | Código de configuración regional |
---|---|
Spanish (Traditional Sort) - Spain | es-es |
Documentos de identidad compilados previamente
Esta tecnología está disponible actualmente para los permisos de conducir de EE. UU. y la página de información personal de los pasaportes internacionales (excepto los visados y otros documentos de viajes).