Поддержка языков в Распознавателе документов
Эта статья относится к флажкуРаспознаватель документов версии 3.0. Более ранняя версия:Распознаватель документов версии 2.1
В этой статье рассматриваются поддерживаемые языки для извлечения (по функциям) и обнаружения (только для чтения) текста и полей. Обе группы являются взаимоисключающими.
Чтение, макет и настраиваемая модель формы (шаблона)
Следующие списки включают языки, которые в настоящее время являются общедоступными в последней версии версии 3.0. Эти языки поддерживаются функциями чтения, макета и настраиваемой модели формы (шаблона).
Примечание
Код языка (необязательно)
Универсальные модели на основе глубокого обучения службы "Распознаватель документов" извлекают весь многоязычный текст в документах, в том числе текстовые строки со смешанными языками, и не требуют указания кода языка. Код языка следует указывать в качестве параметра, только если вы уверены в том, с каким языком будете работать, и вам нужно, чтобы служба применяла только соответствующую модель. В противном случае служба может вернуть неполный и неправильный текст.
Чтобы узнать, как использовать языки, поддерживаемые в версии 3.0, и получить сведения об отличиях приведенной ниже версии от общедоступного API версии 2.1, ознакомьтесь с руководством по миграции REST API версии 3.0 и с краткими руководствами по пакету SDK версии 3.0 и REST API.
Рукописный текст
В следующей таблице перечислены языки, для которых поддерживается извлечение рукописного текста.
Язык | Код языка (необязательно) | Язык | Код языка (необязательно) |
---|---|---|---|
Английский | en |
Японский | ja |
Китайский (упрощенный) | zh-Hans |
Корейский | ko |
Французский | fr |
Португальский | pt |
Немецкий | de |
Испанский | es |
Итальянский | it |
Напечатанный текст
В следующей таблице перечислены языки, поддерживаемые для печати текста в последней общедоступной версии.
Язык | Код (необязательно) | Язык | Код (необязательно) |
---|---|---|---|
Африкаанс | af |
Кхаси | kha |
Албанский | sq |
Киче | quc |
Ангика (Деванагари) | anp |
Корейский | ko |
Арабский | ar |
Корку | kfq |
Астурийский | ast |
Корякский | kpy |
Авадхи хинди (Деванагари) | awa |
Косяэ | kos |
Азербайджанский (латиница) | az |
Кумыкский (кириллица) | kum |
Багхели | bfy |
Курдский (арабский) | ku-arab |
Баскский | eu |
Курдский (латиница) | ku-latn |
Белорусский (кириллица) | be , be-cyrl |
Курух (Деванагири) | kru |
Белорусский (латиница) | be , be-latn |
Киргизский (кириллица) | ky |
Бходжпури хинди (Деванагари) | bho |
Лакота | lkt |
Бислама | bi |
Латиница | la |
Бодо (Деванагари) | brx |
Литовский | lt |
Боснийский (латиница) | bs |
Нижнелужицкий | dsb |
Браджбха | bra |
Луле-саамский | smj |
Бретонский | br |
Люксембургский | lb |
Болгарский | bg |
Махасу пахари (Деванагари) | bfz |
Бундели | bns |
Малайский (латиница) | ms |
Бурятский (кириллица) | bua |
Мальтийский | mt |
Каталонский | ca |
Малто (Деванагари) | kmj |
Себуанский | ceb |
Мэнский | gv |
Чамлинг | rab |
Маори | mi |
Чаморро | ch |
Маратхи | mr |
Чхаттисгархи (Деванагари) | hne |
Монгольский (кириллица) | mn |
Китайский (упрощенный) | zh-Hans |
Черногорский (кириллица) | cnr-cyrl |
Китайский (традиционное письмо) | zh-Hant |
Черногорский (латиница) | cnr-latn |
Корнский | kw |
Неаполитанский | nap |
Корсиканский | co |
Непальский | ne |
Крымско-татарский (латиница) | crh |
Ниуэ | niu |
Хорватский | hr |
Ногайский | nog |
Чешский | cs |
Северносаамский (латиница) | sme |
Датский | da |
Норвежский | no |
Дари | prs |
Окситанский | oc |
Дхималь (Деванагари) | dhi |
Осетинский | os |
Догри (Деванагари) | doi |
Пушту | ps |
Нидерландский | nl |
Персидский | fa |
Английский | en |
Польский | pl |
Ерзянский (кириллица) | myv |
Португальский | pt |
Эстонский | et |
Панджаби (арабский) | pa |
Фарерский | fo |
Рипуарский | ksh |
Фиджийский | fj |
Румынский | ro |
Филиппинский | fil |
Ретороманский | rm |
Финский | fi |
Русский | ru |
Французский | fr |
Садри (Деванагари) | sck |
Фриульский | fur |
Самоанский (латиница) | sm |
Гагаузский (латиница) | gag |
Санскрит (Деванагари) | sa |
Галисийский | gl |
Сантали (Деванагири) | sat |
Немецкий | de |
Шотландский | sco |
Кирибати | gil |
Гэльский | gd |
Гонди (Деванагари) | gon |
Сербский (латиница) | sr , sr-latn |
Гренландский | kl |
Шерпа (Деванагари) | xsr |
Гурунг (Деванагари) | gvr |
Сирмаури (Деванагари) | srx |
Гаитянский креольский | ht |
Колтта-саамский | sms |
Халби (Деванагари) | hlb |
Словацкий | sk |
Хани | hni |
Словенский | sl |
Харьянви | bgc |
Сомали (арабское письмо) | so |
Гавайский | haw |
Южносаамский | sma |
Hindi | hi |
Испанский | es |
Хмонг дау (латиница) | mww |
Суахили (латиница) | sw |
Хо (Деванагири) | hoc |
Шведский | sv |
Венгерский | hu |
Таджикский (кириллица) | tg |
Исландский | is |
Татарский (латиница) | tt |
Инари-саамский | smn |
Тетум | tet |
Индонезийский | id |
Тхангми | thf |
Интерлингва | ia |
Тонганский | to |
Инуктитут (латиница) | iu |
Турецкий | tr |
Ирландский | ga |
Туркменский (латиница) | tk |
Итальянский | it |
Тувинский | tyv |
Японский | ja |
Верхнелужицкий | hsb |
Яунсари (Деванагари) | Jns |
Урду | ur |
Яванская письменность | jv |
Уйгурский (арабское письмо) | ug |
Кабувердьяну | kea |
Узбекский (арабское письмо) | uz-arab |
Качинский (латиница) | kac |
Узбекский (кириллица) | uz-cyrl |
Кангри (Деванагари) | xnr |
Узбекский (латиница) | uz |
Карачаево-балкарский | krc |
Волапюк | vo |
Каракалпакский (кириллица) | kaa-cyrl |
Валлисский | wae |
Каракалпакский (латиница) | kaa |
Валлийский | cy |
Кашубский | csb |
Западнофризский | fy |
Казахский (кириллица) | kk-cyrl |
Юкатекский майя | yua |
Казахский (латиница) | kk-latn |
Чжуанский | za |
Халинг | klr |
Зулу | zu |
Печать текста в предварительной версии (API версии 2022-06-30-preview)
Используйте параметр api-version=2022-06-30-preview
при использовании REST API или соответствующего пакета SDK для поддержки этих языков в приложениях.
Язык | Код (необязательно) | Язык | Код (необязательно) |
---|---|---|---|
Абазы | abq |
Малагасийский | mg |
Абхазии | ab |
Мандинка | mnk |
Ачинский | ace |
Мапудунгун | arn |
Аколи | ach |
Мари (Россия) | chm |
Adangme | ada |
Масаи | mas |
Адыгейский | ady |
Менде (Сьерра-Леоне) | men |
Афар | aa |
Меру | mer |
Акан | ak |
Мета' | mgo |
Алгонкин | alq |
Минангкабау | min |
Асу (Танзания) | asa |
Mohawk | moh |
Аварич | av |
Монгондоу | mog |
Аймара | ay |
Морисьен | mfe |
Bafia | ksf |
Манданг | mua |
Bambara | bm |
Науатле | nah |
Башкирский | ba |
Навахо | nv |
Бемба (Замбия) | bem |
Ндонга | ng |
Бена (Танзания) | bez |
Нгомба | jgo |
Бикол | bik |
Норт-Ндебеле | nd |
Бини | bin |
Ньянья | ny |
Чеченской | ce |
Nyankole | nyn |
Чига | cgg |
Нзима | nzi |
Choctaw | cho |
Оджибва | oj |
Чукот | ckt |
Оромо | om |
Чувашская | cv |
Пампанга | pam |
Cree | cr |
Пангасинан | pag |
Крик | mus |
Папиаменто | pap |
Ворона | cro |
Педи | nso |
Даргва | dar |
Кечуа | qu |
Duala | dua |
Rundi | rn |
Данган | dng |
Rwa | rwk |
Эфик | efi |
Самбуру | saq |
Fon | fon |
Санго | sg |
Ga | gaa |
Сангу (Gabon) | snq |
Ганда | lg |
Сена | seh |
Гайо | gay |
Сербский (кириллица) | sr-cyrl |
Гуарани | gn |
Шамбала | ksb |
Гусий | guz |
Шона | sn |
Греческий | el |
Siksika | bla |
Herero | hz |
Сога | xog |
Хилигейнон | hil |
Сомалийский (латиница) | so-latn |
Iban | iba |
Сонгай | son |
Игбо | ig |
Саут-Ндебеле | nr |
Илоко | ilo |
Южный Алтай | alt |
Ингушей | inh |
Южный Сото | st |
Jola-Fonyi | dyo |
Сунданская письменность | su |
Кабардинец | kbd |
Свати | ss |
Календжин | kln |
Табассаран | tab |
Калмыцкий | xal |
Тачелхит | shi |
Канури | kr |
Таитянский | ty |
Хакас | kjh |
Тайта | dav |
Кикую | ki |
Таратарский (кириллица) | tt-cyrl |
Кильдин Сами | sjd |
Тесо | teo |
Киньяруанда | rw |
Тайский | th |
Коми | kv |
Tok Pisin | tpi |
Конго | kg |
Тсонга | ts |
Кпелле | kpe |
Тсвана | tn |
Куаньяма | kj |
Удмуртская | udm |
Лак | lbe |
Уйгурский (кириллица) | ug-cyrl |
Латышский | lv |
Украинский | uk |
Лезгинский | lex |
Вьетнамский | vi |
Лингала | ln |
Вуньо | vun |
Лози | loz |
Волоф | wo |
Луо (Кения и Танзания) | luo |
Коса | xh |
Луия | luy |
Якут | sah |
Macedonian | mk |
Сапотек | zap |
Мачаме | jmc |
Зарма | dje |
Мадурский | mad |
||
Makhuwa-Meetto | mgh |
||
Маконде | kde |
Пользовательская нейронная модель
Язык | Код языкового стандарта |
---|---|
Английский (США) | ru-ru |
Модель квитанций
Примечание
Указывать языковой стандарт не обязательно. Этот параметр является необязательным. Технология глубокого обучения Распознавателя документов будет автоматически определять язык текста в изображении.
Квитанция поддерживает все квитанции на английском языке и следующие языковые стандарты:
Язык | Код языкового стандарта |
---|---|
Английский (Австралия) | en-au |
Английский (Канада) | en-ca |
Английский (Великобритания) | en-gb |
Английский (Индия) | en-in |
Английский (США) | en-us |
Французский | fr |
Испанский | es |
Модель визитных карточек
Примечание
Указывать языковой стандарт не обязательно. Этот параметр является необязательным. Технология глубокого обучения Распознавателя документов будет автоматически определять язык текста в изображении.
Визитная карточка поддерживает все английские визитные карточки со следующими языковыми стандартами.
Язык | Код языкового стандарта |
---|---|
Английский (Австралия) | en-au |
Английский (Канада) | en-ca |
Английский (Великобритания) | en-gb |
Английский (Индия) | en-in |
Английский (США) | en-us |
Выпуски 2022-06-30 и более поздние поддерживают японский язык:
Язык | Код языкового стандарта |
---|---|
Японский | ja |
Модель счетов
Язык | Код языкового стандарта |
---|---|
Английский | en-US, en-IN, en-GB, en-CA, en-AU |
Испанский | es |
Немецкий (2022-06-30 и более поздние версии) | de |
Французский (2022-06-30 и более поздние версии) | fr |
Итальянский (2022-06-30 и более поздние версии) | it |
Португальский (2022-06-30 и более поздние версии) | pt |
Голландский (2022-06-30 и более поздние версии) | nl |
Модель удостоверения
Эта технология в настоящее время доступна для водительских удостоверений США и страниц с биографическими данными из международных паспортов (за исключением виз и других выездных документов).
Документ общего назначения
Язык | Код языкового стандарта |
---|---|
Английский (США) | ru-ru |
Обнаруженные языки: API чтения
API чтения поддерживает обнаружение следующих языков в документах. Этот список может включать языки, для которых сейчас не поддерживается извлечение текста.
Примечание
Пример. Как определить язык с помощью Анализа текста
Модель чтения Распознавателя документов может обнаруживать возможное присутствие языков и возвращать коды обнаруженных языков. Сведения о том, можно ли извлечь текст для данного языка, см. в предыдущих разделах.
Примечание
Обнаруженные языки и извлеченные языки
В этом разделе перечислены языки, которые можно обнаружить в документах с помощью модели чтения (при наличии). Обратите внимание, что этот список отличается от списка языков, для которых поддерживается извлечение текста (такие языки приведены в разделах выше для каждой модели).
Язык | Код |
---|---|
Африкаанс | af |
Албанский | sq |
Амхарский | am |
Арабский | ar |
Армянский | hy |
Ассамский | as |
Азербайджанский | az |
Баскский | eu |
Белорусский | be |
Бенгальский | bn |
Боснийский | bs |
Болгарский | bg |
Бирманский | my |
Каталонский | ca |
Центральный кхмерский | km |
Китайский | zh |
Китайский (упрощенный) | zh_chs |
Китайский (традиционное письмо) | zh_cht |
Корсиканский | co |
Хорватский | hr |
Чешский | cs |
Датский | da |
Дари | prs |
Мальдивский | dv |
Нидерландский | nl |
Английский | en |
Эсперанто | eo |
Эстонский | et |
Фиджийский | fj |
Финский | fi |
Французский | fr |
Галисийский | gl |
Грузинский | ka |
Немецкий | de |
Греческий | el |
Гуджарати | gu |
Гаитянский | ht |
Хауса | ha |
Иврит | he |
Hindi | hi |
Хмонг дау | mww |
Венгерский | hu |
Исландский | is |
Игбо | ig |
Индонезийский | id |
Инуктитут | iu |
Ирландский | ga |
Итальянский | it |
Японский | ja |
Яванская письменность | jv |
Каннада | kn |
Казахский | kk |
Киньяруанда | rw |
Киргизский | ky |
Корейский | ko |
Курдский | ku |
Лаосский | lo |
Латиница | la |
Латышский | lv |
Литовский | lt |
Люксембургский | lb |
Macedonian | mk |
Малагасийский | mg |
Малайский | ms |
Малаялам | ml |
Мальтийский | mt |
Маори | mi |
Маратхи | mr |
Монгольский | mn |
Непальский | ne |
Норвежский | no |
Норвежский (нюнорск) | nn |
Ория | or |
Пушту | ps |
Персидский | fa |
Польский | pl |
Португальский | pt |
Панджаби | pa |
Керетарский диалект отоми | otq |
Румынский | ro |
Русский | ru |
Самоанский | sm |
Сербский | sr |
Шона | sn |
Синдхи | sd |
Сингальский | si |
Словацкий | sk |
Словенский | sl |
Сомалийский | so |
Испанский | es |
Сунданская письменность | su |
Суахили | sw |
Шведский | sv |
Тагальский | tl |
Таитянский | ty |
Таджикский | tg |
Тамильский | ta |
Татарский | tt |
Телугу | te |
Тайский | th |
Тибетский | bo |
Тигринья | ti |
Тонганский | to |
Турецкий | tr |
Туркменский | tk |
Украинский | uk |
Урду | ur |
Узбекский | uz |
Вьетнамский | vi |
Валлийский | cy |
Коса | xh |
Идиш | yi |
Йоруба | yo |
Юкатекский майя | yua |
Зулу | zu |
Эта статья относится к флажку:Распознаватель документов версии 2.1. Более поздняя версия:Распознаватель документов версии 3.0
В этой таблице приведены письменные языки, поддерживаемые каждой службой "Распознаватель документов".
Макет и пользовательская модель
Язык | Код языка |
---|---|
Африкаанс | af |
Албанский | sq |
Астурийский | ast |
Баскский | eu |
Бислама | bi |
Бретонский | br |
Каталонский | ca |
Себуанский | ceb |
Чаморро | ch |
Китайский (упрощенное письмо) | zh-Hans |
Китайский (традиционное письмо) | zh-Hant |
Корнский | kw |
Корсиканский | co |
Крымско-татарский (латиница) | crh |
Чешский | cs |
Датский | da |
Нидерландский | nl |
Английский (печатный и рукописный) | en |
Эстонский | et |
Фиджийский | fj |
Филиппинский | fil |
Финский | fi |
Французский | fr |
Фриульский | fur |
Галисийский | gl |
Немецкий | de |
Кирибати | gil |
Гренландский | kl |
Гаитянский креольский | ht |
Хани | hni |
Хмонг дау (латиница) | mww |
Венгерский | hu |
Индонезийский | id |
Интерлингва | ia |
Инуктитут (латиница) | iu |
Ирландский | ga |
Итальянский | it |
Японский | ja |
Яванская письменность | jv |
Киче | quc |
Кабувердьяну | kea |
Качинский (латиница) | kac |
Каракалпаки | kaa |
Кашубский | csb |
Кхаси | kha |
Корейский | ko |
Курдский (латиница) | kur |
Люксембургский | lb |
Малайский (латиница) | ms |
Мэнский | gv |
Неаполитанский | nap |
Норвежский | no |
Окситанский | oc |
Польский | pl |
Португальский | pt |
Ретороманский | rm |
Шотландский | sco |
Гэльский | gd |
Словенский | slv |
Испанский | es |
Суахили (латиница) | sw |
Шведский | sv |
Татарский (латиница) | tat |
Тетум | tet |
Турецкий | tr |
Верхнелужицкий | hsb |
Узбекский (латиница) | uz |
Волапюк | vo |
Валлисский | wae |
Западнофризский | fy |
Юкатекский майя | yua |
Чжуанский | za |
Зулу | zu |
Готовая квитанция и визитка
Примечание
Технология глубокого обучения Распознавателя документов будет автоматически определять язык текста в изображении.
Предварительно созданные квитанции и визитные карточки поддерживают все английские квитанции и визитные карточки со следующими языковыми параметрами:
Поддерживаемые языки | Сведения |
---|---|
Английский | США (-us), Австралия (-au), Великобритания (-gb), Индия (-in) |
Французский | Франция (FR) |
Испанский | Испания (ES) |
Готовая квитанция
Примечание
Технология глубокого обучения Распознавателя документов будет автоматически определять язык текста в изображении.
Поддерживаемые языки | Сведения |
---|---|
|
США (-us), Австралия (-au), Канада (-ca), Великобритания (-gb), Индия (-in) |
|
Испания (ES) |
|
Германия (DE) |
|
Франция (FR) |
|
Италия (ИТ) |
|
Португалия (-pt), Бразилия (-br) |
|
Нидерланды (DE) |
Готовые идентификационные документы
Эта технология в настоящее время доступна для водительских удостоверений США и страниц с биографическими данными из международных паспортов (за исключением виз и других выездных документов).