Поддержка языков в Распознавателе документов

Эта статья относится к флажкуРаспознаватель документов версии 3.0Распознаватель документов версии 3.0. Более ранняя версия:Распознаватель документов версии 2.1

В этой статье рассматриваются поддерживаемые языки для извлечения (по функциям) и обнаружения (только для чтения) текста и полей. Обе группы являются взаимоисключающими.

Чтение, макет и настраиваемая модель формы (шаблона)

Следующие списки включают языки, которые в настоящее время являются общедоступными в последней версии версии 3.0. Эти языки поддерживаются функциями чтения, макета и настраиваемой модели формы (шаблона).

Примечание

Код языка (необязательно)

Универсальные модели на основе глубокого обучения службы "Распознаватель документов" извлекают весь многоязычный текст в документах, в том числе текстовые строки со смешанными языками, и не требуют указания кода языка. Код языка следует указывать в качестве параметра, только если вы уверены в том, с каким языком будете работать, и вам нужно, чтобы служба применяла только соответствующую модель. В противном случае служба может вернуть неполный и неправильный текст.

Чтобы узнать, как использовать языки, поддерживаемые в версии 3.0, и получить сведения об отличиях приведенной ниже версии от общедоступного API версии 2.1, ознакомьтесь с руководством по миграции REST API версии 3.0 и с краткими руководствами по пакету SDK версии 3.0 и REST API.

Рукописный текст

В следующей таблице перечислены языки, для которых поддерживается извлечение рукописного текста.

Язык Код языка (необязательно) Язык Код языка (необязательно)
Английский en Японский ja
Китайский (упрощенный) zh-Hans Корейский ko
Французский fr Португальский pt
Немецкий de Испанский es
Итальянский it

В следующей таблице перечислены языки, поддерживаемые для печати текста в последней общедоступной версии.

Язык Код (необязательно) Язык Код (необязательно)
Африкаанс af Кхаси kha
Албанский sq Киче quc
Ангика (Деванагари) anp Корейский ko
Арабский ar Корку kfq
Астурийский ast Корякский kpy
Авадхи хинди (Деванагари) awa Косяэ kos
Азербайджанский (латиница) az Кумыкский (кириллица) kum
Багхели bfy Курдский (арабский) ku-arab
Баскский eu Курдский (латиница) ku-latn
Белорусский (кириллица) be, be-cyrl Курух (Деванагири) kru
Белорусский (латиница) be, be-latn Киргизский (кириллица) ky
Бходжпури хинди (Деванагари) bho Лакота lkt
Бислама bi Латиница la
Бодо (Деванагари) brx Литовский lt
Боснийский (латиница) bs Нижнелужицкий dsb
Браджбха bra Луле-саамский smj
Бретонский br Люксембургский lb
Болгарский bg Махасу пахари (Деванагари) bfz
Бундели bns Малайский (латиница) ms
Бурятский (кириллица) bua Мальтийский mt
Каталонский ca Малто (Деванагари) kmj
Себуанский ceb Мэнский gv
Чамлинг rab Маори mi
Чаморро ch Маратхи mr
Чхаттисгархи (Деванагари) hne Монгольский (кириллица) mn
Китайский (упрощенный) zh-Hans Черногорский (кириллица) cnr-cyrl
Китайский (традиционное письмо) zh-Hant Черногорский (латиница) cnr-latn
Корнский kw Неаполитанский nap
Корсиканский co Непальский ne
Крымско-татарский (латиница) crh Ниуэ niu
Хорватский hr Ногайский nog
Чешский cs Северносаамский (латиница) sme
Датский da Норвежский no
Дари prs Окситанский oc
Дхималь (Деванагари) dhi Осетинский os
Догри (Деванагари) doi Пушту ps
Нидерландский nl Персидский fa
Английский en Польский pl
Ерзянский (кириллица) myv Португальский pt
Эстонский et Панджаби (арабский) pa
Фарерский fo Рипуарский ksh
Фиджийский fj Румынский ro
Филиппинский fil Ретороманский rm
Финский fi Русский ru
Французский fr Садри (Деванагари) sck
Фриульский fur Самоанский (латиница) sm
Гагаузский (латиница) gag Санскрит (Деванагари) sa
Галисийский gl Сантали (Деванагири) sat
Немецкий de Шотландский sco
Кирибати gil Гэльский gd
Гонди (Деванагари) gon Сербский (латиница) sr, sr-latn
Гренландский kl Шерпа (Деванагари) xsr
Гурунг (Деванагари) gvr Сирмаури (Деванагари) srx
Гаитянский креольский ht Колтта-саамский sms
Халби (Деванагари) hlb Словацкий sk
Хани hni Словенский sl
Харьянви bgc Сомали (арабское письмо) so
Гавайский haw Южносаамский sma
Hindi hi Испанский es
Хмонг дау (латиница) mww Суахили (латиница) sw
Хо (Деванагири) hoc Шведский sv
Венгерский hu Таджикский (кириллица) tg
Исландский is Татарский (латиница) tt
Инари-саамский smn Тетум tet
Индонезийский id Тхангми thf
Интерлингва ia Тонганский to
Инуктитут (латиница) iu Турецкий tr
Ирландский ga Туркменский (латиница) tk
Итальянский it Тувинский tyv
Японский ja Верхнелужицкий hsb
Яунсари (Деванагари) Jns Урду ur
Яванская письменность jv Уйгурский (арабское письмо) ug
Кабувердьяну kea Узбекский (арабское письмо) uz-arab
Качинский (латиница) kac Узбекский (кириллица) uz-cyrl
Кангри (Деванагари) xnr Узбекский (латиница) uz
Карачаево-балкарский krc Волапюк vo
Каракалпакский (кириллица) kaa-cyrl Валлисский wae
Каракалпакский (латиница) kaa Валлийский cy
Кашубский csb Западнофризский fy
Казахский (кириллица) kk-cyrl Юкатекский майя yua
Казахский (латиница) kk-latn Чжуанский za
Халинг klr Зулу zu

Используйте параметр api-version=2022-06-30-preview при использовании REST API или соответствующего пакета SDK для поддержки этих языков в приложениях.

Язык Код (необязательно) Язык Код (необязательно)
Абазы abq Малагасийский mg
Абхазии ab Мандинка mnk
Ачинский ace Мапудунгун arn
Аколи ach Мари (Россия) chm
Adangme ada Масаи mas
Адыгейский ady Менде (Сьерра-Леоне) men
Афар aa Меру mer
Акан ak Мета' mgo
Алгонкин alq Минангкабау min
Асу (Танзания) asa Mohawk moh
Аварич av Монгондоу mog
Аймара ay Морисьен mfe
Bafia ksf Манданг mua
Bambara bm Науатле nah
Башкирский ba Навахо nv
Бемба (Замбия) bem Ндонга ng
Бена (Танзания) bez Нгомба jgo
Бикол bik Норт-Ндебеле nd
Бини bin Ньянья ny
Чеченской ce Nyankole nyn
Чига cgg Нзима nzi
Choctaw cho Оджибва oj
Чукот ckt Оромо om
Чувашская cv Пампанга pam
Cree cr Пангасинан pag
Крик mus Папиаменто pap
Ворона cro Педи nso
Даргва dar Кечуа qu
Duala dua Rundi rn
Данган dng Rwa rwk
Эфик efi Самбуру saq
Fon fon Санго sg
Ga gaa Сангу (Gabon) snq
Ганда lg Сена seh
Гайо gay Сербский (кириллица) sr-cyrl
Гуарани gn Шамбала ksb
Гусий guz Шона sn
Греческий el Siksika bla
Herero hz Сога xog
Хилигейнон hil Сомалийский (латиница) so-latn
Iban iba Сонгай son
Игбо ig Саут-Ндебеле nr
Илоко ilo Южный Алтай alt
Ингушей inh Южный Сото st
Jola-Fonyi dyo Сунданская письменность su
Кабардинец kbd Свати ss
Календжин kln Табассаран tab
Калмыцкий xal Тачелхит shi
Канури kr Таитянский ty
Хакас kjh Тайта dav
Кикую ki Таратарский (кириллица) tt-cyrl
Кильдин Сами sjd Тесо teo
Киньяруанда rw Тайский th
Коми kv Tok Pisin tpi
Конго kg Тсонга ts
Кпелле kpe Тсвана tn
Куаньяма kj Удмуртская udm
Лак lbe Уйгурский (кириллица) ug-cyrl
Латышский lv Украинский uk
Лезгинский lex Вьетнамский vi
Лингала ln Вуньо vun
Лози loz Волоф wo
Луо (Кения и Танзания) luo Коса xh
Луия luy Якут sah
Macedonian mk Сапотек zap
Мачаме jmc Зарма dje
Мадурский mad
Makhuwa-Meetto mgh
Маконде kde

Пользовательская нейронная модель

Язык Код языкового стандарта
Английский (США) ru-ru

Модель квитанций

Примечание

Указывать языковой стандарт не обязательно. Этот параметр является необязательным. Технология глубокого обучения Распознавателя документов будет автоматически определять язык текста в изображении.

Квитанция поддерживает все квитанции на английском языке и следующие языковые стандарты:

Язык Код языкового стандарта
Английский (Австралия) en-au
Английский (Канада) en-ca
Английский (Великобритания) en-gb
Английский (Индия) en-in
Английский (США) en-us
Французский fr
Испанский es

Модель визитных карточек

Примечание

Указывать языковой стандарт не обязательно. Этот параметр является необязательным. Технология глубокого обучения Распознавателя документов будет автоматически определять язык текста в изображении.

Визитная карточка поддерживает все английские визитные карточки со следующими языковыми стандартами.

Язык Код языкового стандарта
Английский (Австралия) en-au
Английский (Канада) en-ca
Английский (Великобритания) en-gb
Английский (Индия) en-in
Английский (США) en-us

Выпуски 2022-06-30 и более поздние поддерживают японский язык:

Язык Код языкового стандарта
Японский ja

Модель счетов

Язык Код языкового стандарта
Английский en-US, en-IN, en-GB, en-CA, en-AU
Испанский es
Немецкий (2022-06-30 и более поздние версии) de
Французский (2022-06-30 и более поздние версии) fr
Итальянский (2022-06-30 и более поздние версии) it
Португальский (2022-06-30 и более поздние версии) pt
Голландский (2022-06-30 и более поздние версии) nl

Модель удостоверения

Эта технология в настоящее время доступна для водительских удостоверений США и страниц с биографическими данными из международных паспортов (за исключением виз и других выездных документов).

Документ общего назначения

Язык Код языкового стандарта
Английский (США) ru-ru

Обнаруженные языки: API чтения

API чтения поддерживает обнаружение следующих языков в документах. Этот список может включать языки, для которых сейчас не поддерживается извлечение текста.

Примечание

Пример. Как определить язык с помощью Анализа текста

Модель чтения Распознавателя документов может обнаруживать возможное присутствие языков и возвращать коды обнаруженных языков. Сведения о том, можно ли извлечь текст для данного языка, см. в предыдущих разделах.

Примечание

Обнаруженные языки и извлеченные языки

В этом разделе перечислены языки, которые можно обнаружить в документах с помощью модели чтения (при наличии). Обратите внимание, что этот список отличается от списка языков, для которых поддерживается извлечение текста (такие языки приведены в разделах выше для каждой модели).

Язык Код
Африкаанс af
Албанский sq
Амхарский am
Арабский ar
Армянский hy
Ассамский as
Азербайджанский az
Баскский eu
Белорусский be
Бенгальский bn
Боснийский bs
Болгарский bg
Бирманский my
Каталонский ca
Центральный кхмерский km
Китайский zh
Китайский (упрощенный) zh_chs
Китайский (традиционное письмо) zh_cht
Корсиканский co
Хорватский hr
Чешский cs
Датский da
Дари prs
Мальдивский dv
Нидерландский nl
Английский en
Эсперанто eo
Эстонский et
Фиджийский fj
Финский fi
Французский fr
Галисийский gl
Грузинский ka
Немецкий de
Греческий el
Гуджарати gu
Гаитянский ht
Хауса ha
Иврит he
Hindi hi
Хмонг дау mww
Венгерский hu
Исландский is
Игбо ig
Индонезийский id
Инуктитут iu
Ирландский ga
Итальянский it
Японский ja
Яванская письменность jv
Каннада kn
Казахский kk
Киньяруанда rw
Киргизский ky
Корейский ko
Курдский ku
Лаосский lo
Латиница la
Латышский lv
Литовский lt
Люксембургский lb
Macedonian mk
Малагасийский mg
Малайский ms
Малаялам ml
Мальтийский mt
Маори mi
Маратхи mr
Монгольский mn
Непальский ne
Норвежский no
Норвежский (нюнорск) nn
Ория or
Пушту ps
Персидский fa
Польский pl
Португальский pt
Панджаби pa
Керетарский диалект отоми otq
Румынский ro
Русский ru
Самоанский sm
Сербский sr
Шона sn
Синдхи sd
Сингальский si
Словацкий sk
Словенский sl
Сомалийский so
Испанский es
Сунданская письменность su
Суахили sw
Шведский sv
Тагальский tl
Таитянский ty
Таджикский tg
Тамильский ta
Татарский tt
Телугу te
Тайский th
Тибетский bo
Тигринья ti
Тонганский to
Турецкий tr
Туркменский tk
Украинский uk
Урду ur
Узбекский uz
Вьетнамский vi
Валлийский cy
Коса xh
Идиш yi
Йоруба yo
Юкатекский майя yua
Зулу zu

Эта статья относится к флажку:Распознаватель документов версии 2.1Распознаватель документов версии 2.1. Более поздняя версия:Распознаватель документов версии 3.0

В этой таблице приведены письменные языки, поддерживаемые каждой службой "Распознаватель документов".

Макет и пользовательская модель

Язык Код языка
Африкаанс af
Албанский sq
Астурийский ast
Баскский eu
Бислама bi
Бретонский br
Каталонский ca
Себуанский ceb
Чаморро ch
Китайский (упрощенное письмо) zh-Hans
Китайский (традиционное письмо) zh-Hant
Корнский kw
Корсиканский co
Крымско-татарский (латиница) crh
Чешский cs
Датский da
Нидерландский nl
Английский (печатный и рукописный) en
Эстонский et
Фиджийский fj
Филиппинский fil
Финский fi
Французский fr
Фриульский fur
Галисийский gl
Немецкий de
Кирибати gil
Гренландский kl
Гаитянский креольский ht
Хани hni
Хмонг дау (латиница) mww
Венгерский hu
Индонезийский id
Интерлингва ia
Инуктитут (латиница) iu
Ирландский ga
Итальянский it
Японский ja
Яванская письменность jv
Киче quc
Кабувердьяну kea
Качинский (латиница) kac
Каракалпаки kaa
Кашубский csb
Кхаси kha
Корейский ko
Курдский (латиница) kur
Люксембургский lb
Малайский (латиница) ms
Мэнский gv
Неаполитанский nap
Норвежский no
Окситанский oc
Польский pl
Португальский pt
Ретороманский rm
Шотландский sco
Гэльский gd
Словенский slv
Испанский es
Суахили (латиница) sw
Шведский sv
Татарский (латиница) tat
Тетум tet
Турецкий tr
Верхнелужицкий hsb
Узбекский (латиница) uz
Волапюк vo
Валлисский wae
Западнофризский fy
Юкатекский майя yua
Чжуанский za
Зулу zu

Готовая квитанция и визитка

Примечание

Технология глубокого обучения Распознавателя документов будет автоматически определять язык текста в изображении.

Предварительно созданные квитанции и визитные карточки поддерживают все английские квитанции и визитные карточки со следующими языковыми параметрами:

Поддерживаемые языки Сведения
Английский США (-us), Австралия (-au), Великобритания (-gb), Индия (-in)
Французский Франция (FR)
Испанский Испания (ES)

Готовая квитанция

Примечание

Технология глубокого обучения Распознавателя документов будет автоматически определять язык текста в изображении.

Поддерживаемые языки Сведения
  • Английский
США (-us), Австралия (-au), Канада (-ca), Великобритания (-gb), Индия (-in)
  • Испанский
Испания (ES)
  • Немецкий
Германия (DE)
  • Французский
Франция (FR)
  • Итальянский
Италия (ИТ)
  • Португальский
Португалия (-pt), Бразилия (-br)
  • Нидерландский
Нидерланды (DE)

Готовые идентификационные документы

Эта технология в настоящее время доступна для водительских удостоверений США и страниц с биографическими данными из международных паспортов (за исключением виз и других выездных документов).

Дальнейшие действия