Языковая поддержка для пользовательской классификации текстов

В этой статье содержатся сведения о языках, которые в настоящее время поддерживаются компонентом "Пользовательская классификация текстов".

Параметр многоязычности

Благодаря пользовательской классификации текстов можно обучать модель на одном языке и использовать ее для классификации документов на другом. Эта функция очень полезна, так как позволяет экономить время и усилия. Она устраняет необходимость создавать отдельные проекты для каждого языка, и в одном проекте можно использовать многоязычный набор данных. Набор данных не обязательно должен быть построен на одном языке, но при создании проекта или позже в параметрах проекта необходимо включить параметр многоязычности. Если при оценивании вы определили, что модель плохо работает на определенных языках, рассмотрите добавление дополнительных данных на таких языках в набор для обучения.

Вы можете полностью обучить свой проект документам на английском языке и запрашивать его на французском, немецком, китайском, японском, корейском и других языках. Пользовательская классификация текстов позволяет легко масштабировать проекты до нескольких языков, используя многоязычную технологию для обучения моделей.

Когда вы обнаружите, что определенный язык работает не так хорошо, как другие языки, вы можете добавить документы для этого языка в свой проект. На странице Маркировка данных в Language Studio вы можете выбрать язык добавляемого документа. Когда вы предоставляете дополнительные документы для этого языка для модели, она знакомится с более подробным синтаксисом этого языка и учится предсказывать его лучше.

Вы не должны добавлять одинаковое количество документов для каждого языка. Вы должны создать большую часть проекта на одном языке и добавить лишь несколько документов на тех языках, которые работают не очень хорошо. Если вы создадите проект преимущественно на английском языке и начнете тестировать его на французском, немецком и испанском языках, вы можете заметить, что немецкий язык работает не так хорошо, как два других языка. В этом случае попробуйте добавить 5 % исходных английских документов на немецком языке, обучите новую модель и снова протестируйте на немецком языке. Вы должны получить лучшие результаты для запросов на немецком языке. Чем больше документов с метками вы добавите, тем больше вероятность того, что результаты станут лучше.

Когда вы добавляете данные на другом языке, не стоит опасаться, что они негативно повлияют на остальные языки.

Языки, поддерживаемые для пользовательской классификации текстов

Поддерживается классификация файлов с расширением .txt на следующих языках:

Язык Код языка
Африкаанс af
Амхарский am
Арабский ar
Ассамский as
Азербайджанский az
Белорусский be
Болгарский bg
Бенгальский bn
Бретонский br
Боснийский bs
Каталонский ca
Чешский cs
Валлийский cy
Датский da
Немецкий de
Греческий el
Английский (США) en-us
Эсперанто eo
Испанский es
Эстонский et
Баскский eu
Персидский fa
Финский fi
Французский fr
Западнофризский fy
Ирландский ga
Гэльский gd
Галисийский gl
Гуджарати gu
Хауса ha
Иврит he
Hindi hi
Хорватский hr
Венгерский hu
Армянский hy
Индонезийский id
Итальянский it
Японский ja
Яванская письменность jv
Грузинский ka
Казахский kk
Кхмерский km
Каннада kn
Корейский ko
Курдский (Курманжи) ku
Киргизский ky
Латиница la
Лаосский lo
Литовский lt
Латышский lv
Малагасийский mg
Macedonian mk
Малаялам ml
Монгольский mn
Маратхи mr
Малайский ms
Бирманский my
Непальский ne
Нидерландский nl
Норвежский (букмол) nb
Ория or
Панджаби pa
Польский pl
Пушту ps
Португальский (Бразилия) pt-br
Португальский (Португалия) pt-pt
Румынский ro
Русский ru
Санскрит sa
Синдхи sd
Сингальский si
Словацкий sk
Словенский sl
Сомалийский so
Албанский sq
Сербский sr
Сунданская письменность su
Шведский sv
Суахили sw
Тамильский ta
Телугу te
Тайский th
Филиппинский tl
Турецкий tr
Уйгурский ug
Украинский uk
Урду ur
Узбекский uz
Вьетнамский vi
Коса xh
Идиш yi
Китайский (упрощенное письмо) zh-hans
Зулу zu

Следующие шаги