Распознавание языков

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Определяет язык каждой строки во входном файле

категория: Анализ текста

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль обнаружения языков в Машинное обучение Studio (классическая модель) для анализа ввода текста и определения языка, связанного с каждой записью во входных данных.

Алгоритм определения языка может определить множество различных языков. Просто укажите строковый столбец для анализа и общее число языков для обнаружения. Алгоритм будет анализировать каждую строку текста и назначать оценку вероятности для каждого языка. Язык в первом столбце результатов — это язык, который получил наибольшую оценку.

Настройка определения языков

добавьте набор данных, содержащий текст, который необходимо проанализировать, в эксперимент в Машинное обучение Studio (классическая модель). Столбец с анализируемым текстом должен быть строковым типом данных.

Датсет не должен содержать столбец меток; алгоритм определения языка работает исключительно в лингвистических функциях поддерживаемых языков.

При импорте новых данных убедитесь, что данные сохранены в формате UTF-8. Другие форматы Юникода не поддерживаются.
Добавьте в эксперимент модуль найти языки и подключите набор данных с текстом для определения языка.
В поле текстовый столбецвыберите столбец, который необходимо проанализировать.
Для определения верхней границы числа поддерживаемых языковукажите максимальное число языков для обнаружения.

Установка верхней границы числа языков может повысить производительность.
Запустите эксперимент.

Результаты

Модуль Обнаружение языков выводит идентификатор языка и оценку для каждой строки.

Например, в следующей таблице приведен пример анализа тестовых данных.

Первые два столбца col1 и Метка языка — это столбцы, передаваемые из входного набора данных. В этом примере, поскольку входной набор данных был разработан для тестирования модуля, ожидаемый язык уже известен и указывается в столбце метки.
Оставшиеся столбцы создаются модулем обнаружения языков . Если есть эквивалентные совпадения между языками, могут быть перечислены несколько языков с оценками для каждого из них. В этом случае модуль прогнозирует только один язык для каждой строки, а также оценку вероятности для этого языка.

Если модулю не удается обнаружить какой-либо язык с достаточно высокой нагрузкой, результат (неизвестный) с нулевым показателем — вывод. Однако языки, поддерживаемые модулем, могут меняться со временем при обновлении API.

Col1	Метка языка	Col1, язык	Col1 Iso6391 Language	Оценка языка col1 Iso6391
Это замечательный Гостиница с понятным персоналом и хорошей службой	Английский	Английский	en	100
ES-War Ein вундербарес отеля фреундличем Personal und Гутер Service	Немецкий	Немецкий	de	100
К'ест магнификуе хôтел АВЕК unперсонала симпасикуе et un unservice de куалитé	Французский	Французский	fr	100
Det var et дежлигт Гостиницы MED et венлигт Personal OG божественные Service	Датский	Датский	nl	100
Ва SER магнíфик АМБ un амабле	Каталонский	Каталонский	ca	92,30769348
とても素敵なホテルで, スタッフは親切で, サービスもよかった	Японский	Неизвестный		0
qu мебпа'мэй НАК понятно как Чавмох Je	Клингонский	Французский	fr	77,5

Примеры

Примеры использования модуля обнаружения языков в эксперименте см. в Коллекция решений ии Azure:

Фильтровать названия фильмов по языку: определяет язык, используемый в именах фильмов, а затем использует идентификатор языка для разбиения набора данных на английский и не англоязычные фильмы.

Технические примечания

общие сведения о языках, которые потенциально могут быть обнаружены, см. в разделе Переводчик Bing.

многие другие языки могут быть обнаружены, чем Машинное обучение в настоящее время поддерживаются для расширенной аналитики текста. Рекомендуется использовать результаты поиска языков для фильтрации результатов, отправляемых в другие модули, требующие обработки, зависящей от языка.

базовые лингвистические службы также используются службой Анализ текста в Azure Cognitive Services.

Ожидаемые входные данные

Имя	Тип	Описание
Dataset	Таблица данных	Вводимый объект

Параметры модуля

Имя	Type	Диапазон	Необязательно	Значение по умолчанию	Описание
Верхняя граница числа языков для обнаружения	Целое число	[1; 184]	Обязательно	1	Верхняя граница числа языков для обнаружения.
Столбец текста	Выбор столбцов		Обязательно		Имя или Отсчитываемый от единицы индекс текстового столбца.

Выходные данные

Имя	Тип	Описание
Набор данных результатов	Таблица данных	Результат

Исключения

Исключение	Описание
Ошибка 0003	Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0010	Исключение возникает, если имена столбцов входных наборов данных должны совпадать, но они не совпадают.
Ошибка 0016	Исключение возникает, если входные наборы данных, переданные в модуль, должны иметь совместимые типы столбцов, но на самом деле это не так.
Ошибка 0008	Исключение возникает, если параметр находится за пределами диапазона.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Анализ текста
Список модулей в алфавитном порядке

Last updated on 2019-07-03