Распознавание языков

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Определяет язык каждой строки во входном файле

категория: Анализ текста

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль обнаружения языков в Машинное обучение Studio (классическая модель) для анализа ввода текста и определения языка, связанного с каждой записью во входных данных.

Алгоритм определения языка может определить множество различных языков. Просто укажите строковый столбец для анализа и общее число языков для обнаружения. Алгоритм будет анализировать каждую строку текста и назначать оценку вероятности для каждого языка. Язык в первом столбце результатов — это язык, который получил наибольшую оценку.

Настройка определения языков

  1. добавьте набор данных, содержащий текст, который необходимо проанализировать, в эксперимент в Машинное обучение Studio (классическая модель). Столбец с анализируемым текстом должен быть строковым типом данных.

    Датсет не должен содержать столбец меток; алгоритм определения языка работает исключительно в лингвистических функциях поддерживаемых языков.

    При импорте новых данных убедитесь, что данные сохранены в формате UTF-8. Другие форматы Юникода не поддерживаются.

  2. Добавьте в эксперимент модуль найти языки и подключите набор данных с текстом для определения языка.

  3. В поле текстовый столбецвыберите столбец, который необходимо проанализировать.

  4. Для определения верхней границы числа поддерживаемых языковукажите максимальное число языков для обнаружения.

    Установка верхней границы числа языков может повысить производительность.

  5. Запустите эксперимент.

Результаты

Модуль Обнаружение языков выводит идентификатор языка и оценку для каждой строки.

Например, в следующей таблице приведен пример анализа тестовых данных.

  • Первые два столбца col1 и Метка языка — это столбцы, передаваемые из входного набора данных. В этом примере, поскольку входной набор данных был разработан для тестирования модуля, ожидаемый язык уже известен и указывается в столбце метки.

  • Оставшиеся столбцы создаются модулем обнаружения языков . Если есть эквивалентные совпадения между языками, могут быть перечислены несколько языков с оценками для каждого из них. В этом случае модуль прогнозирует только один язык для каждой строки, а также оценку вероятности для этого языка.

    Если модулю не удается обнаружить какой-либо язык с достаточно высокой нагрузкой, результат (неизвестный) с нулевым показателем — вывод. Однако языки, поддерживаемые модулем, могут меняться со временем при обновлении API.

Col1 Метка языка Col1, язык Col1 Iso6391 Language Оценка языка col1 Iso6391
Это замечательный Гостиница с понятным персоналом и хорошей службой Английский Английский en 100
ES-War Ein вундербарес отеля фреундличем Personal und Гутер Service Немецкий Немецкий de 100
К'ест магнификуе хôтел АВЕК unперсонала симпасикуе et un unservice de куалитé Французский Французский fr 100
Det var et дежлигт Гостиницы MED et венлигт Personal OG божественные Service Датский Датский nl 100
Ва SER магнíфик АМБ un амабле Каталонский Каталонский ca 92,30769348
とても素敵なホテルで, スタッフは親切で, サービスもよかった Японский Неизвестный 0
qu мебпа'мэй НАК понятно как Чавмох Je Клингонский Французский fr 77,5

Примеры

Примеры использования модуля обнаружения языков в эксперименте см. в Коллекция решений ии Azure:

  • Фильтровать названия фильмов по языку: определяет язык, используемый в именах фильмов, а затем использует идентификатор языка для разбиения набора данных на английский и не англоязычные фильмы.

Технические примечания

общие сведения о языках, которые потенциально могут быть обнаружены, см. в разделе Переводчик Bing.

многие другие языки могут быть обнаружены, чем Машинное обучение в настоящее время поддерживаются для расширенной аналитики текста. Рекомендуется использовать результаты поиска языков для фильтрации результатов, отправляемых в другие модули, требующие обработки, зависящей от языка.

базовые лингвистические службы также используются службой Анализ текста в Azure Cognitive Services.

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Вводимый объект

Параметры модуля

Имя Type Диапазон Необязательно Значение по умолчанию Описание
Верхняя граница числа языков для обнаружения Целое число [1; 184] Обязательно 1 Верхняя граница числа языков для обнаружения.
Столбец текста Выбор столбцов Обязательно Имя или Отсчитываемый от единицы индекс текстового столбца.

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Результат

Исключения

Исключение Описание
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0010 Исключение возникает, если имена столбцов входных наборов данных должны совпадать, но они не совпадают.
Ошибка 0016 Исключение возникает, если входные наборы данных, переданные в модуль, должны иметь совместимые типы столбцов, но на самом деле это не так.
Ошибка 0008 Исключение возникает, если параметр находится за пределами диапазона.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Анализ текста
Список модулей в алфавитном порядке