Извлечение ключевых фраз из текста

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Извлекает ключевые фразы из заданного текста

категория: Анализ текста

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье объясняется, как использовать модуль извлечения ключевых фраз из текстового модуля в Машинное обучение Studio (классическая модель) для предварительной обработки текстового столбца. При наличии столбца с текстом на естественном языке модуль извлекает одну или несколько значимых фраз. Фраза может представлять собой одно слово, Составное существительное, модификатор и существительное.

Этот модуль является оболочкой для API-интерфейсов обработки естественного языка для извлечения ключевых фраз. Фразы анализируются как потенциально значимые в контексте предложения по различным причинам:

  • Фраза записывается в раздел предложения.
  • Фраза содержит сочетание модификатора и существительного, которое указывает на тональности.

Например, предположим, что было проанализировано предложение: «это прекрасный Гостиница, чтобы оставаться в курсе с уникальными дéкор и удобными сотрудниками».

Модуль извлечения ключевых фраз из текстового модуля может возвращать следующие ключевые фразы:

  • замечательный Гостиница
  • удобные сотрудники
  • уникальный дéкор

Настройка извлечения ключевых фраз из текста

Чтобы извлечь ключевые фразы, необходимо соединить набор данных со столбцом текста.

  1. добавьте модуль " извлечение ключевых фраз из текстового модуля" в эксперимент в Машинное обучение Studio (классическая модель). Затем подключите набор данных, содержащий по крайней мере один полнотекстовый столбец.

  2. Используйте селектор столбцов, чтобы выбрать столбец типа строка, из которого нужно извлечь ключевые фразы.

  3. В качестве языкавыберите язык, который будет использоваться при анализе фраз. Если указан язык, будут выводиться только фразы на целевом языке.

  4. Если в текстовом столбце содержатся фразы на нескольких языках, выберите параметр язык, определенный в столбцах. Отобразится новый селектор столбцов, который позволяет выбрать в наборе данных столбец, содержащий идентификатор языка. Идентификатор языка может быть либо именем языка, либо идентификатором языка и региональных параметров Iso6391. Например, приемлемым является либо «английский», либо «EN».

    Совет

    Перед выполнением извлечения ключевых фраз из текстаиспользуйте модуль определение языков , чтобы определить язык в каждой строке и создать идентификатор. Если столбец Идентификатор языка содержит языки, которые не поддерживаются извлечением ключевых фраз из текста, возникает ошибка.

Результаты

Выходные данные модуля — это набор данных, содержащий столбец с ключевыми фразами, разделенными запятыми.

Например, следующий пример приводит к получению входного набора данных, содержащего обзоры на нескольких языках:

Ключевые фразы
Романский, ядерный подводный, хорошая книга, Adventure история, множество событий, хорошие символы
Учебник по Мистерио, персонажес, Вентилятор, Авентура, Исла
  • Все выходные фразы содержатся в одном столбце. никакие другие столбцы не передаются через, а идентификатор не добавляется. Однако если нужно выстроить выходные фразы с исходным текстом, можно повторно объединить выходные фразы с входными данными с помощью модуля Добавление столбцов .

  • Выходные данные извлечения ключевых фраз не помечают язык отдельных фраз.

  • Если язык включен, не поддерживаемый модулем извлечения ключевых фраз , возникает ошибка (0039). Чтобы избежать ошибок, не забудьте отфильтровать входной текст с несовместимым идентификатором языка.

    Если имеется очень мало строк других языков, можно избежать этой ошибки, опустив идентификатор языка и проанализировать весь текст с помощью выбора одного языка. Однако при этом результаты очень низкы, так как целые предложения на других языках могут быть выводиться как одна ключевая фраза.

Примеры

В следующем примере показано, как использовать этот модуль для извлечения ключевых фраз, а затем создать слово Cloud из фраз: Извлечение ключевых фраз и отображение слова Cloud

дополнительные примеры обработки текста с помощью Машинное обучение см. в Коллекция решений ИИ Azure .

Технические примечания

Сейчас этот модуль поддерживает следующие языки:

  • Нидерландский
  • Английский
  • Французский
  • Немецкий
  • Итальянский
  • Испанский

для дополнительных языков рекомендуется использовать Анализ текста API в Azure Cognitive Services. дополнительные сведения см. в разделе извлечение ключевых фраз в Анализ текста

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Таблица, содержащая текст для обработки.

Параметры модуля

Имя Type Диапазон Необязательно Значение по умолчанию Описание
Язык и региональные параметры — столбец языка Выбор столбцов язык: столбец содержит язык Имя или Отсчитываемый от единицы индекс столбца, содержащего сведения о языке и региональных параметрах
Столбец текста Выбор столбцов Обязательно Имя или Отсчитываемый от единицы индекс текстового столбца.
Язык T_Language Английский, испанский, французский, голландский, немецкий, итальянский, столбец содержит язык Обязательно Английский Выберите язык текста для обработки.

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Извлеченные ключевые фразы

Исключения

Исключение Описание
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0010 Исключение возникает, если имена столбцов входных наборов данных должны совпадать, но они не совпадают.
Ошибка 0016 Исключение возникает, если входные наборы данных, переданные в модуль, должны иметь совместимые типы столбцов, но на самом деле это не так.
Ошибка 0008 Исключение возникает, если параметр находится за пределами диапазона.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Анализ текста
Список модулей в алфавитном порядке