Поделиться через


Анализ текста

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описываются модули текстовой аналитики, входящие в Машинное обучение Studio (классическая модель). Эти модули предоставляют специализированные вычислительные средства для работы с структурированным и неструктурированным текстом, в том числе:

  • Несколько параметров для предварительной обработки текста.
  • Определение языка.
  • Создание компонентов из текста с помощью настраиваемых словарей n-грамм.
  • Хэширование компонентов для эффективного анализа текста без предварительной обработки или расширенного лингвистического анализа.
  • Vowpal Wabbit для очень быстрого машинного обучения в тексте. Vowpal Wabbit поддерживает хэширование компонентов, моделирование разделов (LDA) и классификацию.
  • Распознавание именованных сущностей для извлечения имен людей, мест и организаций из неструктурированного текста.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Примеры

примеры анализа текста с помощью Машинное обучение см. в Коллекция решений ИИ Azure:

  • Классификация новостей. использует хэширование признаков для классификации статей в предопределенный список категорий.

  • Поиск похожих компаний: использует текст статей Википедии для классификации компаний.

  • Классификация текста: демонстрирует сквозной процесс использования текста из сообщений Twitter в тональности Analysis (пример из пяти частей).

Список модулей

категория Анализ текста в Машинное обучение Studio (классическая модель) включает следующие модули:

См. также раздел