Что такое распознавание устной речи?

2025-05-20

Распознавание общения — это одна из пользовательских функций, предлагаемых языком искусственного интеллекта Azure. Это облачная служба API, которая применяет аналитику машинного обучения для создания компонента распознавания естественного языка, который будет использоваться в комплексном приложении для общения.

Распознавание устной речи (CLU) позволяет пользователям создавать настраиваемые модели распознавания естественного языка для прогнозирования общего намерения входящего речевого фрагмента и извлечения из него важных сведений. CLU лишь предоставляет аналитику для понимания входного текста клиентского приложения и не выполняет никаких действий. Создав проект CLU, разработчики могут итеративно помечать речевые фрагменты, обучать модель и оценивать ее производительность, прежде чем сделать ее доступной для использования. Качество данных с метками значительно влияет на производительность модели. Чтобы упростить создание и настройку модели, служба предлагает пользовательский веб-портал, к которому можно получить доступ с помощью Azure AI Foundry. Вы можете легко приступить к работе со службой, выполнив действия, описанные в этом кратком руководстве.

Эта документация включает статьи следующих типов:

Краткие руководства — инструкции по началу работы и отправке запросов в службу.
Статьи с основными понятиями — здесь описываются функциональность и возможности службы.
Руководства — содержат инструкции для более специфического или специализированного использования службы.

Примеры сценариев использования

CLU можно использовать в нескольких сценариях в различных отраслях. Некоторые примеры:

Комплексный бот для общения

Используйте CLU для создания и обучения настраиваемой модели распознавания естественного языка на основе определенной предметной области и речевых фрагментов ожидаемых пользователей. Интегрируйте ее с любым комплексным ботом для общения, чтобы он мог обрабатывать и анализировать входящий текст в режиме реального времени для определения намерения текста и извлечения из него важной информации. Настройте бота для выполнения требуемого действия на основе намерения и извлеченных сведений. В качестве примера можно привести настраиваемый бот розничной торговли для покупок в Интернете или заказа продуктов питания.

Боты-помощники

Одним из примеров бота-помощника является бот, помогающий персоналу улучшать взаимодействие с клиентами путем рассмотрения запросов клиентов и назначения их соответствующему сотруднику службы поддержки. Другим примером может быть бот кадровых ресурсов на предприятии, который позволяет сотрудникам взаимодействовать на естественном языке и получать рекомендации на основе запроса.

Приложения для контроля и управления

При интеграции клиентского приложения с текстовым компонентом пользователи могут говорить команду на естественном языке для обработки, идентификации намерения и извлечения информации из текста клиентского приложения для выполнения действия. Этот вариант использования имеет множество применений, таких как остановка, воспроизведение и перемотка композиции или включение и отключение освещения.

Корпоративный чат-бот

В крупной корпорации корпоративный чат-бот может обрабатывать различные дела сотрудников. Он может обрабатывать часто задаваемые вопросы, обслуживаемые пользовательской базой знаний с ответами на вопросы, определенный навык для календаря, обслуживаемый CLU, и навык обратной связи для интервью, обслуживаемый LUIS. Используйте рабочий процесс оркестрации, чтобы объединить все эти навыки и соответствующим образом направлять входящие запросы в подходящую службу.

Агенты

CLU используется шаблоном агента маршрутизации намерений , который обнаруживает намерение пользователя и предоставляет точные ответы. Идеально подходит для детерминированной маршрутизации намерений и точного ответа на вопросы с помощью управления человеком.

Жизненный цикл разработки проекта

Создание проекта CLU для классификации обычно включает в себя несколько шагов.

Замечание

В Azure AI Foundry вы создадите задачу тонкой настройки как рабочую область для настройки модели CLU. Ранее задача тонкой настройки CLU называлась проектом CLU. Вы можете заметить, что эти термины могут использоваться взаимозаменяемо в устаревшей документации CLU.

CLU предлагает два пути, чтобы получить максимальную выгоду от вашего внедрения.

Вариант 1 (быстрое развертывание на основе LLM):

Определение схемы. Изучите свои данные и определите действия и соответствующие сведения, которые необходимо распознать из входных речевых фрагментов пользователя. На этом шаге вы создаете намерения и предоставляете подробное описание смысла намерений, которые вы хотите назначить высказываниям пользователя.
Разверните модель: развертывание модели с помощью конфигурации обучения на основе LLM делает его доступным для использования через API среды выполнения.
Прогнозирование намерений и сущностей: Используйте развертывание пользовательской модели для прогнозирования пользовательских намерений и предопределённых сущностей из пользовательских высказываний.

Вариант 2 (пользовательская модель машинного обучения)

Выполните следующие действия, чтобы извлечь максимум из вашей обученной модели:

Определение схемы. Изучите свои данные и определите действия и соответствующие сведения, которые необходимо распознать из входных речевых фрагментов пользователя. На этом шаге вы создадите намерения , которые вы хотите назначить речевым фрагментам пользователя, и соответствующие сущности , которые требуется извлечь.
Маркировка данных. Качество этого процесса является ключевым фактором, от которого зависит производительность модели.
Обучение модели. Обучение модели начинается с изучения промаркированных данных.
Просмотр сведений о производительности модели. Просмотрите сведения об оценке модели, чтобы определить, насколько она эффективна при внесении новых данных.
Улучшение модели. После просмотра сведений о производительности модели вы можете изучить возможности по ее улучшению.
Развертывание модели. Развернутая модель становится доступной для использования посредством API среды выполнения.
Прогнозирование намерений и сущностей. Используйте настраиваемую модель для прогнозирования намерений и сущностей на основе речевых фрагментов пользователя.

Справочная документация и примеры кода

При использовании CLU ознакомьтесь со следующей справочной документацией и примерами для языка искусственного интеллекта Azure:

Вариант разработки и язык	Справочная документация	Примеры
REST API (разработка)	Документация по REST API
REST API (среда выполнения)	Документация по REST API
C# (среда выполнения)	Документация по C#	Примеры C#
Python (среда выполнения)	Документация по Python.	Примеры для Python

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с примечанием о прозрачности для CLU, чтобы узнать больше об ответственном использовании и развертывании искусственного интеллекта в своих системах. Дополнительные сведения см. в следующих статьях:

Следующие шаги

Используйте эту статью из краткого руководства, чтобы приступить к использованию распознавания устной речи.
В ходе жизненного цикла разработки проекта просмотрите глоссарий, чтобы узнать больше о терминах, используемых в документации по этой функции.
Не забудьте ознакомиться с ограничениями службы, например со сведениями о доступности по регионам.