Что такое распознавание говорящего?

Распознавание говорящего помогает определить, кто говорит в аудиоклипе. Эта служба может проверять и идентифицировать говорящих по их уникальным голосовым характеристикам с использованием голосовой биометрии.

Вы предоставляете звуковые обучающие данные для одного говорящего, что создает профиль регистрации на основе уникальных характеристик голоса говорящего. Затем вы можете провести перекрестную проверку образцов голоса, сравнив их с данным профилем, чтобы убедиться, что говорящим является именно этот человек (проверка говорящего). Вы также можете провести перекрестную проверку образцов голоса, сравнив их с группой профилей зарегистрированных говорящих, чтобы посмотреть, совпадут ли они с каким-либо из профилей группы (идентификация говорящего).

Важно!

Корпорация Майкрософт ограничивает доступ к распознаванию говорящего. Вам потребуется подать заявку на доступ на странице проверки ограниченного доступа к функции распознавания говорящего Azure Cognitive Services. Дополнительные сведения см. в разделе Ограниченный доступ к функции распознавания говорящего.

Проверка говорящего

Проверка говорящего упрощает процесс проверки удостоверения зарегистрированного говорящего с помощью парольных фраз или голосового ввода в произвольной форме. Например, ее можно использовать для проверки удостоверения клиента в центрах обработки вызовов или при доступе к бесконтактному оборудованию.

Как работает проверка говорящего?

Этот процесс наглядно представлен на следующей блок-схеме.

Блок-схема, демонстрирующая, как происходит проверка говорящего.

Проверка говорящего может быть как зависимой, так и независимой от текста. Зависимая от текста проверка означает, что говорящие должны выбрать одну и ту же парольную фразу, которая будет использоваться на этапах регистрации и проверки. Независимая от текста проверка означает, что говорящие могут говорить, как привыкли, произнося фразы для регистрации и проверки.

Для зависимой от текста проверки голос говорящего регистрируется путем произнесения ключевой фразы из набора заранее определенных фраз. Голосовые характеристики извлекаются из аудиозаписи, чтобы сформировать уникальную голосовую подпись, при этом выбранная кодовая фраза также распознается. Вместе голосовая подпись и кодовая фраза используются для проверки говорящего.

Независимая от текста проверка не имеет ограничений на то, что говорит говорящий во время регистрации, кроме фразы начальной активации, когда активная регистрация включена. Нет ограничений и на то, какой звуковой образец будет проверяться, так как при этом просто извлекаются голосовые признаки для оценки подобия.

Интерфейсы API не предназначены для определения источника звука: реальный это человек или имитация либо запись зарегистрированного говорящего.

Идентификация говорящего

Идентификация говорящего помогает определять личность неизвестного говорящего в группе зарегистрированных говорящих. Идентификация говорящего позволяет приписывать речь отдельным говорящим и с пользой применять сценарии с несколькими говорящими, например:

  • Поддержка решений для эффективного проведения удаленных собраний.
  • Обеспечение персонализации многопользовательского устройства.

Как работает идентификация говорящего?

При регистрации для идентификации говорящего используется проверка, не зависящая от текста. Нет никаких ограничений на то, что говорящий говорит в звуке, кроме фразы начальной активации, когда активная регистрация включена. Как и в случае с проверкой говорящего, на этапе регистрации голос говорящего записывается и из него извлекаются голосовые характеристики для формирования уникальной голосовой подписи. На этапе идентификации образец входящего голоса сравнивается с указанным списком зарегистрированных голосов (до 50 в каждом запросе).

Безопасность и конфиденциальность данных

Данные о регистрации говорящих хранятся в защищенной системе, включая записи голоса для регистрации и функций голосовой подписи. Речь для регистрации используется только тогда, когда алгоритм обновлен и функции необходимо извлечь снова. Служба не сохраняет запись речи или извлеченные голосовые характеристики, которые отправляются службе на этапе распознавания.

Вы сами задаете, как долго такие данные должны храниться. Вы можете создавать, обновлять и удалять данные о регистрации для отдельных пользователей с помощью вызовов API. При удалении подписки все данные о регистрации говорящего, связанные с подпиской, также будут удалены.

Как и для всех ресурсов Cognitive Services, разработчики, использующие функцию распознавания говорящего, должны знать политики корпорации Майкрософт в отношении данных клиентов. Вы обязаны получить от пользователей соответствующие разрешения. Дополнительные сведения см. в статье Данные и конфиденциальность для распознавания говорящего. См. подробнее на странице Cognitive Services в Центре управления безопасностью Майкрософт.

Часто задаваемые вопросы и решения

Вопрос Решение
В каких ситуациях я скорее всего воспользуюсь распознаванием говорящего? Вот несколько примеров: проверка клиентов центра обработки вызовов, голосовая регистрация пациентов, транскрибирование записей встреч, персонализация на многопользовательском устройстве.
В чем разница между идентификацией и проверкой? Идентификация — это процесс определения говорящего из группы говорящих. Проверка — это подтверждение того, что говорящий соответствует известному, зарегистрированному голосу.
Какие языки поддерживаются? См. раздел Поддержка языков для распознавания говорящего.
Какие регионы Azure поддерживаются? См. раздел Поддержка региона для распознавания говорящего.
Какие аудиоформаты поддерживаются? Моно, 16-разрядный, 16 кГц, PCM WAV.
Можно ли регистрировать одного говорящего несколько раз? Да, для текстовой проверки вы можете зарегистрировать говорящего до 50 раз. Для независимой от текста проверки или идентификации говорящего вы можете записать аудио продолжительностью до 300 секунд.
Какие данные хранятся в Azure? Запись голоса для регистрации хранится в сервисе до тех пор, пока голосовой профиль не будет удален. Образцы аудиозаписей для распознавания не сохраняются и не хранятся.

Дальнейшие действия