Новые возможности службы "Речь с помощью искусственного интеллекта Azure"?
Служба "Речь ИИ Azure" обновляется на постоянной основе. Чтобы вы оставались в курсе последних разработок, в этой статье предоставлены сведения о новых выпусках и возможностях.
Последние моменты
- Расширение Azure AI Speech Toolkit теперь доступно для пользователей Visual Studio Code. Он содержит список кратких запусков речи и примеры сценариев, которые можно легко создать и запустить с помощью простых щелчков мыши. Дополнительные сведения см. в azure AI Speech Toolkit в Visual Studio Code Marketplace.
- Голос высокой четкости распознавания речи В AZURE (HD) доступен в общедоступной предварительной версии. Голоса HD могут понять содержимое, автоматически обнаруживать эмоции в входном тексте и настраивать тон речи в режиме реального времени, чтобы соответствовать тону. Дополнительные сведения см. в статье "Что такое голос с высоким определением речи ИИ Azure(HD)?".
- Быстрая транскрибирование теперь доступна в общедоступной предварительной версии. Он может транскрибировать звук гораздо быстрее, чем фактическая длина звука. Дополнительные сведения см. в руководстве по API быстрого транскрибирования.
- Видеотрансляции теперь доступны в службе "Речь ИИ Azure". Дополнительные сведения см. в разделе "Что такое видеотрансляции?".
- Служба "Речь Azure AI" поддерживает текст OpenAI для голосовой речи. Дополнительные сведения см. в разделе "Что такое текст OpenAI для голосов речи?".
- Пользовательский API голосовой связи доступен для создания профессиональных и личных моделей нейронных голосовых моделей и управления ими.
Заметки о выпуске
Выберите службу или ресурс
Выпуск за ноябрь 2024 г.
Расширение Azure AI Speech Toolkit теперь доступно для пользователей Visual Studio Code. Он содержит список кратких запусков речи и примеры сценариев, которые можно легко создать и запустить с помощью простых щелчков мыши. Дополнительные сведения см. в azure AI Speech Toolkit в Visual Studio Code Marketplace.
Пакет SDK для службы "Речь" 1.41.1: выпуск за октябрь 2024 г.
Новые возможности
- Добавлена поддержка Amazon Linux 2023 и Azure Linux 3.0.
- Добавлен идентификатор общедоступного свойства SpeechServiceConnection_ProxyHostBypass, чтобы указать узлы, для которых прокси-сервер не используется.
- Добавлены свойства для управления новыми стратегиями сегментации фраз.
Исправления ошибок
- Исправлена неполная поддержка расширенных моделей распознавания ключевых слов, созданных после августа 2024 года.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Обратите внимание, что при использовании Swift в iOS проект необходимо использовать MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (из https://aka.ms/csspeech/iosbinaryembedded) или pod MicrosoftCognitiveServicesSpeechEmbedded-iOS, включающих поддержку расширенной модели.
- Исправлена утечка памяти в C#, связанная с использованием строк.
- Исправлено, не удается получить SPXAutoDetectSourceLanguageResult из SPXConversationTranscriptionResult в Objective-C и Swift.
- Исправлен случайный сбой при использовании Microsoft Audio Stack в распознавании.
- Исправлены указания типов в Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Исправлено, что не удается получить список голосов TTS при использовании пользовательской конечной точки.
- Исправлена повторная инициализация внедренных TTS для каждого запроса речи при указании голоса коротким именем.
- Исправлена справочная документация по API для максимальной длительности звука RecognizeOnce.
- Исправлена обработка частоты выборки arbitary в JavaScript
- Благодаря rseanhall за этот вклад.
- Исправлена ошибка вычисления смещения звука в JavaScript
- Благодаря motamed за этот вклад.
Критические изменения
- Поддержка распознавания ключевых слов в Windows ARM 32 была удалена из-за требуемой среды выполнения ONNX, недоступной для этой платформы.
Пакет SDK для службы "Речь" версии 1.40: выпуск 2024-август
Примечание.
Пакет SDK службы "Речь" версии 1.39.0 был внутренним выпуском и не отсутствует.
Новые возможности
- Добавлена поддержка потоковой передачи сжатого
G.722
звука в распознавании речи. - Добавлена поддержка шага, скорости и громкости в входной потоковой передаче текста в синтезе речи.
- Добавлена поддержка потоковой передачи текста голосового ввода, введя
PersonalVoiceSynthesisRequest
в синтез речи. Этот API находится в предварительной версии и подлежит изменению в будущих версиях. - Добавлена поддержка диаризации промежуточных результатов при
ConversationTranscriber
использовании. - Удалена поддержка CentOS/RHEL 7 из-за centOS 7 EOL и окончания поддержки обслуживания RHEL 7 2.
- Теперь для использования внедренных моделей речи требуется лицензия на модель, а не ключ модели. Если вы являетесь существующим клиентом встроенной речи и хотите обновить службу поддержки, обратитесь в службу поддержки Майкрософт, чтобы получить подробные сведения об обновлениях моделей.
Исправления ошибок
- Встроенные двоичные файлы пакета SDK службы "Речь" для Windows с флагом _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR в качестве устранения проблемы со средой выполнения Visual C++ с нарушением доступа с std::mutex::lock после обновления до VS 2022 версии 17.10.0 — Сообщество разработчиков (visualstudio.com). Приложения Windows C++ с помощью пакета SDK службы "Речь" могут потребовать применения того же флага конфигурации сборки, если код использует std::mutex (см. сведения о связанной проблеме).
- Исправлено обнаружение OpenSSL 3.x, не работающее в Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- Исправлена проблема, из-за которой при развертывании приложения UWP, библиотек и модели из пакета NUGet MAS не было скопировано в расположение развертывания.
- Исправлен конфликт поставщика содержимого в пакетах Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Исправлены параметры после обработки, которые не применяются к промежуточным результатам распознавания речи.
- Исправлено предупреждение .NET 8 о идентификаторахhttps://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244 конкретной среды выполнения ().
Примеры
- Обновлены внедренные примеры речи, чтобы использовать лицензию модели вместо ключа.
Пакет SDK для службы "Речь" 1.38.0: выпуск за июнь 2024 г.
Новые возможности
- Обновление требований к платформе Linux пакета SDK для службы "Речь"
- Новый минимальный базовый план — Ubuntu 20.04 LTS или совместим с
glibc
2.31 или более поздней версией. - Двоичные файлы для Linux x86 удаляются в соответствии с поддержкой платформы Ubuntu 20.04.
- Обратите внимание, что RHEL/CentOS 7 остается поддерживаемым до 30 июня (конец CentOS 7 и окончание поддержки обслуживания RHEL 7 2). Двоичные файлы для них будут удалены в выпуске пакета SDK для службы "Речь" версии 1.39.0.
- Новый минимальный базовый план — Ubuntu 20.04 LTS или совместим с
- Добавьте поддержку OpenSSL 3 в Linux.
- Добавьте поддержку формата вывода звука g722-16khz-64kbps с синтезатором речи.
- Добавьте поддержку отправки сообщений через объект подключения с синтезатором речи.
- Добавьте API Start/StopKeywordRecognition в Objective-C и Swift.
- Добавьте API для выбора категории пользовательской модели перевода.
- Обновление использования GStreamer с помощью синтезатора речи.
Исправления ошибок
- Исправлена ошибка "Размер сообщения Websocket не может превышать 65 536 байт" во время start/StopKeywordRecognition.
- Исправлена ошибка сегментации Python во время синтеза речи.
Примеры
- Обновление примеров C# для использования .NET 6.0 по умолчанию.
Пакет SDK службы "Речь" 1.37.0: выпуск 2024-апрель
Новые возможности
- Добавьте поддержку потоковой передачи текста ввода в синтез речи.
- Измените голос синтеза речи по умолчанию на en-US-AvaMultilingualNeural.
- Обновите сборки Android, чтобы использовать OpenSSL 3.x.
Исправления ошибок
- Исправьте случайные сбои JVM во время удаления SpeechRecognizer при использовании MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Улучшено обнаружение звуковых устройств по умолчанию в Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Примеры
- Обновлено для новых функций.
Пакет SDK для службы "Речь" 1.36.0: выпуск за март 2024 г.
Новые возможности
- Добавьте поддержку идентификации языка в многоязычном переводе конечных точек версии 2 с помощью AutoDetectSourceLanguageConfig::FromOpenRange().
Исправления ошибок
Исправление события SynthesisCanceled, не запущенное при вызове остановки во время события SynthesisStarted.
Исправлена проблема с шумом во встроенном синтезе речи.
Исправьте сбой во встроенном распознавании речи при параллельном выполнении нескольких распознавателей.
Исправьте параметр режима обнаружения фраз в конечных точках версии 1/2.
Устранены различные проблемы с Microsoft Audio Stack.
Примеры
- Обновления новых функций.
Пакет SDK для службы "Речь" 1.35.0: выпуск за февраль 2024 г.
Новые возможности
- Измените текст по умолчанию на голос речи из en-US-JennyMultilingualNeural на en-US-AvaNeural.
- Поддержка сведений на уровне слова в внедренных результатах перевода речи с помощью подробного формата выходных данных.
Исправления ошибок
- Исправление API получения позиции AudioDataStream в Python.
- Исправление перевода речи с помощью конечных точек версии 2 без обнаружения языка.
- Исправьте случайный сбой и повторяющиеся события границ слова в внедренном тексте в речь.
- Возвращает правильный код ошибки отмены для внутренней ошибки сервера в подключениях WebSocket.
- Исправлена ошибка загрузки библиотеки FPIEProcessor.dll при использовании MAS с C#.
Примеры
- Незначительные обновления форматирования для примеров встроенного распознавания.
Пакет SDK службы "Речь" 1.34.1: выпуск за январь 2024 г.
Критические изменения
- Исправление ошибок только
Новые возможности
- Исправление ошибок только
Исправления ошибок
- Исправлена регрессия, представленная в версии 1.34.0, где URL-адрес конечной точки службы был создан с плохими сведениями о языковом стандарте для пользователей в нескольких регионах Китая.
Пакет SDK для службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.
Критические изменения
SpeechRecognizer
обновляется, чтобы использовать новую конечную точку по умолчанию (то есть, если не явно указывать URL-адрес), который больше не поддерживает параметры строки запроса для большинства свойств. Вместо настройки параметров строки запроса непосредственно с помощью ServicePropertyChannel.UriQueryParameter используйте соответствующие функции API.
Новые возможности
- Совместимость с .NET 8 (исправление за https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 исключением предупреждения о centos7-x64)
- Поддержка встроенных метрик производительности речи, которые можно использовать для оценки возможностей устройства для запуска внедренной речи.
- Поддержка идентификации исходного языка в внедренном многоязычном переводе.
- Поддержка внедренного преобразования речи в текст, текст в речь и перевод для iOS и Swift/Objective-C, выпущенных в предварительной версии.
- Встроенная поддержка предоставляется в MicrosoftCognitiveServicesSpeechEmbeddededed-iOS Cocoapod.
Исправления ошибок
- Исправление для пакета SDK для iOS x2 раз увеличения двоичного размера · Проблема #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Исправление для не удалось получить метки времени времени слова из речи Azure в текстовый API · Проблема #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Исправьте этап уничтожения DialogServiceConnector, чтобы правильно отключить события. Это приводило к сбою иногда.
- Исправлено исключение во время создания распознавателя при использовании MAS.
- FPIEProcessor.dll из пакета NuGet Microsoft.CognitiveServices.Speech.Extension.MAS для Windows UWP x64 и Arm64 имели зависимость от библиотек среды выполнения VC для собственного C++. Проблема была исправлена путем обновления зависимости до исправления библиотек среды выполнения VC (для UWP).
- Исправление для повторяющихся вызовов для распознаванияOnceAsync приводит к SPXERR_ALREADY_INITIALIZED при использовании MAS · Проблема 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Исправлена ошибка встроенного распознавания речи при использовании списков фраз.
Примеры
- Внедренные примеры iOS для преобразования речи в текст, текст для речи и перевода.
Интерфейс командной строки службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.
Новые возможности
- Поддержка выходных данных событий границ слова при синтезе речи.
Исправления ошибок
- Обновлена зависимость JMESPath до последнего выпуска, улучшается оценка строк
Пакет SDK для службы "Речь" 1.33.0: выпуск за октябрь 2023 г.
Уведомление о критических изменениях
- Теперь новый пакет NuGet, добавленный для Microsoft Audio Stack (MAS), должен быть включен приложениями, использующими MAS в файлах конфигурации пакета.
Новые возможности
- Добавлен новый пакет NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, который обеспечивает улучшенную производительность отмены эха при использовании Microsoft Audio Stack
- Оценка произношения: добавлена поддержка просодии и оценки содержимого, которая может оценить речь с точки зрения просодии, словаря, грамматики и темы.
Исправления ошибок
- Исправлено смещение результатов распознавания ключевых слов, чтобы они правильно соответствовали входной звуковой поток с самого начала. Исправление относится как к автономному распознаванию ключевых слов, так и к распознаванию речи, активировав его ключевым словом.
- Исправленная остановка синтезатора не возвращает немедленно метод SPXSpeechSynthesizer stopSpeaking() не может немедленно вернуться в iOS 17 — проблема #2081
- Исправлена проблема импорта катализатора Mac в модуле Swift для mac catalyst с apple silicon. Проблема #1948
- JS: модуль AudioWorkletNode теперь загружает доверенный URL-адрес, а резервный вариант для браузера CDN включает в себя.
- JS: Упакованные файлы lib теперь предназначены для ES6 JS с поддержкой удаленных ES5 JS.
- JS: промежуточные события для сценария перевода, предназначенного для конечной точки версии 2, правильно обрабатываются
- JS: свойство языка для TranslationRecognitionEventArgs теперь устанавливается для событий translation.hypothesis.
- Синтез речи: событие SynthesisCompleted гарантированно создается после всех событий метаданных, поэтому его можно использовать для указания конца событий. Как определить, когда виземы получаются полностью? Проблема #2093 Azure-Samples/cognitive-services-speech-sdk
Примеры
- Добавлен пример для демонстрации потоковой передачи MULAW с помощью Python)
- Исправление примера NAudio для преобразования речи в текст
Интерфейс командной строки службы "Речь" 1.33.0: выпуск за октябрь 2023 г.
Новые возможности
- Поддержка выходных данных событий границ слова при синтезе речи.
Исправления ошибок
- ничего
Пакет SDK для службы "Речь" версии 1.32.1: выпуск за сентябрь 2023 г.
Исправления ошибок
- Обновления пакетов Android с последними исправлениями безопасности из OpenSSL1.1.1v
- JS — свойство WebWorkerLoadType, добавленное для разрешения обхода загрузки URL-адреса данных для рабочей роли времени ожидания
- JS — исправление отключения перевода бесед через 10 минут
- JS — маркер проверки подлинности перевода бесед из беседы теперь распространяется на подключение службы перевода
Примеры
Пакет SDK для службы "Речь" 1.31.0: выпуск за август 2023 г.
Новые возможности
Поддержка диаризации в режиме реального времени доступна в общедоступной предварительной версии с помощью пакета SDK для службы "Речь" 1.31.0. Эта функция доступна в следующих пакетах SDK: C#, C++, Java, JavaScript, Python и Objective-C/Swift.
Синхронизированные события синтеза речи и события viseme с воспроизведением звука
Критические изменения
- Бывший сценарий транскрибирования бесед переименовывается в "транскрибирование собраний". Например, используйте
MeetingTranscriber
вместоConversationTranscriber
него и используйтеCreateMeetingAsync
вместоCreateConversationAsync
него. Хотя имена объектов и методов пакета SDK изменились, переименование не изменяет саму функцию. Используйте объекты транскрибирования собраний для транскрибирования собраний с профилями пользователей и подписями голоса. Дополнительные сведения см . в разделе "Транскрибирование собраний ". Объекты и методы перевода бесед не влияют на эти изменения. Объект и его методы по-прежнему можно использоватьConversationTranslator
для сценариев перевода собраний.
- Для диаризации в режиме реального времени представлен новый
ConversationTranscriber
объект. Новая объектная модель транскрибирования бесед и шаблоны вызовов похожи на непрерывное распознавание сSpeechRecognizer
объектом. Ключевое различие заключается в том, чтоConversationTranscriber
объект предназначен для использования в сценарии беседы, в котором требуется различать несколько динамиков (диаризация). Профили пользователей и голосовые подписи не применимы. Дополнительные сведения см. в кратком руководстве по диаризации в режиме реального времени.
В этой таблице показаны предыдущие и новые имена объектов для диаризации в режиме реального времени и транскрибирования собраний. Имя сценария находится в первом столбце, предыдущие имена объектов находятся во втором столбце, а новые имена объектов находятся в третьем столбце.
Имя сценария | Предыдущие имена объектов | Новые имена объектов |
---|---|---|
Диаризация в режиме реального времени | Н/П | ConversationTranscriber |
Транскрибирование собраний | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1 Объекты Participant
ParticipantChangedReason
и User
объекты применимы как к транскрибированию собраний, так и к сценариям перевода собраний.
2 Объект Meeting
является новым и используется с MeetingTranscriber
объектом.
Исправления ошибок
- Исправлена минимальная поддерживаемая версия macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Исправлена ошибка оценки произношения:
- Устранена проблема с оценкой точности телефонной меры, гарантируя, что они теперь точно отражают только конкретный неправильно пропрогнозированные фонемы. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Устранена проблема, из-за которой функция оценки произношения была неточно идентифицирует совершенно правильные произношения как ошибочное, особенно в ситуациях, когда слова могут иметь несколько допустимых произношений. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Примеры
CSharp
JavaScript
Пакет SDK для службы "Речь" 1.30.0: выпуск за июль 2023 г.
Новые возможности
- C++, C#, Java — добавлена поддержка
DisplayWords
в подробном результате встроенного распознавания речи. - Objective-C/Swift — добавлена поддержка
ConnectionMessageReceived
события в Objective-C/Swift. - Objective-C/Swift — улучшенные модели выявления ключевых слов для iOS. Это изменение увеличило размер определенных пакетов, содержащих двоичные файлы iOS (например, NuGet, XCFramework). Мы работаем над уменьшением размера будущих выпусков.
Исправления ошибок
- Исправлена утечка памяти при использовании распознавателя речи с PhraseListGrammar, как сообщает клиент (проблема GitHub).
- Исправлена взаимоблокировка текста для преобразования речи в API открытых подключений.
Дополнительные заметки
- Java — некоторые внутренние используемые
public
методы API Java были изменены на пакетinternal
protected
илиprivate
. Это изменение не должно влиять на разработчиков, так как мы не ожидаем, что приложения будут использовать их. Отмечается здесь для прозрачности.
Примеры
- Новые примеры оценки произношения о том, как указать язык обучения в собственном приложении
- C#: см . пример кода.
- C++: см . пример кода.
- JavaScript: см . пример кода.
- Objective-C: см . пример кода.
- Python: см . пример кода.
- Swift: см . пример кода.
Пакет SDK для службы "Речь" 1.29.0: выпуск за июнь 2023 г.
Новые возможности
- C++, C#, Java — предварительная версия внедренных API перевода речи. Теперь вы можете выполнять перевод речи без облачного подключения!
- JavaScript — непрерывная идентификация языка (LID) теперь включена для перевода речи.
- JavaScript — вклад сообщества для добавления
LocaleName
свойства вVoiceInfo
класс. Благодарим пользователя GitHub shivsarthak за запрос на вытягивание. - C++, C#, Java — добавлена поддержка повторного преобразования внедренного текста в речь с частотой от 16 кГц до 48 кГц.
- Добавлена поддержка
hi-IN
языкового стандарта в распознаватель намерений с помощью простого сопоставления шаблонов.
Исправления ошибок
- Исправлена авария, вызванная состоянием гонки в Распознаватель речи во время уничтожения объектов, как показано в некоторых наших тестах Android
- Исправлены возможные взаимоблокировки в распознавателье намерений с помощью простого сопоставления шаблонов
Примеры
- Новые примеры перевода внедренных речи
Пакет SDK для службы "Речь" 1.28.0: выпуск за май 2023 г.
Критическое изменение
- Пакет SDK для JavaScript: протокол OCSP (Online Certificate Status Protocol( OCSP) был удален. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.28 и далее больше не будет включать наш пользовательский модуль OCSP.
Новые возможности
- Встроенное распознавание речи теперь возвращается
NoMatchReason::EndSilenceTimeout
, когда время ожидания молчания происходит в конце речевых фрагментов. Это соответствует поведению при распознавании с помощью службы распознавания речи в режиме реального времени. - Пакет SDK для JavaScript: задайте свойства для
SpeechTranslationConfig
использованияPropertyId
значений перечисления.
Исправления ошибок
- C# в Windows — исправление потенциального состояния гонки и взаимоблокировки в расширении звука Windows. В сценариях, которые быстро удаляют средство отрисовки звука, а также используют метод синтезатора для остановки речи, базовое событие не сбрасывается по остановке и может привести к тому, что объект отрисовщика никогда не будет удален, все время как он может хранить глобальную блокировку для удаления, заморозить поток dotnet GC.
Примеры
- Добавлен внедренный образец речи для MAUI.
- Обновлен пример внедренной речи для Android Java, чтобы включить текст в речь.
Пакет SDK для службы "Речь" 1.27.0: выпуск за апрель 2023 г.
Уведомление о предстоящих изменениях
- Мы планируем удалить протокол состояния сертификатов в Интернете (OCSP) в следующем выпуске пакета SDK javaScript. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.27 — это последний выпуск, включающий наш пользовательский модуль OCSP.
Новые возможности
- JavaScript — добавлена поддержка ввода микрофона из браузера с помощью идентификации и проверки говорящего.
- Встроенное распознавание речи — обновление поддержки
PropertyId::Speech_SegmentationSilenceTimeoutMs
параметров.
Исправления ошибок
- Общие — обновления надежности в логике повторного подключения служб (все языки программирования, кроме JavaScript).
- Общие сведения . Исправление утечки памяти строк в Windows (все соответствующие языки программирования, кроме JavaScript).
- Встроенное распознавание речи — исправление сбоя во французском распознавании речи при использовании определенных записей списка грамматики.
- Документация по исходному коду — исправления в справочной документации по пакету SDK, связанные с ведением журнала звука в службе.
- Распознавание намерений— исправление приоритетов сопоставления шаблонов, связанных с сущностями списка.
Примеры
- Правильно обработайте сбой проверки подлинности в примере транскрибирования бесед C# (CTS).
- Добавлен пример оценки произношения потоковой передачи для Python, JavaScript, Objective-C и Swift.
Пакет SDK для службы "Речь" версии 1.26.0: выпуск за март 2023 г.
Критические изменения
- Bitcode отключен во всех целевых объектах iOS в следующих пакетах: Cocoapod с xcframework, NuGet (для Xamarin и MAUI) и Unity. Это изменение связано с прекращением поддержки биткода Apple из Xcode 14 и более поздних версий. Это изменение также означает, что если вы используете Xcode 13 версии или явно включили бит-код в приложении с помощью пакета SDK службы "Речь", может возникнуть ошибка с сообщением "платформа не содержит биткода, и необходимо перестроить его". Чтобы устранить эту проблему, убедитесь, что целевые объекты отключили битовый код.
- Минимальный целевой объект развертывания iOS обновляется до версии 11.0 в этом выпуске, что означает, что armv7 HW больше не поддерживается.
Новые возможности
- Встроенное распознавание речи (на устройстве) теперь поддерживает как 8, так и 16-кГц входной звук частоты выборки (16-разрядный на выборку, моно PCM).
- Синтез речи теперь сообщает о задержках подключения, сети и службы, чтобы помочь в комплексной оптимизации задержки.
- Новые правила нарушения привязки для распознавания намерений с простым сопоставлением шаблонов. Чем больше символов, тем больше байтов, которые совпадают, выиграют над шаблонными совпадениями с нижним числом байтов. Пример: шаблон "Выбрать {что-то} в правом верхнем углу" выиграет "Выбрать {что-то}"
Исправления ошибок
- Синтез речи: исправлена ошибка, из-за которой эмодзи не правильно в событиях границ слова.
- Распознавание намерений с помощью беседы Распознавание речи (CLU):
- Намерения из рабочего процесса оркестратора CLU теперь отображаются правильно.
- Результат JSON теперь доступен с помощью идентификатора
LanguageUnderstandingServiceResponse_JsonResult
свойства.
- Распознавание речи с активацией ключевых слов: исправление отсутствия звука около 150 мс после распознавания ключевых слов.
- Исправление сборки выпуска пакета SDK для службы "Речь" для NuGet iOS MAUI, сообщаемой клиентом (проблема с GitHub)
Примеры
- Исправление примера Swift iOS, сообщаемого клиентом (проблема с GitHub)
Пакет SDK для службы "Речь" 1.25.0: выпуск за январь 2023 г.
Критические изменения
- API-интерфейсы идентификации языка (предварительная версия) были упрощены. Если вы обновляете пакет SDK для службы "Речь" версии 1.25 и видите разрыв сборки, посетите страницу идентификации языка, чтобы узнать о новом свойстве
SpeechServiceConnection_LanguageIdMode
. Это одно свойство заменяет два предыдущихSpeechServiceConnection_SingleLanguageIdPriority
иSpeechServiceConnection_ContinuousLanguageIdPriority
. Приоритет между низкой задержкой и высокой точностью больше не требуется после недавних улучшений модели. Теперь при выполнении непрерывного распознавания речи или перевода необходимо выбрать, следует ли выполнять функцию при запуске или непрерывной идентификации языка.
Новые возможности
- C#/C++/Java: внедренный пакет SDK для службы "Речь" теперь выпущен в общедоступной предварительной версии. См. документацию по внедренной речи (предварительная версия). Теперь вы можете выполнять речь на устройстве с текстом и текстом, если подключение к облаку периодически или недоступно. Поддерживается на платформах Android, Linux, macOS и Windows
- C# MAUI: поддержка, добавленная для целевых объектов iOS и Mac Catalyst в Пакете SDK для службы "Речь" (проблема с клиентом)
- Unity: архитектура Android x86_64 добавлена в пакет Unity (проблема с клиентом)
- Перейти:
- C#/C++: Распознаватель намерений теперь поддерживает модели общения Распознавание речи в C++ и C# с оркестрацией в службе Майкрософт
Исправления ошибок
- Исправление случайного зависания в KeywordRecognizer при попытке остановить его
- Python:
- Исправление для получения результатов оценки произношения при
PronunciationAssessmentGranularity.FullText
установке (проблема с клиентом) - Исправление гендерных свойств для голосов мужчин, которые не извлекаются, при получении голосов синтеза речи
- Исправление для получения результатов оценки произношения при
- JavaScript
- Исправление для синтаксического анализа некоторых WAV-файлов, записанных на устройствах iOS (проблема клиента)
- Пакет SDK для JS теперь создает без использования npm-force-resolutions (проблема с клиентом)
- Переводчик бесед теперь правильно задает конечную точку службы при использовании экземпляра speechConfig, созданного с помощью SpeechConfig.fromEndpoint()
Примеры
Добавлены примеры использования внедренной речи
Добавлен пример речи в текст для MAUI
См . репозиторий примеров пакета SDK службы "Речь".
Пакет SDK для службы "Речь" 1.24.2: выпуск за ноябрь 2022 г.
Новые возможности
- Нет новых функций, просто исправление встроенного ядра для поддержки новых файлов моделей.
Исправления ошибок
- Все языки программирования
- Исправлена проблема с шифрованием внедренных моделей распознавания речи.
Пакет SDK для службы "Речь" 1.24.1: выпуск за ноябрь 2022 г.
Новые возможности
- Опубликованные пакеты для предварительной версии встроенной речи. Дополнительные сведения см. в разделе https://aka.ms/embedded-speech.
Исправления ошибок
- Все языки программирования
- Исправлена ошибка встроенного сбоя TTS, если шрифт голосовой связи не поддерживается
- Исправление stopSpeaking() не может остановить воспроизведение в Linux (#1686)
- Пакет SDK для JavaScript
- Исправлена регрессия в том, как транскрибируемый звук беседы.
- Java
- Временно опубликовано обновленные файлы POM и Javadocs в Maven Central, чтобы конвейер документов мог обновлять справочные документы в Интернете.
- Python
- Исправлена регрессия, из-за которой Python speak_text(ssml) возвращает void.
Пакет SDK для службы "Речь" 1.24.0: выпуск за октябрь 2022 г.
Новые возможности
- Все языки программирования: AMR-WB (16khz), добавленный в поддерживаемый список форматов вывода звука в речь
- Python: пакет, добавленный для Linux Arm64 для поддерживаемых дистрибутивов Linux.
- C#/C++/Java/Python: добавлена поддержка прямой потоковой передачи ALAW и MULAW в службу распознавания речи (в дополнение к существующему потоку PCM).
AudioStreamWaveFormat
- C# MAUI: пакет NuGet обновлен для поддержки целевых объектов Android для разработчиков .NET MAUI (проблема с клиентом)
- Mac: добавлен отдельный XCframework для Mac, который не содержит двоичных файлов iOS. Это позволяет разработчикам, которым требуется только двоичные файлы Mac, используя меньший пакет XCframework.
- Microsoft Audio Stack (MAS):
- При указании углов формирования луча звук, исходящий за пределами указанного диапазона, будет подавляться лучше.
- Примерно на 70 % уменьшается размер
libMicrosoft.CognitiveServices.Speech.extension.mas.so
Linux ARM32 и Linux Arm64.
- Распознавание намерений с помощью сопоставления шаблонов:
- Добавление поддержки орфографии для языков
fr
, ,es
de
jp
- Добавлена предварительно созданная поддержка целочисленного числа для языка
es
.
- Добавление поддержки орфографии для языков
Исправления ошибок
- iOS: исправлена ошибка синтеза речи в iOS 16, вызванная сбоем сжатия звука (проблема клиента).
- JavaScript:
- Исправление маркера проверки подлинности, не работающего при получении голосового списка синтеза речи (проблема клиента).
- Используйте URL-адрес данных для загрузки рабочих ролей (проблема с клиентом).
- Создайте рабочий лет звукового процессора, только если AudioWorklet поддерживается в браузере (проблема с клиентом). Это был вклад сообщества Уильям Вонг. Спасибо Уильяму!
- Исправьте распознанный обратный вызов, если ответ
connectionMessage
LUIS пуст (проблема с клиентом). - Правильно задать время ожидания сегментации речи.
- Распознавание намерений с помощью сопоставления шаблонов:
- Символы, отличные от json, в моделях теперь загружаются должным образом.
- Исправлена проблема с зависанием при
recognizeOnceAsync(text)
вызове во время непрерывного распознавания.
Пакет SDK для службы "Речь" 1.23.0, выпуск июля 2022 г.
новые функции;
- C#, C++, Java: добавлена поддержка языков
zh-cn
иzh-hk
для Распознавания намерений с Сопоставлением шаблонов. - C#: добавлена поддержка сборок платформы
AnyCPU
.NET
Исправления ошибок
- Android: исправлена уязвимость OpenSSL CVE-2022-2068 путем обновления OpenSSL до версии 1.1.1q
- Python: исправление сбоя при использовании PushAudioInputStream
- iOS: исправление "EXC_BAD_ACCESS: попытка разыменования пустого указателя", как указано в iOS (проблема с GitHub)
Пакет SDK для службы "Речь" 1.22.0: выпуск за июнь 2022 г.
новые функции;
- Java: Api IntentRecognitionResult для getEntities(), applyLanguageModels(), и recognizeOnceAsync(text), добавленный для поддержки механизма "простого сопоставления шаблонов".
- Unity: добавлена поддержка Mac M1 (Apple Silicon) для пакета Unity (сообщение о проблеме на GitHub).
- C#: добавлена поддержка архитектур x86 и x64 для Xamarin Android (сообщение о проблеме на GitHub)
- C#: для пакета SDK C# минимальная версия .NET Framework обновлена до версии 4.6.2, так как поддержка версии 4.6.1 прекращена (см. статью Политика жизненного цикла компонентов Microsoft .NET Framework).
- Linux: добавлена поддержка Debian 11 и Ubuntu 22.04 LTS. Для Ubuntu 22.04 LTS требуется ручная установка libssl1.1 либо в виде двоичного пакета (например, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb или более поздней версии для x64), либо путем компиляции из источников.
Исправления ошибок
- UWP: удалена зависимость OpenSSL из библиотек UWP и заменена веб-сокетом WinRT и интерфейсами API HTTP для соответствия требованиям безопасности и уменьшения занимаемой двоичным кодом памяти.
- Mac: исправлена проблема "Модуль MicrosoftCognitiveServicesSpeech Not Found" при использовании проектов Swift, предназначенных для платформы macOS
- Windows и Mac: исправлена связанная с платформой проблема, из-за которой с источниками звука, настроенными с помощью свойств для потоковой передачи в режиме реального времени, происходила задержка, что в конечном итоге приводило к превышению емкости.
Примеры (GitHub)
- C#: примеры для .NET Framework обновлены для использования версии 4.6.2.
- Unity: исправлен пример виртуального помощника для Android и UWP.
- Unity: примеры для Unity обновлены для использования версии Unity 2020 LTS.
Выпуск пакета SDK для службы "Речь" версии 1.21.0 за апрель 2022 года
новые функции;
- Java и JavaScript: добавлена поддержка непрерывной идентификации языка при использовании объекта SpeechRecognizer
- JavaScript: добавлены API диагностики для включения уровня ведения журнала консоли и ведения журнала файлов (только для Node ), что поможет корпорации Майкрософт устранять проблемы, о которых сообщают клиенты.
- Python: добавлена поддержка транскрибирования бесед.
- Go: добавлена поддержка распознавания говорящего.
- C++ и C#: добавлена поддержка требуемой группы слов в распознавателье намерений (простое сопоставление шаблонов). Например: "(set|start|begin) a timer" ((настроить|запустить|включить) таймер), где для распознаваемого намерения должно присутствовать значение "set", "start" или "begin".
- Все языки программирования, синтез речи: добавлено свойство длительности в событиях границ слов. Добавлена поддержка границ пунктуации и границ предложения.
- Objective-C/Swift/Java: добавлены результаты на уровне слов для объекта результата оценки произношения (аналогично C#). Приложению больше не нужно анализировать строку результата JSON для получения сведений на уровне слова (проблема GitHub).
- Платформа iOS: добавлена экспериментальная поддержка архитектуры ARMv7.
Исправления ошибок
- Платформа iOS: исправлена возможность создания целевого объекта "Любое устройство iOS", при использовании CocoaPod (проблема GitHub)
- Платформа Android: версия OpenSSL обновлена до 1.1.1n, благодаря чему устранена уязвимость системы безопасности CVE-2022-0778.
- JavaScript: исправлена проблема, из-за которой заголовок wav не был обновлен с размером файла (проблема GitHub)
- JavaScript: исправлена проблема десинхронизации идентификатора запроса, нарушающая сценарии перевода (проблема GitHub).
- JavaScript: исправлена проблема, возникавшая при создании экземпляра SpeakerAudioDestination без потока (проблема GitHub).
- C++: исправление заголовков C++ для удаления предупреждения при компиляции для C++17 или более поздней версии.
Примеры GitHub
- Новые примеры Java для распознавания речи с определением языка.
- Новые примеры Python и Java для транскрибирования бесед.
- Новый пример кода Go для распознавания говорящего.
- Новое средство C++ и C# для Windows, которое перечисляет все устройства записи звука и отрисовки для поиска идентификатора устройства. Этот идентификатор необходим пакетом SDK службы "Речь", если вы планируете записывать звук из или отрисовывать звук в устройство, отличное от времени.
Пакет SDK для службы "Речь" 1.20.0: выпуск за январь 2022 г.
новые функции;
- Objective-C, Swift и Python. Добавлена поддержка для DialogServiceConnector, используемого для сценариев с голосовым помощником.
- Python. Добавлена поддержка для Python 3.10. Поддержка для Python 3.6 была удалена в соответствии с завершением жизненного цикла версии 3.6.
- Unity. Теперь для приложений Unity в Linux поддерживается пакет SDK для службы "Речь".
- C++, C#. Теперь в C# поддерживается IntentRecognizer с использованием сопоставления шаблонов. Кроме того, в C++ и C# теперь поддерживаются сценарии с пользовательскими сущностями, необязательными группами и ролями сущностей.
- C++, C#. Улучшенное ведение журнала трассировки диагностики с помощью новых классов FileLogger, MemoryLogger и EventLogger. Журналы пакета SDK — это важное средство, используемое корпорацией Майкрософт для диагностики проблем, о которых сообщили клиенты. Эти новые классы упрощают интеграцию журналов пакета SDK для службы "Речь" в собственные системы клиентов для ведения журналов.
- Все языки программирования. Теперь PronunciationAssessmentConfig имеет свойства для задания требуемого алфавита фонем (IPA или SAPI) и числа N лучших фонем (без необходимости создавать конфигурацию JSON в соответствии с проблемой GitHub 1284). Кроме того, теперь поддерживаются выходные данные на уровне слогов.
- Android, iOS и macOS (все языки программирования): GStreamer больше не требуется для поддержки сетей с ограниченной пропускной способностью. SpeechSynthesizer теперь использует возможности декодирования звука операционной системы для декодирования сжатых аудиопотоков из текста в службу речи.
- Все языки программирования: теперь SpeechSynthesizer поддерживает три новых формата Opus для необработанных выходных данных (без контейнера), которые широко используются в сценариях прямой трансляции.
- JavaScript: в SpeechSynthesizer добавлен API getVoicesAsync() для получения списка поддерживаемых синтезированных голосов (проблема GitHub 1350).
- JavaScript: в AudioStreamFormat добавлен API getWaveFormat() для поддержки форматов wave без PCM (проблема GitHub 452).
- JavaScript: в SpeakerAudioDestination добавлены API-интерфейсы методов получения или задания и mute()/unmute() (проблема GitHub 463)
Исправления ошибок
- C++, C#, Java, JavaScript, Objective-C и Swift: исправление для устранения 10-секундной задержки при остановке распознавателя речи, использующего PushAudioInputStream. Это сделано для случая, когда после вызова функции StopContinuousRecognition не поступают новые звуковые данные (проблемы GitHub 1318, 331)
- Unity в Android и UWP: метафайлы Unity были исправлены для UWP, Android Arm64 и подсистема Windows для Android (WSA) Arm64 (проблема GitHub 1360)
- iOS: исправлена компиляция приложения с пакетом SDK для службы "Речь" на любом устройстве iOS при использовании CocoaPods (проблема GitHub 1320)
- iOS: когда SpeechSynthesizer настроен для вывода звука непосредственно на динамик, в редких случаях воспроизведение останавливается в самом начале. Эта проблема устранена.
- JavaScript: использование резервного обработчика скрипта для ввода с микрофона, если не найден список задач для аудио (проблема GitHub 455)
- JavaScript: добавлен протокол в агент для устранения ошибки, обнаруженной при интеграции с версией Sentry (проблема GitHub 465)
Примеры GitHub
- В примерах C++, C#, Python и Java показано, как получить подробные результаты распознавания. Сведения включают альтернативные результаты распознавания, оценку достоверности, лексическую форму, нормализованную форму, маскированную нормализованную форму, с хронометражем на уровне слов для каждого из них.
- Пример iOS добавлен с использованием AVFoundation в качестве внешнего источника звука.
- Пример Java добавлен, чтобы продемонстрировать получение формата SRT (текст в формате SubRip) с помощью события WordBoundary.
- Примеры Androidдля оценки произношения.
- C++, C#, демонстрирующие использование новых классов ведения журнала диагностики.
Пакет SDK для службы "Речь" 1.19.0: выпуска за ноябрь 2021 г.
Ключевые моменты
Служба "Распознавание говорящего" доступна в виде общедоступной версии. API-интерфейсы пакета SDK для службы "Речь" доступны на языках C++, C#, Java и JavaScript. С помощью Распознавания говорящего можно точно проверять и определять говорящих, используя их уникальные характеристики голоса. Дополнительные сведения об этом разделе см. в документации.
Совместно с Azure DevOps и GitHub мы прекратили поддержку Ubuntu 16.04. Срок действия Ubuntu 16.04 истек в апреле 2021 года. Перенос рабочих процессов Ubuntu 16.04 в Ubuntu 18.04 или более поздней версии.
Компоновка OpenSSL в двоичных файлах Linux изменилась на динамическую. Размер двоичного файла Linux сокращен примерно на 50 %.
Добавлена поддержка Mac M1на основе ARM Silicon.
новые функции;
C++/C#/Java. Добавлены новые API для поддержки обработки звука для речевого ввода с помощью Microsoft Audio Stack. Описана в этом документе.
C++. Новые API для распознавания намерений, упрощающие более сложные сопоставления шаблонов. Сюда входят сущности List и Prebuilt Integer, а также поддержка группирования намерений и сущностей в виде моделей (документация, обновления и примеры находятся в стадии разработки и будут опубликованы в ближайшем будущем).
Mac: поддержка кремния на основе Arm64 (M1) для КакаоПод, Python, Java и NuGet, связанных с проблемой GitHub 1244.
iOS/Mac. Двоичные файлы iOS и macOS теперь упаковываются в XCFramework (проблема GitHub 919).
iOS/Mac. Поддержка для Mac Catalyst (проблема GitHub 1171).
Linux. Добавлен новый пакет TAR для CentOS7 О пакете SDK для службы "Речь". Теперь TAR в Linux содержит специальные библиотеки для RHEL/CentOS 7 в
lib/centos7-x64
. Библиотеки пакета SDK для службы "Речь" в lib/x64 по прежнему применимы для всех других поддерживаемых дистрибутивов Linux x64 (включая RHEL/CentOS 8) и не будут работать в RHEL/CentOS 7.JavaScript: VoiceProfile & SpeakerRecognizer API сделал async/awaitable.
JavaScript. Добавлена поддержка для регионов Azure для государственных организаций США.
Windows. Добавлена поддержка для воспроизведения на универсальной платформе Windows (UWP).
Исправления ошибок
Android. Обновление безопасности OpenSSL (обновлено до версии 1.1.1 l) для пакетов Android.
Python. Устранена ошибка, при которой не удается выбрать устройство говорящего в Python.
Core. Автоматическое повторное подключение при неудачной попытке подключения.
iOS. Отключено сжатие звука в пакетах для iOS из-за нестабильности и проблем со сборкой bitcode при использовании GStreamer. Дополнительные сведения: проблема GitHub 1209.
Примеры GitHub
Mac/iOS. Обновленные примеры и краткие руководства по использованию пакета xcframework.
.NET. Примеры обновлены для использования версии .NET Core 3.1.
JavaScript. Добавлен пример для речевых помощников.
Пакет SDK для службы "Речь" 1.18.0. Выпуск за июль 2021 г.
Примечание. Начните работу с пакетом SDK для службы "Речь" здесь.
Краткий обзор
- Срок службы Ubuntu 16.04 истек в апреле 2021 года. С помощью Azure DevOps и GitHub мы откажемся от поддержки 16.04 в сентябре 2021 года. Перенос рабочих процессов ubuntu-16.04 в ubuntu-18.04 или более поздней версии до этого.
новые функции;
- C++ . Благодаря простому сопоставлению шаблонов языка с распознавателем намерения теперь проще реализовать простые сценарии распознавания намерения.
- C++/C#/Java. Мы добавили новый API
GetActivationPhrasesAsync()
в классVoiceProfileClient
для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания.- Важно! Возможность Распознавания говорящего доступна в предварительной версии. Поддержка всех речевых профилей, созданных в предварительной версии, будет прекращена через 90 дней после того, как возможность Распознавания говорящего будет переведена из режима предварительной версии в общую доступность. На этом этапе речевые профили предварительной версии перестанут работать.
- Python. Добавлена поддержка непрерывного определения языка для имеющихся объектов
SpeechRecognizer
иTranslationRecognizer
. - Python. Добавлен новый объект Python с именем
SourceLanguageRecognizer
для однократного или непрерывного определения языка (без распознавания или перевода). - JavaScript. API
getActivationPhrasesAsync
был добавлен в классVoiceProfileClient
для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания. - JavaScript. Теперь API
enrollProfileAsync
вVoiceProfileClient
является асинхронным ожидающим. См . этот независимый код идентификации, например использование.
Улучшения
- Java. Поддержка AutoCloseable добавлена во многие объекты Java. Теперь модель try-with-resources поддерживается для освобождения ресурсов. См. этот пример с использованием try-with-resources. Дополнительные сведения об этом шаблоне см. в учебнике по Oracle Java для инструкции try-with-resources.
- Занимаемая память диска значительно уменьшилась для многих платформ и архитектур. Примеры двоичного
Microsoft.CognitiveServices.Speech.core
файла: x64 Linux меньше 475 КБ (сокращение на 8,0%). Arm64 Windows UWP меньше 464 КБ (сокращение на 11,5%). x86 Windows меньше 343 КБ (сокращение на 17,5%). и x64 Windows меньше 451 КБ (сокращение на 19,4%).
Исправления ошибок
- Java. Исправлена ошибка синтеза, при которой текст синтеза содержит суррогатные символы. Подробные сведения см. здесь.
- JavaScript. При обработке аудио с микрофона в браузере теперь используется
AudioWorkletNode
вместо устаревшегоScriptProcessorNode
. Подробные сведения см. здесь. - JavaScript. Правильная поддержка беседы в активном состоянии во время длительных сценариев перевода бесед. Подробные сведения см. здесь.
- JavaScript. Исправлена проблема повторного подключения распознавателя к MediaStream при постоянном распознавании. Подробные сведения см. здесь.
- JavaScript. Исправлена проблема повторного подключения распознавателя к pushStream при постоянном распознавании. Подробные сведения см. здесь.
- JavaScript. Исправлено вычисление смещения на уровне слов в подробных результатах распознавания. Подробные сведения см. здесь.
Примеры
- Обновленные примеры краткого руководства для Java см. здесь.
- Примеры распознавания говорящего JavaScript обновлены с учетом нового использования
enrollProfileAsync()
. Примеры см. здесь.
Пакет SDK для службы "Речь" 1.17.0. Выпуск за май 2021 г.
Примечание
Начните работу с пакетом SDK службы "Речь" здесь.
Краткий обзор
- Уменьшена занимаемая память. Мы продолжаем уменьшать объем памяти и места на диске, занимаемое пакетом SDK для службы "Речь" и его компонентами.
- Новый автономный API идентификации языка позволяет узнать, на каком языке говорят.
- С помощью Unity в macOS разработанные речевые модели внедрены в приложения смешанной реальности и игровые приложения.
- Теперь вы можете использовать текст для речи в дополнение к распознаванию речи на языке программирования Go.
- Несколько исправлений устраняют проблемы, отмеченные на GitHub ВАМИ, нашими ценными клиентами. СПАСИБО. Поделитесь с нами своими впечатлениями.
новые функции;
- C++/C#: новое автономное на момент начала и непрерывное распознавание языка посредством API
SourceLanguageRecognizer
. Определить языки аудио содержимого можно с помощью API. См. дополнительные сведения о C++ и C#. - C++/C#: распознавание речи и распознавание перевода теперь поддерживают как при запуске, так и непрерывную идентификацию языка, чтобы программно определить, какие языки говорятся перед их транскрибированием или переводом. См. документацию по распознаванию речи здесь и по переводу речи здесь.
- C#: добавлена поддержка Unity в macOS (x64). Это разблокирует случаи использования распознавания и синтеза речи в смешанной реальности и играх!
- Go: Мы добавили поддержку синтеза речи для речи на языке программирования Go, чтобы сделать синтез речи доступным в еще большем случае. Ознакомьтесь с кратким руководством или справочной документацией.
- C++/C#/Java/Python/Objective-C/Go: синтезатор речи теперь поддерживает объект
connection
. Он помогает отслеживать подключение к службе "Речь" и управлять им, а также рекомендуется для предварительного подключения в целях сокращения задержки. См. документацию здесь. - C++/C#/Java/Python/Objective-C/Go: теперь в
SpeechSynthesisResult
стало доступным время задержки и опустошения, применяемое для отслеживания и диагностики проблем с задержкой синтеза речи. Дополнительные сведения по C++, C#, Java, Python, Objective-C и Go. - C++/C#/Java/Python/Objective-C: текст для речи теперь использует нейронные голоса по умолчанию, если не указать используемый голос. По умолчанию это дает более точный результат, но также увеличивает цену по умолчанию. Вы можете указать любой из наших более 70 стандартных голосов или более 130 нейронных голосов, чтобы изменить голос по умолчанию.
- C++/C#/Java/Python/Objective-C/Go: к информации о синтезе голоса добавлено свойство "Пол", чтобы упростить выбор голоса на основе пола. Это решает проблему GitHub #1055.
- C++, C#, Java, JavaScript: в распознавании говорящего теперь поддерживается
retrieveEnrollmentResultAsync
,getAuthorizationPhrasesAsync
иgetAllProfilesAsync()
для упрощения управления всеми голосовыми профилями конкретной учетной записи. См. документацию по C++, C#, Java, JavaScript. Это решает проблему GitHub #338. - JavaScript: мы добавили повторную попытку при сбоях подключения, что сделает приложения речи на основе JavaScript более надежными.
Улучшения
- Двоичные файлы Linux и Android пакета SDK для службы обновлены для использования последней версии OpenSSL (1.1.1 k)
- Улучшения размера кода:
- Распознавание речи теперь разбивается на отдельную библиотеку "lu".
- Основной двоичный файл для Windows x64 уменьшился на 14,4 %.
- Размер двоичного файла Android Arm64 снизился на 13,7%.
- размер других компонентов также уменьшился.
Исправления ошибок
- Все: исправлена ошибка GitHub #842, связанные с параметром ServiceTimeout. Теперь вы можете транскрибировать длинные звуковые файлы с помощью пакета SDK службы "Речь" без подключения к службе, завершающейся этой ошибкой. Однако для длинных файлов по-прежнему рекомендуется использовать пакетное транскрибирование.
- C# : исправлена ошибка GitHub #947, при которой речевой ввод не может привести к некорректному состоянию приложения.
- Java: исправлена ошибка GitHub № 997, из-за которой пакет SDK Речи для Java 1.16 с Java аварийно завершал работу при использовании параметра DialogServiceConnector без сетевого подключения или недопустимого ключа подписки.
- Исправлено аварийное завершение при внезапной остановке операции распознавания речи (например, с помощью клавиш CTRL+C в консольном приложении).
- Java: добавлено исправление для удаления временных файлов в Windows при использовании пакета SDK Речи для Java.
- Java: исправлена ошибка GitHub #994, при которой вызов
DialogServiceConnector.stopListeningAsync
может привести к ошибке. - Java: исправлена проблема с клиентом в кратком руководстве по виртуальному помощнику.
- JavaScript: Исправлена проблема GitHub #366 , из-за
ConversationTranslator
которой возникла ошибка "this.cancelSpeech не является функцией". - JavaScript: исправлена ошибка GitHub #298, когда в примере "Получить результат как поток в памяти" воспроизводился звук.
- JavaScript: исправлена проблема GitHub #350 , при которой вызов
AudioConfig
может привести к ошибке ReferenceError: MediaStream не определен. - JavaScript: исправлено предупреждение UnhandledPromiseRejection в Node.js для длительных сеансов.
Примеры
- Обновленная документация с примерами Unity для macOS представлена здесь.
- Пример React Native для службы распознавания речи искусственного интеллекта Azure теперь доступен здесь.
Пакет SDK для службы "Речь" 1.16.0. Выпуск за март 2021 г.
Примечание
Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Его можно скачать здесь.
новые функции;
- C++/C#/Java/Python: перенесено в новейшую версию GStreamer (1.18.3), чтобы добавить поддержку транскрибирования любого формата мультимедиа в Windows, Linux и Android. См. документацию здесь.
- C++/C#/Java/Objective-C/Python: в пакет SDK добавлена поддержка декодирования сжатого TTS/синтезированного звука. Если задан выходной звуковой формат PCM, и GStreamer доступен в системе, пакет SDK будет автоматически запрашивать сжатый звук из службы, чтобы сэкономить пропускную способность и декодировать звук в клиенте. Чтобы отключить эту функцию, задайте для параметра
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
значениеfalse
. Сведения для C++, C#, Java, Objective-C, Python. - JavaScript: пользователи Node.js теперь могут использовать
AudioConfig.fromWavFileInput
API. Это решает проблему GitHub #252. - C++/C#/Java/Objective-C/Python: добавлен метод
GetVoicesAsync()
для TTS, для возврата всех доступных голосов синтеза. Сведения для C++, C#, Java, Objective-C и Python. - C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие
VisemeReceived
для TTS/синтеза речи, для возврата синхронной анимации висеме. См. документацию здесь. - C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие
BookmarkReached
для TTS. Можно задать закладки во входном SSML и сформировать смещения звука для каждой закладки. См. документацию здесь. - Java: добавлена поддержка для API распознавания говорящего. Подробные сведения см. здесь.
- C++/C#/Java/JavaScript/Objective-C/Python: добавлены два новых выходных звуковых формата с контейнером WebM для TTS (Webm16Khz16BitMonoOpus и Webm24Khz16BitMonoOpus). Это более эффективные форматы для потоковой передачи звука с использованием кодека Opus. Сведения для C++, C#, Java, JavaScript, Objective-C, Python.
- C++/C#/Java: добавлена поддержка извлечения голосового профиля для сценария распознавания говорящего. Сведения для C++, C# и Java.
- C++/C#/Java/Objective-C/Python: добавлена поддержка отдельной общедоступной библиотеки для управления звуковым микрофоном и динамиком. Это позволяет разработчику использовать пакет SDK в средах, которые не имеют необходимых зависимостей аудио библиотеки.
- Objective-C/Swift: добавлена поддержка платформы модулей с зонтичным заголовком. Это дает возможность разработчику импортировать Пакет SDK для службы "Речь" как модуль в приложениях iOS/Mac Objective-C/Swift. Это решает проблему GitHub #452.
- Python: добавлена поддержка для Python 3.9 и удалена поддержка для Python 3.5 в конце жизненного цикла Python 3.5.
Известные проблемы
- C++/C#/Java:
DialogServiceConnector
не может использоватьCustomCommandsConfig
приложение пользовательских команд и вместо этого столкнется с ошибкой подключения. Этого можно избежать, вручную добавив в запрос идентификатор приложения с помощьюconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. Ожидаемое поведениеCustomCommandsConfig
будет восстановлено в следующем выпуске.
Улучшения
- В рамках работ, охватывающих несколько выпусков, которые призваны сократить использование памяти и дискового пространства пакетом SDK для службы "Речь", размер двоичных файлов Android уменьшен на 3–5 %.
- Улучшены точность, читаемость и содержащие ссылки разделы справочной документации по C#, которая доступна здесь.
Исправления ошибок
- JavaScript: теперь для больших заголовков файлов WAV выполняется корректный синтаксический анализ (срез заголовка увеличен до 512 байт). Это решает проблему GitHub #962.
- JavaScript: устранена ошибка синхронизации микрофона, возникавшая, если микрофонный поток заканчивался до прекращения распознавания. Это решает проблему с неработающим распознаванием речи в браузере Firefox.
- JavaScript: обеспечена корректная обработка обещания инициализации в ситуациях, когда браузер принудительно отключает микрофон до завершения включения.
- JavaScript: зависимость URL-адреса заменена синтаксическим разбором. Это решает проблему GitHub #264.
- Android: устранена ошибка обратных вызовов, которые не работали, если для параметра
minifyEnabled
было задано значение True. - C++/C#/Java/Objective-C/Python:
TCP_NODELAY
будет корректно настраиваться на базовый сокет ввода-вывода TTS для сокращения задержки. - C++/C#/Java/Python/Objective-C/Go: устранен случайный сбой, при котором распознаватель уничтожался сразу после начала распознавания.
- C++/C#/Java: устранен случайный сбой с уничтожением распознавателя говорящего.
Примеры
- JavaScript: для примеров браузера впредь не требуется отдельная загрузка файла библиотеки JavaScript.
Пакет SDK для службы "Речь" 1.15.0: Выпуск за январь 2021 г.
Примечание
Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Его можно скачать здесь.
Краткий обзор
- Сокращение требуемого объема памяти и места на диске делает пакет SDK более эффективным.
- Для закрытой предварительной версии Пользовательского нейронного голоса доступны усовершенствованные форматы вывода.
- Распознаватель намерения теперь способен возвращать более детализированные намерения. Это дает возможность выполнять отдельную оценку намерения клиента.
- Голосовые помощники и боты теперь проще в настройке; можно немедленно прекращать прослушивание и четче контролировать реакцию на ошибки.
- Сжатие стало необязательным, благодаря чему повысилась производительность устройств.
- Используйте пакет SDK службы "Речь" в Windows ARM/Arm64.
- Усовершенствована отладка на низком уровне.
- Функция оценки произношения стала более широкодоступной.
- Несколько исправлений устраняют проблемы, отмеченные на GitHub ВАМИ, нашими ценными клиентами. СПАСИБО. Поделитесь с нами своими впечатлениями.
Улучшения
- Пакет SDK для службы "Речь" стал более эффективным и компактным. Мы начали работу, охватывающую несколько выпусков, чтобы сократить потребность пакета SDK для службы "Речь" в памяти и дисковом пространстве. В качестве первого шага мы значительно сократили размер файлов в общедоступных библиотеках на большинстве платформ. По сравнению с выпуском 1.14:
- библиотеки Windows, совместимые с 64-bit UWP, меньше по размеру примерно на 30 %;
- 32-разрядные библиотеки Windows пока не видят улучшения размера.
- библиотеки Linux меньше по размеру на 20–25 %;
- библиотеки Android меньше по размеру на 3–5 %.
новые функции;
- Все: новые форматы выходных данных 48 КГц, доступные для частной предварительной версии пользовательского нейронного голоса через API синтеза речи TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- Все: пользовательский голос также стал проще в использовании. Добавлена поддержка настройки пользовательского голоса через
EndpointId
(C++, C#, Java, JavaScript, Objective-C, Python). Перед внесением этого изменения пользователям пользовательского голоса требовалось задавать URL-адрес конечной точки, используя методFromEndpoint
. Теперь клиенты могут использовать методFromSubscription
так же, как предварительно созданные голоса, и указывать идентификатор развертывания, задавая параметрEndpointId
. Это упрощает настройку пользовательских голосов. - C++/C#/Java/Objective-C/Python: получение из
IntentRecognizer
не только информации об общем намерении. Теперь поддерживается настройка результата JSON, содержащего все намерения, а не только намерение с самой высокой оценкой, посредством методаLanguageUnderstandingModel FromEndpoint
, с помощью параметра URIverbose=true
. Это решает проблему GitHub #880. См. обновленную документацию здесь. - C++/C#/Java: команда немедленно прерывать прослушивание для голосового помощника или бота. В
DialogServiceConnector
(C++, C#, Java) теперь имеется методStopListeningAsync()
в дополнение кListenOnceAsync()
. Это действие будет немедленно останавливать захват аудио и корректно дожидаться результата, благодаря чему оно идеально подходит для использования с нажатием кнопки "Остановить сейчас". - C++/C#/Java/JavaScript: более четкая реакция голосового помощника или бота на базовые системные ошибки. В
DialogServiceConnector
(C++, C#, Java, JavaScript) теперь имеется новый обработчик событийTurnStatusReceived
. Эти необязательные события соответствуют каждому разрешениюITurnContext
в боте и будут сообщать о сбоях при выполнении, например в результате необработанного исключения, истечения времени ожидания или сетевого сброса между Direct Line Speech и ботом.TurnStatusReceived
упрощает реагирование на условия сбоя. Например, если бот отнимает слишком много времени в запросе серверной базы данных (например, при поиске продукта), с помощьюTurnStatusReceived
клиент может узнать о необходимости повторного запроса, получив примерно такое сообщение: "Простите, информация не вполне ясна, не могли бы вы повторить". - C++/C# : использование Пакета SDK для службы "Речь" на большем количестве платформ. Пакет NuGet для службы "Речь" теперь поддерживает собственные двоичные файлы Windows ARM/Arm64 (UWP уже поддерживается), чтобы сделать пакет SDK службы "Речь" более полезным для других типов компьютеров.
- Java: в
DialogServiceConnector
теперь имеется методsetSpeechActivityTemplate()
, непреднамеренно исключенный из языка ранее. Это эквивалентно заданию свойстваConversation_Speech_Activity_Template
и будет запрашивать, чтобы все будущие действия Bot Framework, инициированные службой Direct Line Speech, объединяли предоставляемое содержимое в своих полезных данных JSON. - Java: усовершенствована отладка на низком уровне. В классе
Connection
теперь есть событиеMessageReceived
, аналогичное другим языкам программирования (C++, C#). Это событие обеспечивает низкоуровневый доступ к входящим данным от службы и может быть полезно для целей диагностики и отладки. - JavaScript: упрощена настройка Голосовых помощников и ботов с помощью
BotFrameworkConfig
, где теперь имеются фабричные методыfromHost()
иfromEndpoint()
, упрощающие использование обнаружения пользовательских служб в сравнении с настройкой свойств вручную. Также стандартизована необязательная спецификацияbotId
для использования бота, отличного от используемого по умолчанию, между фабриками конфигурации. - JavaScript: повышена производительность на устройствах за счет добавления свойства контроля строки для сжатия WebSocket. Исходя из соображений производительности, мы отключили сжатие WebSocket по умолчанию. Его можно снова включать для сценариев с низкой пропускной способностью. Дополнительные сведения см. здесь. Это решает проблему GitHub #242.
- JavaScript: добавлена поддержка оценки произношения, что дает возможность оценить произношение в речи. См. краткое руководство здесь.
Исправления ошибок
- Все (кроме JavaScript): исправлена регрессия в версии 1.14, вследствие которой распознаватель выделял слишком много ресурсов памяти.
- C++ : исправлена ошибка сборки мусора, связанная с
DialogServiceConnector
, что устраняет проблему GitHub #794. - C# : исправлена проблема с завершением работы потока, из-за которой объекты блокировались примерно на секунду при удалении.
- C++/C#/Java: исправлено исключение, из-за которого приложению не удавалось задать маркер авторизации речи или шаблон действия более одного раза в
DialogServiceConnector
. - C++/C#/Java: устранен сбой распознавателя из-за состояния гонки в деинициализации.
- JavaScript:
DialogServiceConnector
ранее не учитывал необязательный параметрbotId
, указанный в фабрикахBotFrameworkConfig
. Из-за этого требовалось задавать параметр строки запросаbotId
вручную для использования бота, отличного от используемого по умолчанию. Ошибка исправлена, и значенияbotId
, предоставленные фабрикамBotFrameworkConfig
, будут учитываться и использоваться, включая новые добавленияfromHost()
иfromEndpoint()
. Это также относится к параметруapplicationId
дляCustomCommandsConfig
. - JavaScript: устранена проблема 881 в GitHub, что дает возможность повторно использовать объект распознавателя.
- JavaScript: устранена проблема, вследствие которой SKD отправлял
speech.config
несколько раз в одном сеансе TTS, что приводило к непродуктивному расходу пропускной способности. - JavaScript: упрощенная обработка ошибок при авторизации микрофона, что позволяет более описательное сообщение пузыриться, когда пользователь не разрешил входные данные микрофона в браузере.
- JavaScript: исправлена ошибка GitHub #249, вследствие которой ошибки в
ConversationTranslator
иConversationTranscriber
вызывали ошибку компиляции для пользователей TypeScript. - Objective-C: устранена проблема, вследствие которой происходил сбой сборки GStreamer для iOS в Xcode 11.4, что устраняет проблему GitHub #911.
- Python: устранена проблема GitHub #870, благодаря чему удалено сообщение "DeprecationWarning: the imp module is deprecated in favor of importlib".
примеры
- В примере из файла для браузера JavaScript теперь используются файлы для распознавания речи. Это решает проблему GitHub #884.
Пакет SDK для службы "Речь" 1.14.0. Выпуск за октябрь 2020 г.
Примечание
Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Его можно скачать здесь.
новые функции;
- Linux: добавлена поддержка Debian 10 и Ubuntu 20.04 LTS.
- Python/Objective-C: добавлена поддержка API
KeywordRecognizer
. Документация будет доступна здесь. - C++/Java/C# : добавлена поддержка задания любых ключей/значений
HttpHeader
черезServicePropertyChannel::HttpHeader
. - JavaScript: добавлена поддержка API
ConversationTranscriber
. Изучите документацию здесь. - C++/C# : добавлен новый метод
AudioDataStream FromWavFileInput
(для чтения файлов .WAV), доступный здесь (C++) и здесь (C#). - C++/C#/Java/Python/Objective-C/Swift: добавлен
stopSpeakingAsync()
метод для остановки синтеза текста в речь. См. справочную документацию здесь (C++), здесь (C#), здесь (Java), здесь (Python) и здесь (Objective-C/Swift). - C#, C++, Java: добавлена функция
FromDialogServiceConnector()
в классеConnection
, которой можно пользоваться в целях мониторинга событий подключения и отключения дляDialogServiceConnector
. См. справочную документацию здесь (C#), здесь (C++) и здесь (Java). - C++/C#/Java/Python/Objective-C/Swift: добавлена поддержка функции оценки произношения, которая оценивает произношение и дает отзыв о точности и плавности речи говорящего. Изучите документацию здесь.
Критическое изменение
- JavaScript: для PullAudioOutputStream.read() тип возвращаемого значения изменен с внутреннего обещания на собственное обещание JavaScript.
Исправления ошибок
- Все: исправлена регрессия 1.13 в
SetServiceProperty
, вследствие которой игнорировались значения с определенными специальными символами. - C# : исправлены примеры консоли Windows в Visual Studio 2019, в которых возникал сбой нахождения собственных библиотек DLL.
- C# : устранен сбой в управлении памятью, который возникал, если поток использовался в качестве входных данных
KeywordRecognizer
. - ObjectiveC/Swift: устранен сбой в управлении памятью, возникавший, если поток использовался в качестве входных данных распознавателя.
- Windows: устранена проблема сосуществования с BT HFP/A2DP на UWP.
- JavaScript: скорректировано сопоставление идентификаторов сеансов для оптимизации ведения журналов и поддержки внутренних корреляций отладки/служб.
- JavaScript: добавлено исправление для
DialogServiceConnector
, отключающее вызовыListenOnce
после первого вызова. - JavaScript: устранена проблема, вследствие которой выходной результат мог иметь только формат Simple.
- JavaScript: исправлена проблема непрерывного распознавания в Safari на macOS.
- JavaScript: выполнена миграция нагрузки ЦП для сценария с высокой пропускной способностью запросов.
- JavaScript: разрешен доступ к сведениям о результатах регистрации речевого профиля.
- JavaScript: добавлено исправление для непрерывного распознавания в
IntentRecognizer
. - C++/C#/Java/Python/Swift/ObjectiveC: исправлен некорректный URL-адрес для australiaeast и brazilsouth в
IntentRecognizer
. - C++/C# :
VoiceProfileType
добавлен в качестве аргумента при создании объектаVoiceProfile
. - C++/C#/Java/Python/Swift/ObjectiveC: исправлен потенциальный
SPX_INVALID_ARG
при попытке считыванияAudioDataStream
из заданной позиции. - IOS: исправлен сбой при распознавании речи в Unity
примеры
- ObjectiveC: добавлен пример распознавания ключевого слова, доступный здесь.
- C#/JavaScript: добавлено краткое руководство по транскрибированию бесед, доступное здесь (C#) и здесь (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: добавлен пример оценки произношения, доступный здесь
Известная проблема
- Сертификат DigiCert Global Root G2 не поддерживается по умолчанию в HoloLens 2 и Android 4.4 (KitKat) и должен быть добавлен в систему, чтобы пакет SDK для службы "Речь" функционировал. Сертификат будет добавлен в образы ОС HoloLens 2 уже в ближайшем будущем. Клиентам Android 4.4 необходимо добавить обновленный сертификат в систему.
Усеченное тестирование в связи с COVID-19
Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. В том маловероятном случае, если мы что-либо упустили из виду, сообщите нам об этом на GitHub.
Будьте здоровы!
Пакет SDK для службы "Речь" 1.13.0. Выпуск за июль 2020 г.
Примечание
Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Скачайте и установите приложение отсюда.
новые функции;
- C# : добавлена поддержка асинхронного транскрибирования бесед. См. документацию здесь.
- JavaScript: включена поддержка распознавания говорящего для браузера и Node.js.
- JavaScript: добавлена поддержка функции идентификации языка и идентификатора языка. См. документацию здесь.
- Objective-C: добавлена поддержка беседы с несколькими устройствами и транскрибирования бесед.
- Python: добавлена поддержка сжатого звука для Python в Windows и Linux. См. документацию здесь.
Исправления ошибок
- Все: исправлена проблема, вследствие которой KeywordRecognizer не перенаправлял потоки после распознавания.
- Все: исправлена проблема, из-за которой поток, полученный из KeywordRecognitionResult, не содержал ключевое слово.
- Все. Исправлена проблема, из-за которой sendMessageAsync не отправлял сообщение по проводу после того, как пользователи завершат ожидание.
- Все: устранен сбой в API распознавания говорящего, который возникал, когда пользователи вызывали метод VoiceProfileClient:SpeakerRecEnrollProfileAsync несколько раз и не дожидались завершения вызовов.
- Все: исправлено разрешение на ведение журнала файлов в классах VoiceProfileClient и SpeakerRecognizer.
- JavaScript: устранена проблема с регулированием полосы пропускания при сворачивании браузера.
- JavaScript: устранена проблема с утечкой памяти в потоках.
- JavaScript: добавлено кэширование для ответов OCSP из NodeJS.
- Java: устранена проблема, приводившая к тому, что поля BigInteger всегда возвращали 0.
- iOS: исправлена проблема с публикацией приложений на основе Пакета SDK для службы "Речь" в магазине приложений iOS.
примеры
- C++ : добавлен пример кода для распознавания говорящего, который доступен здесь.
Усеченное тестирование в связи с COVID-19
Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. В том маловероятном случае, если мы что-либо упустили из виду, сообщите нам об этом на GitHub.
Будьте здоровы!
Пакет SDK для службы "Речь" 1.12.1. Выпуск за июнь 2020 г.
новые функции;
- C#, C++: предварительная версия Распознавания говорящего. Эта функция включает идентификацию говорящего (кто говорит?) и проверку говорящего (является ли он тем, кем себя называет?). Ознакомьтесь с документацией по обзору.
Исправления ошибок
- C#, C++: фиксированная запись микрофона не работала в версии 1.12 в распознавании говорящего.
- JavaScript: исправление речи текста в Firefox и Safari в macOS и iOS.
- Устранена ошибка нарушения прав доступа в инструменте проверки приложений Windows при транскрибировании бесед с использованием восьмиканального потока.
- Устранена ошибка нарушения прав доступа в инструменте проверки приложений Windows при переводе бесед на нескольких устройствах.
примеры
- C#: пример кода для Распознавания говорящего.
- C++: пример кода для Распознавания говорящего.
- Java: пример кода для распознавания намерений в Android.
Усеченное тестирование в связи с COVID-19
Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. В том маловероятном случае, если мы что-либо упустили из виду, сообщите нам об этом на GitHub.
Будьте здоровы!
Пакет SDK для службы "Речь" 1.12.0. Выпуск за май 2020 г.
новые функции;
- Go: новая языковая поддержка Go для распознавания речи и пользовательского голосового помощника. Настройте среду разработки здесь. Пример кода см. в разделе примеров ниже.
- JavaScript: добавлена поддержка браузера для преобразования текста в речь. См. документацию здесь.
- C++, C#, Java: новый объект
KeywordRecognizer
и API, поддерживаются на платформах Windows, Android, Linux и iOS. Изучите документацию здесь. Пример кода см. в разделе примеров ниже. - Java: добавлена беседа с участием нескольких устройств с поддержкой перевода. См. справочную документацию здесь.
Улучшения и оптимизации
- JavaScript. оптимизирована реализация микрофона браузера, благодаря чему улучшается точность распознавания речи.
- Java: выполнен рефакторинг привязок с использованием прямой реализации JNI без SWIG. Это изменение в 10 раз сокращает размер привязок для всех пакетов Java, используемых для Windows, Android, Linux и Mac, и упрощает дальнейшую разработку реализации Пакета SDK для службы "Речь" в Java.
- Linux: обновлена документация поддержки, в нее включены новейшие комментарии к RHEL 7.
- Улучшена логика подключения для многократных попыток подключения при возникновении ошибок в службе и сети.
- Обновлена страница краткого руководства по portal.azure.com распознаванию речи, чтобы помочь разработчикам выполнить следующий шаг в пути распознавания речи искусственного интеллекта Azure.
Исправления ошибок
- C#, Java: устранена проблема с загрузкой библиотек SDK на ARM Linux (в обоих вариантах: 32 bit и 64 bit).
- C#: скорректирована проблема явного удаления собственных дескрипторов для объектов TranslationRecognizer, IntentRecognizer и Connection.
- C# : скорректировано управление временем существования звукового ввода для объекта ConversationTranscriber.
- Исправлена проблема, из-за
IntentRecognizer
которой причина результата не была задана должным образом при распознавании намерений из простых фраз. - Исправлена проблема, из-за которой
SpeechRecognitionEventArgs
смещение результата не было задано правильно. - Исправлено состояние гонки, в котором пакет SDK пытался отправить сетевое сообщение до открытия подключения WebSocket. Воспроизводилось для
TranslationRecognizer
во время добавления участников. - Скорректированы утечки памяти в подсистеме распознавателя ключевых слов.
примеры
- Go: добавлены краткие руководства для распознавания речи и пользовательского голосового помощника. Пример кода можно найти здесь.
- JavaScript: добавлены краткие руководства по распознаванию речи, перевода и намерения.
- Примеры распознавания ключевых слов для C# и Java (Android).
Усеченное тестирование в связи с COVID-19
Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. Если мы пропустили что-нибудь, сообщите нам об этом на GitHub.
Будьте здоровы!
Пакет SDK для службы "Речь" 1.11.0. Выпуск за март 2020 г.
новые функции;
- Linux: добавлена поддержка Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: добавлена поддержка .NET Core C# в Linux ARM32 и Arm64. Дополнительные сведения см. здесь.
- C#, C++: добавлен
UtteranceId
вConversationTranscriptionResult
, единообразный идентификатор для всех промежуточных и конечных результатов распознавания речи. Подробная информация для C#, C++. - Python: добавлена поддержка для
Language ID
. См. speech_sample.py в репозитории GitHub. - Windows: добавлена поддержка сжатого формата звукового ввода на платформе Windows для всех консольных приложений Win32. Подробные сведения см. здесь.
- JavaScript: поддержка синтеза речи (текста в речь) в NodeJS. Дополнительные сведения см. здесь.
- JavaScript: добавлены новые API для возможности проверки всех отправленных и полученных сообщений. Дополнительные сведения см. здесь.
Исправления ошибок
- C#, C++: исправлена проблема, благодаря чему
SendMessageAsync
теперь отправляет двоичное сообщение в двоичном формате. Подробная информация для C#, C++. - C#, C++: исправлена проблема, из-за которой использование события
Connection MessageReceived
могло вызвать сбой, еслиRecognizer
удалялось до объектаConnection
. Подробная информация для C#, C++. - Android: размер буфера аудиоданных с микрофона уменьшен с 800 до 100 мс для оптимизации задержки.
- Android: исправлена проблема с эмулятором Android для x86 в Android Studio.
- JavaScript: добавлена поддержка регионов в Китае с API
fromSubscription
. Подробные сведения см. здесь. - JavaScript: добавлены дополнительные сведения об ошибках, касающиеся сбоев подключения из NodeJS.
примеры
- Unity: исправлен общедоступный пример распознавания намерений, в котором возникал сбой импорта LUIS json. Подробные сведения см. здесь.
- Python: добавлен пример для
Language ID
. Подробные сведения см. здесь.
Усеченное тестирование в связи с COVID-19. Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования на устройствах вручную. Например, нам не удалось протестировать входные данные микрофона и выходные данные динамика в Linux, iOS и macOS. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою на этих платформах, а все наши автоматические тесты прошли успешно. В маловероятном случае, что мы пропустили что-то, дайте нам знать на GitHub.
Благодарим вас за постоянную поддержку. Пожалуйста, направляйте вопросы и отзывы в GitHub или Stack Overflow.
Будьте здоровы!
Пакет SDK для службы "Речь" 1.10.0. Выпуск за февраль 2020 г.
новые функции;
- Добавлены пакеты Python для поддержки нового выпуска Python 3.8.
- Поддержка Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).
Примечание
Клиенты должны настраивать OpenSSL в соответствии с этими инструкциями.
- Поддержка Debian и Ubuntu в Linux ARM32.
- DialogServiceConnector теперь поддерживает необязательный параметр "Идентификатор бота" в BotFrameworkConfig. Этот параметр позволяет использовать несколько ботов прямой речи с одним ресурсом службы "Речь". Если параметр не указан, будет использоваться бот, выбираемый по умолчанию (как определено на странице конфигурации канала Direct Line Speech).
- В DialogServiceConnector теперь имеется свойство SpeechActivityTemplate. Содержимое этой строки JSON будет использоваться прямой речью для предварительного формирования разнообразных поддерживаемых полей во всех действиях, которые достигают бота прямой речи, включая действия, автоматически созданные в ответ на события, такие как распознавание речи.
- Теперь функция TTS использует для аутентификации ключ подписки, уменьшая задержку первого байта в первом результате синтеза после создания синтезатора.
- Обновлены модели распознавания речи для 19 языковых стандартов, при этом средняя частота ошибок в словах сократилась на 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Новые модели обеспечивают значительные улучшения в различных аспектах, включая транскрибирование звонков центра обработки вызовов и сценарии индексирования видео.
Исправления ошибок
- Исправлена ошибка, из-за которой у Conversation Transcriber отсутствовало корректное ожидание в API JAVA.
- Исправлена ошибка эмулятора Android x86, которая создавала для Xamarin проблему GitHub.
- В AudioConfig добавлены отсутствующие методы (Get|Set)Property.
- Исправлена ошибка TTS, вследствие которой не удавалось остановить audioDataStream в случае сбоя подключения.
- Использование конечной точки без региона вызвало сбои USP в трансляторе беседы.
- При генерировании идентификаторов в универсальных приложениях Windows теперь используется алгоритм GUID с корректной уникальностью; ранее он непреднамеренно использовал по умолчанию суррогатную реализацию, которая часто создавала конфликты в больших наборах взаимодействий.
примеры
- Пример Unity: использование Пакета SDK для службы "Речь" с потоковой передачей данных микрофона и режима принудительной отправки
Другие изменения
Пакет SDK для службы "Речь" 1.9.0. Выпуск за январь 2020 г.
новые функции;
- Беседы с использованием нескольких устройств: подключение нескольких устройств к одной речевой или текстовой беседе и, при необходимости, перевод передаваемых между ними сообщений. Дополнительные сведения см. в этой статье.
- Добавлены поддержка распознавания ключевых слов для пакета Android
.aar
и поддержка для вариантов x86 и x64. - Objective-C: методы
SendMessage
иSetMessageProperty
добавлены в объектConnection
. См. документацию здесь. - API TTS C++ теперь поддерживает
std::wstring
в качестве текстового ввода для синтеза, что устраняет необходимость преобразовывать wstring в строку перед ее передачей в пакет SDK. Дополнительные сведения см. здесь. - C#: стали доступны идентификатор языка и настройка языка исходного кода.
- JavaScript: в объект
Connection
добавлена функция передачи пользовательских сообщений из службы "Речь" в формате обратного вызоваreceivedServiceMessage
. - JavaScript: добавлена поддержка
FromHost API
упрощения использования с локальными контейнерами и суверенными облаками. См. документацию здесь. - JavaScript: теперь мы учитываем
NODE_TLS_REJECT_UNAUTHORIZED
благодаря вкладу orgads. Дополнительные сведения см. здесь.
Критические изменения
OpenSSL
обновлен до версии 1.1.1b и статически привязан к основной библиотеке пакета SDK для службы "Речь" для Linux. Это может привести к разрыву, если папка "ВходящиеOpenSSL
" не была установлена в/usr/lib/ssl
каталоге в системе. Ознакомьтесь с нашей документацией в документации по пакету SDK службы "Речь", чтобы обойти проблему.- Изменен тип данных, возвращаемых для C#
WordLevelTimingResult.Offset
сint
наlong
, чтобы разрешить доступ кWordLevelTimingResults
когда речевые данные имеют длительность больше 2 минут. PushAudioInputStream
иPullAudioInputStream
теперь отправляют данные заголовка WAV в службу "Речь" на основеAudioStreamFormat
, дополнительно задаваемого при их создании. Впредь клиенты должны использовать поддерживаемый входной формат аудио. Любые другие форматы будут выдавать неоптимальные результаты распознавания или могут вызвать другие проблемы.
Исправления ошибок
- См. обновление
OpenSSL
выше, в разделе “Критические изменения”. Исправлены сбои временного характера и проблемы с производительностью (конфликт при блокировках в состоянии высокой нагрузки) в Linux и Java. - Java: оптимизировано замыкание объектов в сценариях с высоким уровнем параллелизма.
- Реструктуризован пакет NuGet. Удалены три копии
Microsoft.CognitiveServices.Speech.core.dll
иMicrosoft.CognitiveServices.Speech.extension.kws.dll
в папках lib, благодаря чему пакет NuGet стал меньше по размеру и быстрее скачивается, и добавлены заголовки, необходимые для компиляции ряда собственных приложений C++. - Исправлены примеры из краткого руководства, доступные здесь. Это был выход без отображения исключения "Микрофон не найден" в Linux, macOS, Windows.
- Исправлен сбой пакета SDK, связанный с результатами распознавания длительной речи на некоторых путях к коду, как в этом примере.
- Исправлена ошибка развертывания пакета SDK в рабочей среде Azure Web App для решения этой проблемы клиента.
- Исправлена ошибка TTS при использовании нескольких тегов
<voice>
или<audio>
для решения этой проблемы клиента. - Исправлена ошибка TTS 401, возникавшая при восстановлении пакета SDK из приостановленного состояния.
- JavaScript: исправлен циклический импорт звуковых данных благодаря вкладу euirim.
- JavaScript: добавлена поддержка настройки свойств службы, добавленных в 1.7.
- JavaScript: устранена проблема, из-за которой ошибка подключения могла приводить к возникновению непрерывных неудачных попыток повторного подключения WebSocket.
примеры
- Добавлен пример распознавания ключевых слов для Android, доступный здесь.
- Добавлен пример TTS для серверного сценария, доступный здесь.
- Добавлены краткие руководства по беседам с нескольких устройств для C# и C++, доступные здесь.
Другие изменения
- Оптимизирован размер базовой библиотеки SDK на Android.
- Пакет SDK в 1.9.0 и последующих версиях поддерживает типы
int
иstring
в поле версии голосовой подписи для инструмента транскрибирования бесед.
Пакет SDK для службы "Речь" 1.8.0. Выпуск за ноябрь 2019 г.
новые функции;
- Добавлен
FromHost()
API для упрощения использования с локальными контейнерами и независимыми облаками. - Добавлена идентификация исходного языка для распознавания речи (в Java и C ++)
- Добавлен объект
SourceLanguageConfig
для распознавания речи, используемый для задания ожидаемых исходных языков (в Java и C++). - Добавлена поддержка
KeywordRecognizer
в Windows (UWP), Android и iOS через пакеты NuGet и Unity - Добавлен API удаленной беседы в Java для транскрибирования бесед в асинхронных пакетах.
Критические изменения
- Функционал инструмента транскрибирования бесед перенесен в пространство имен
Microsoft.CognitiveServices.Speech.Transcription
. - Части методов инструмента транскрибирования бесед перенесены в новый класс
Conversation
. - Удалена поддержка 32-bit (ARMv7 и x86) iOS
Исправления ошибок
- Исправлен сбой, возникавший, если локальная
KeywordRecognizer
использовалась без допустимого ключа подписки на Службу речи
примеры
- Пример Xamarin для
KeywordRecognizer
- Пример Unity для
KeywordRecognizer
- Примеры C++ и Java для автоматической идентификации исходного языка.
Пакет SDK для службы "Речь" 1.7.0. Выпуск за сентябрь 2019 г.
новые функции;
- Добавлена поддержка бета-версии для Xamarin на универсальной платформе Windows (UWP), Android и iOS.
- Добавлена поддержка iOS для Unity
- Добавлена
Compressed
поддержка входных данных для ALaw, Mulaw, FLAC, в Android, iOS и Linux - Добавлено
SendMessageAsync
в классеConnection
для отправки сообщения в службу. - Добавлено
SetMessageProperty
в классеConnection
для задания свойства сообщения - В TTS добавлены привязки для Java (JRE и Android), Python, Swift и Objective-C.
- В TTS добавлена поддержка воспроизведения для macOS, iOS и Android.
- Добавлены сведения о границах слов для TTS.
Исправления ошибок
- Исправлена проблема сборки IL2CPP в Unity 2019 для Android.
- Исправлена ошибка некорректной обработки неправильно сформированных заголовков во входных файлах WAV.
- Устранена проблема с UUID, которые не были уникальны в некоторых свойствах подключения.
- Исправлены несколько предупреждений о спецификаторах допустимости значений NULL в привязках Swift (могут потребоваться небольшие изменения в коде).
- Исправлена ошибка, которая приводила к некорректному закрытию подключений WebSocket при сетевой нагрузке.
- Исправлена проблема с Android, которая время от времени приводила к дублированию идентификаторов воссоздания, используемых в
DialogServiceConnector
. - Улучшены стабильность подключений для многоэтапных взаимодействий и отчеты о сбоях (через события
Canceled
) при их возникновении вDialogServiceConnector
. - При запуске сеансов
DialogServiceConnector
теперь будут корректно предоставляться события, в том числе при вызовеListenOnceAsync()
во время активногоStartKeywordRecognitionAsync()
. - Решена проблема сбоев, связанная с получением действий
DialogServiceConnector
примеры
- Краткое руководство по Xamarin
- Обновлено краткое руководство по CPP с информацией о Linux Arm64
- Обновлено краткое руководство по Unity, внесена информация об iOS.
Пакет SDK для службы "Речь" 1.6.0. Выпуск за июнь 2019 г.
примеры
- Примеры краткого руководства для преобразования текста в речь на UWP и Unity
- Пример краткого руководства для Swift в iOS
- Примеры Unity для распознавания речи и намерений и перевода
- Обновленные примеры краткого руководства для
DialogServiceConnector
Улучшения и изменения
- Пространство имен диалогового окна:
SpeechBotConnector
был переименован вDialogServiceConnector
.BotConfig
был переименован вDialogServiceConfig
.BotConfig::FromChannelSecret()
был переназначен вDialogServiceConfig::FromBotSecret()
.- Все существующие клиенты Direct Line Speech продолжают поддерживаться после переименования.
- Адаптер TTS REST обновлен для поддержки прокси-сервера, постоянного подключения.
- Уточнено сообщение об ошибке при передаче недопустимого региона.
- Swift/Objective-C:
- Улучшена отчетность об ошибках: методы, которые могут приводить к ошибке, теперь присутствуют в двух версиях: одна из них предоставляет объект
NSError
для обработки ошибок, другая вызывает исключение. Первая из них предоставляет данные для Swift. Это изменение требует внесения адаптаций в существующий код Swift. - Улучшенная обработка событий
- Улучшена отчетность об ошибках: методы, которые могут приводить к ошибке, теперь присутствуют в двух версиях: одна из них предоставляет объект
Исправления ошибок
- Исправление ошибки в TTS, при которой будущее
SpeakTextAsync
возвращалось без ожидания завершения обработки звука - Исправление для строк маршалинга в C# с целью обеспечения полной языковой поддержки
- Исправление проблемы с приложением .NET Core при загрузке основной библиотеки с использованием net461 Target Framework в примерах
- Устранение редко возникающих проблем при развертывании собственных библиотек в выходной папке в примерах
- Исправление для обеспечения надежного закрытия Web Socket
- Устранение возможных сбоев при открытии подключения в условиях высокой нагрузки в Linux
- Исправление для устранения отсутствующих метаданных в пакете платформы для macOS
- Устранение проблем с
pip install --user
в Windows
Пакет SDK для службы "Речь" 1.5.1
Этот выпуск служит для исправления ошибок и затрагивает только пакет SDK для машинного/управляемого кода. Он не затрагивает версию пакета SDK для JavaScript.
Исправления ошибок
- Исправлена ошибка в FromSubscription при использовании с функцией Транскрибирования бесед.
- Исправлена ошибка в выявлении ключевых слов для голосовых помощников.
Пакет SDK для службы "Речь" 1.5.0. Выпуск за май 2019 г.
новые функции;
- Для Windows и Linux стало доступно выявление ключевых слов (KWS). Функции KWS могут работать с микрофонами любого типа, однако официальная поддержка KWS в настоящее время ограничена микрофонами, находящимися в оборудовании Azure Kinect DK или в пакете SDK для речевых устройств.
- Функции подсказки фраз доступны через пакет SDK. Дополнительные сведения см. здесь.
- Функции транскрибирования бесед доступны через пакет SDK.
- Добавлена поддержка голосовых помощников с использованием канала Direct Line Speech.
примеры
- Добавлены примеры для новых функций и новых служб, поддерживаемых пакетом SDK.
Улучшения и изменения
- Добавлены различные свойства распознавателя для настройки поведения службы и результатов ее работы (включая, например, маскирование ненормативной лексики).
- Теперь можно настроить распознаватель посредством стандартных свойств конфигурации, даже если создан распознаватель
FromEndpoint
. - Objective-C: свойство
OutputFormat
добавлено вSPXSpeechConfiguration
. - Теперь пакет SDK поддерживает Debian 9 в качестве дистрибутива Linux.
Исправления ошибок
- Исправлена проблема, из-за которой ресурс говорящего был деструктировался слишком рано в тексте речи.
Пакет SDK для службы "Речь" 1.4.2
Этот выпуск служит для исправления ошибок и затрагивает только пакет SDK для машинного/управляемого кода. Он не затрагивает версию пакета SDK для JavaScript.
Пакет SDK для службы "Речь" 1.4.1
Это выпуск только для JavaScript. В нем нет никаких новых возможностей. Устранены следующие проблемы:
- Блокировка в веб-пакете загрузки https-proxy-agent.
Пакет SDK для службы "Речь" 1.4.0. Выпуск за апрель 2019 г.
новые функции;
- Пакет SDK теперь поддерживает службу "Текст в речь" в качестве бета-версии. Он поддерживается в Windows и Linux Desktop из C++ и C#. Дополнительные сведения см. в обзоре преобразования текста в речь.
- Теперь пакет SDK поддерживает звуковые файлы MP3 и Opus/OGG в формате потоковых входных файлов. Эта функция доступна только в Linux из C++ и C# и сейчас находится на уровне бета-версии (дополнительные сведения см. здесь).
- SDK для службы "Речь" для Java, .NET Core, C++ и Objective-C получил поддержку macOS. Поддержка Objective-C для macOS в настоящее время находится на уровне бета-версии.
- iOS: SDK для службы "Речь" для iOS (Objective-C) теперь также опубликован в формате CocoaPod.
- JavaScript: поддержка микрофона, отличного от используемого по умолчанию, в качестве устройства ввода.
- JavaScript: поддержка прокси-сервера для Node.js.
примеры
- Добавлены примеры использования пакета SDK для службы "Речь" с C++ и с Objective-C в macOS.
- Добавлены примеры, демонстрирующие использование службы "Текст для речи".
Улучшения и изменения
- Python: через свойство
properties
стали доступны дополнительные свойства результатов распознавания. - Для дополнительной поддержки разработки и отладки можно перенаправлять данные журналов и диагностики пакета SDK в файл журнала (дополнительные сведения см. здесь).
- JavaScript: повышена производительность обработки звука.
Исправления ошибок
- Mac/iOS: устранена ошибка, которая приводила к длительному ожиданию, когда не удавалось установить подключение к службе "Речь".
- Python: улучшена обработка ошибок в отношении аргументов в обратных вызовах Python.
- JavaScript: исправлена неверная отчетность о состоянии для речи, завершенной в RequestSession.
Пакет SDK для службы "Речь" 1.3.1. Обновление за февраль 2019 г.
Этот выпуск служит для исправления ошибок и затрагивает только пакет SDK для машинного/управляемого кода. Он не затрагивает версию пакета SDK для JavaScript.
Исправление ошибок
- Устранена утечка памяти при использовании ввода с микрофона. Потоковый и файловый ввод не затронуты.
Пакет SDK для службы "Речь" 1.3.0. Выпуск за февраль 2019 г.
новые функции;
- Пакет SDK для службы "Речь" поддерживает выбор микрофонного входа, используя класс
AudioConfig
. Это дает возможность выполнять потоковую передачу аудиоданных в службу "Речь" с микрофона, не выбранного по умолчанию. Дополнительные данные см. в документации о выборе устройств для получения аудиоданных. Эта возможность пока недоступна из JavaScript. - Пакет SDK для службы "Речь" теперь поддерживает Unity в бета-версии. Оставьте отзыв в разделе проблем репозитория GitHub с примерами. Текущий выпуск поддерживает Unity на 32- или 64-разрядной ОС Windows (классическое приложение или приложение универсальной платформы Windows) и Android (32- или 64-разрядная архитектура ARM). Дополнительные сведения можно найти в кратком руководстве по Unity.
- Файл
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(предоставлявшийся в предыдущих выпусках) впредь не требуется. Теперь функциональные возможности интегрированы в базовый пакет SDK.
примеры
В нашем репозитории с примерами размещено следующее новое содержимое:
- дополнительные примеры для
AudioConfig.FromMicrophoneInput
; - дополнительные примеры Python для распознавания намерений и перевода;
- дополнительные примеры по использованию объекта
Connection
в iOS; - дополнительные примеры на Java для перевода с выводом звуковых данных;
- новый пример использования REST API пакетного транскрибирования.
Улучшения и изменения
- Python
- Улучшены проверка параметров и сообщения об ошибках в
SpeechConfig
. - Добавлена поддержка для объекта
Connection
. - Поддержка 32-разрядной версии Python (x86) на Windows.
- Выпущена бета-версия пакета SDK службы "Речь" для Python.
- Улучшены проверка параметров и сообщения об ошибках в
- iOS
- Пакет SDK теперь компилируется с пакетом SDK для iOS версии 12.1.
- Пакет SDK теперь поддерживает версию iOS 9.2 и более поздние версии.
- Улучшена справочная документация и исправлены несколько имен свойств.
- JavaScript
- Добавлена поддержка для объекта
Connection
. - Добавлены файлы определений типов для объединенного файла JavaScript.
- Первичная поддержка и реализация подсказок для фраз.
- Возвращается коллекция свойств с шаблоном JSON для службы распознавания.
- Добавлена поддержка для объекта
- Библиотеки DLL для Windows теперь содержат ресурс версии.
- При создании распознавателя
FromEndpoint
можно добавлять параметры непосредственно в URL-адрес конечной точки. ИспользуяFromEndpoint
, невозможно настроить распознаватель с помощью стандартных свойств конфигурации.
Исправления ошибок
- Неправильно обрабатывались пустые значения для имени пользователя и пароля прокси-сервера. В этом выпуске при установке имени пользователя прокси-сервера и пароля прокси-сервера в пустую строку они не будут отправляться при подключении к прокси-серверу.
- Создаваемый пакетом SDK идентификатор сеанса (SessionId) в некоторых языках и средах не был достаточно случайным. Для устранения этой проблемы добавлена инициализация генератора случайных чисел.
- Улучшена обработка маркера авторизации. Чтобы использовать маркер авторизации, следует указать это в
SpeechConfig
и оставить пустым значение ключа подписки. После этого создайте распознаватель обычным образом. - В некоторых ситуациях объект
Connection
освобождался некорректно. Теперь эта проблема устранена. - Исправлен пример JavaScript для поддержки аудиовыхода для синтеза перевода в браузере Safari.
Пакет SDK для службы "Речь" 1.2.1
Это выпуск только для JavaScript. В нем нет никаких новых возможностей. Устранены следующие проблемы:
- Срабатывание завершения потока по turn.end вместо speech.end.
- Исправлена ошибка в конвейере аудио, которая мешала запланировать новую отправку при сбое текущей отправки.
- Исправлено непрерывное распознавание с маркером проверки подлинности.
- Исправлены ошибки для некоторых распознавателей и конечных точек.
- Улучшена документация.
Пакет SDK для службы "Речь" 1.2.0. Выпуск за декабрь 2018 г.
новые функции;
- Python
- В этом выпуске доступна бета-версия поддержки Python (3.5 и более поздних версий). Дополнительные сведения см. здесь (../../quickstart-python.md).
- JavaScript
Connection
объект- Из
Recognizer
можно получить доступ к объектуConnection
. Этот объект позволяет явно инициировать подключение к службе и подписаться на события подключения и отключения. (Эта возможность пока недоступна из JavaScript и Python.)
- Из
- Поддержка Ubuntu 18.04.
- Android
- Включена поддержка ProGuard во время создания пакета APK.
Улучшения
- Улучшения в использовании внутреннего потока, сокращение числа потоков, блокировок, взаимных исключений.
- Улучшены сведения и сообщения об ошибках. В нескольких случаях сообщения об ошибках не были распространены во всем выходе.
- Изменены зависимости разработки в JavaScript, чтобы использовать модули последних версий.
Исправления ошибок
- Исправлены утечки памяти из-за несоответствия типов в
RecognizeAsync
. - В некоторых случаях возникала утечка исключений.
- Исправление утечки памяти в аргументах событий перевода.
- Исправлена проблема с блокировкой при повторном подключении в длительных сеансах.
- Исправлена проблема, которая могла приводить к отсутствию окончательного результата для переводов, завершившихся сбоем.
- C#: если операция
async
не ожидалась в основном потоке, распознаватель мог быть удален до завершения асинхронной задачи. - Исправлена проблема, которая приводила к сбою на VM Java.
- Objective-C: исправлено сопоставление перечислений: вместо
RecognizingIntent
возвращалось RecognizedIntent. - JavaScript: в
SpeechConfig
задан выходной формат по умолчанию "Простой". - JavaScript: устранена несогласованность между свойствами объекта конфигурации в JavaScript и других языках.
примеры
- Обновлено и исправлено несколько примеров (в частности, выходные голоса для перевода).
- Добавлены примеры для Node.js в репозиторий примеров.
Пакет SDK для службы "Речь" 1.1.0
новые функции;
- Поддержка Android x86/x64.
- Поддержка прокси-сервера: в объекте
SpeechConfig
теперь можно вызвать функцию для задания сведений о прокси-сервере (имя узла, порт, имя пользователя и пароль). Эта функция пока недоступна в iOS. - Улучшенный код ошибки и сообщения. Если распознавание возвращает ошибку, это означает, что для
Error
уже установлен наборReason
(в отмененное событие) илиCancellationDetails
(в результат распознавания). Отмененное событие теперь содержит два дополнительных элемента:ErrorCode
иErrorDetails
. Если сервер вернул дополнительные сведения об ошибке вместе с сообщаемой ошибкой, то она будет доступна в новых элементах.
Улучшения
- В конфигурацию распознавателя добавлена дополнительная проверка и сообщение об ошибке.
- Улучшена обработка долгого периода тишины в середине звукового файла.
- Пакет NuGet: не допускает компиляцию с конфигурацией AnyCPU для проектов .NET Framework.
Исправления ошибок
- Исправлено несколько исключений из распознавателей. В дополнение к этому исключения перехватываются и преобразуются в событие
Canceled
. - Утечка памяти в управлении свойствами устранена.
- Ошибка, в которой входной файл аудио мог стать причиной аварийного завершения распознавателя, исправлена.
- Исправлена ошибка, где события могут быть получены после остановки сеанса.
- Исправлены некоторые состояния гонки в потоке.
- Проблема совместимости, которая может привести к аварийному завершению iOS, исправлена.
- Улучшение стабильности для поддержки микрофона на Android.
- Исправлена ошибка, где распознаватель в JavaScript игнорирует распознавание языка.
- Исправлена ошибка, которая блокирует задание настройки
EndpointId
(в некоторых ситуациях) в JavaScript. - Изменен порядок параметров в AddIntent в JavaScript, добавлена отсутствующая сигнатура
AddIntent
JavaScript.
примеры
- Добавлены примеры C++ и C# для извлечения и отправки потоковой передачи по запросу из репозитория примеров.
Пакет SDK для службы "Речь" 1.0.1
Повышение надежности и устранение ошибок:
- Исправлена потенциальная неустранимая ошибка из-за состояния гонки в удаленном распознавателе
- Исправлена потенциальная неустранимая ошибка в случае наличия незаданных свойств.
- Добавлены дополнительные ошибки и проверки параметров.
- Objective-C: исправлена потенциальная неустранимая ошибка, возникающая из-за переопределения имени в NSString.
- Objective-C: скорректирована видимость API
- JavaScript: исправления относительно событий и их полезных данных.
- Улучшена документация.
В нашем репозитории примеров добавлен новый пример для JavaScript.
Пакет SDK службы "Речь ИИ Azure" 1.0.0: выпуск 2018-сентябрь
новые функции;
- Поддержка Objective-C в iOS. Ознакомьтесь с нашим кратким руководством по Objective-C для iOS.
- Поддержка JavaScript в браузере. Ознакомьтесь с нашим кратким руководством по JavaScript.
Критические изменения
- В этом выпуске вводится ряд критических изменений. Дополнительные сведения см. на этой странице.
Пакет SDK службы "Речь ИИ Azure" 0.6.0: выпуск за август 2018 г.
новые функции;
- Теперь приложения UWP, созданные с использованием пакета SDK для службы "Речь", могут пройти сертификацию WACK (комплект сертификации приложений для Windows). Ознакомьтесь с кратким руководством по UWP.
- Поддержка платформы .NET Standard 2.0 в Linux (Ubuntu 16.04 x 64).
- Экспериментальная функция: поддержка Java 8 в 64-разрядной версии Windows и Linux (Ubuntu 16.04 x 64). Ознакомьтесь с кратким руководством по среде выполнения Java.
Функциональное изменение
- Предоставление дополнительных сведений об ошибках подключения.
Критические изменения
- В Java (Android) функция
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
больше не требует параметр пути. Теперь путь автоматически определяется на всех поддерживаемых платформах. - Функция доступа get для свойства
EndpointUrl
в Java и C# была удалена.
Исправления ошибок
- Теперь в Java реализован результат аудиосинтеза на распознавателе перевода.
- Исправлена ошибка, которая могла привести к появлению неактивных потоков и увеличению числа открытых и неиспользуемых сокетов.
- Исправлена проблема, при которой длительное распознавание могло завершиться в середине передачи.
- Исправлено состояние гонки при завершении работы распознавателя.
Пакет SDK службы "Речь ИИ Azure" 0.5.0: выпуск 2018-июль
новые функции;
- Поддержка платформы Android (API 23: Android 6.0 Marshmallow или более поздней версии). Ознакомьтесь с кратким руководством для Android.
- Поддержка платформы .NET Standard 2.0 в Windows. Ознакомьтесь с кратким руководством для .NET Core.
- Экспериментальная функция: поддержка UWP в Windows (версия 1709 или более поздняя версия).
- Ознакомьтесь с кратким руководством по UWP.
- Обратите внимание, что приложения UWP, созданные с помощью пакета SDK для службы "Речь", еще не передают комплект сертификации приложений Windows (WACK).
- Поддержка длительного распознавания с автоматическим переподключением.
Функциональные изменения
StartContinuousRecognitionAsync()
поддерживает длительное распознавание.- Результат распознавания содержит дополнительные поля. Это смещение от начала звука и длительность (в тактах) распознанного текста, а также дополнительные значения, представляющие состояние распознавания, например
InitialSilenceTimeout
иInitialBabbleTimeout
. - Поддержка AuthorizationToken для создания экземпляров фабрики.
Критические изменения
- События распознавания: тип события
NoMatch
объединен с событиемError
. - SpeechOutputFormat в C# переименован в
OutputFormat
, чтобы сохранить согласованность с C++. - Возвращаемый тип некоторых методов
AudioInputStream
интерфейса немного изменился:- В Java метод
read
теперь возвращаетlong
вместоint
. - В C# метод
Read
теперь возвращаетuint
вместоint
. - В C++ методы
Read
иGetFormat
теперь возвращаютsize_t
вместоint
.
- В Java метод
- C++: экземпляры входных аудиопотоков теперь могут передаваться только как
shared_ptr
.
Исправления ошибок
- Исправлены неправильные возвращаемые значения в результате после истечения времени ожидания
RecognizeAsync()
. - Удалена зависимость от библиотек Media Foundation в Windows. Теперь пакет SDK использует интерфейсы API Core Audio.
- Исправление документации: добавлена страница с описанием поддерживаемых регионов.
Известная проблема
- Пакет SDK для службы "Речь" не передает результаты синтеза речи для перевода. Эта проблема будет устранена в следующем выпуске.
Пакет SDK службы "Речь ИИ Azure" 0.4.0: выпуск за июнь 2018 г.
Функциональные изменения
AudioInputStream
Распознаватель теперь может использовать поток в качестве источника звука. Дополнительные сведения см. в соответствующем практическом руководстве.
Подробный формат выходных данных
При создании
SpeechRecognizer
можно запросить формат выходных данныхDetailed
илиSimple
.DetailedSpeechRecognitionResult
содержит оценку достоверности, распознанный текст, необработанную лексическую форму, нормализованную форму и нормализованную форму с маской ненормативной лексики.
Критическое изменение
- В C#
SpeechRecognitionResult.RecognizedText
заменено наSpeechRecognitionResult.Text
.
Исправления ошибок
- Устранена проблема с возможным обратным вызовом в слое USP во время завершения работы.
- Если распознаватель использует входной аудиофайл, он удерживает дескриптор файла дольше, чем необходимо.
- Устранены различные взаимоблокировки между генератором сообщений и распознавателем.
- Срабатывает результат
NoMatch
по истечении времени ожидания ответа от службы. - Библиотеки Media Foundation в Windows загружаются с задержкой. Эта библиотека требуется только для ввода с микрофона.
- Скорость передачи для аудиоданных ограничена примерно в два раза относительно исходной скорости.
- В Windows сборки .NET для C# теперь имеют строгие имена.
- Исправление документации:
Region
— обязательная информация для создания распознавателя.
Добавлены дополнительные примеры, которые постоянно обновляются. Актуальный набор примеров доступен в репозитории GitHub с примерами пакета SDK для службы "Речь".
Пакет SDK службы "Речь ИИ Azure" 0.2.12733: выпуск за май 2018 г.
Этот выпуск является первым общедоступным предварительным выпуском пакета SDK службы "Речь" для Azure AI.