Что такое внедренная речь?

Статья
10/16/2024

Внедренная речь предназначена для преобразования речи на устройство в текст и текст в речевые сценарии, в которых подключение к облаку является периодическим или недоступным. Например, вы можете использовать внедренную речь в промышленном оборудовании, устройство кондиционирования воздуха с поддержкой голоса или автомобиль, который может выйти из диапазона. Вы также можете разрабатывать гибридные облачные и автономные решения. В сценариях, когда устройства должны находиться в безопасной среде, например в банке или правительственных сущностях, следует сначала рассмотреть возможность отключения контейнеров.

Внимание

Корпорация Майкрософт ограничивает доступ к внедренной речи. Вы можете подать заявку на доступ с помощью проверки ограниченного доступа в службе "Речь искусственного интеллекта Azure". Дополнительные сведения см. в разделе "Ограниченный доступ" для встроенной речи.

Требования платформы

Внедренная речь включается в пакет SDK службы "Речь" (версия 1.24.1 и более поздние версии) для C#, C++и Java. Дополнительные сведения см. в общих требованиях к установке пакета SDK службы "Речь" для языка программирования и целевой платформы.

Выберите целевую среду

Требуется Android 7.0 (уровень API 24) или более поздней версии на оборудовании Arm64 (arm64-v8a) или Arm32 (armeabi-v7a).

Внедренные TTS с нейронными голосами поддерживаются только в Arm64.

Ограничения

Внедренная речь доступна только с помощью пакетов SDK для C#, C++и Java. Другие пакеты SDK для службы "Речь", интерфейс командной строки службы "Речь" и REST API не поддерживают внедренную речь.

Встроенное распознавание речи поддерживает только моно 16-разрядные, 8-kГц или 16-kГц в кодировке WAV аудиоформаты.

Внедренные нейронные голоса поддерживают 24 кГц RIFF/RAW с требованием ОЗУ размером 100 МБ.

Внедренные пакеты ПАКЕТА SDK для службы "Речь"

Для внедренных приложений C# установите следующий пакет SDK службы "Речь" для пакетов C#:

Пакет	Description
Microsoft.CognitiveServices.Speech	Требуется для использования пакета SDK службы "Речь"
Microsoft.CognitiveServices.Speech.Extension.Embedded.SR	Требуется для встроенного распознавания речи
Microsoft.CognitiveServices.Speech.Extension.Embedded.TTS	Требуется для встроенного синтеза речи
Microsoft.CognitiveServices.Speech.Extension.ONNX.Runtime	Требуется для встроенного распознавания речи и синтеза
Microsoft.CognitiveServices.Speech.Extension.Telemetry	Требуется для встроенного распознавания речи и синтеза

Для внедренных приложений C++ установите следующий пакет SDK службы "Речь" для пакетов C++:

Пакет	Description
Microsoft.CognitiveServices.Speech	Требуется для использования пакета SDK службы "Речь"
Microsoft.CognitiveServices.Speech.Extension.Embedded.SR	Требуется для встроенного распознавания речи
Microsoft.CognitiveServices.Speech.Extension.Embedded.TTS	Требуется для встроенного синтеза речи
Microsoft.CognitiveServices.Speech.Extension.ONNX.Runtime	Требуется для встроенного распознавания речи и синтеза
Microsoft.CognitiveServices.Speech.Extension.Telemetry	Требуется для встроенного распознавания речи и синтеза

Выберите целевую среду

Среда выполнения Java
Android

Для внедренных приложений Java добавьте клиент-sdk-embedded (.jar) в качестве зависимостей. Этот пакет поддерживает облачную, внедренную и гибридную речь.

Внимание

Не добавляйте клиентский пакет SDK в тот же проект, так как он поддерживает только облачные службы распознавания речи.

Выполните следующие действия, чтобы установить пакет SDK службы "Речь" для Java с помощью Apache Maven:

Установите Apache Maven.
Откройте командную строку, в которой должен быть создан новый проект, и создайте файл pom.xml.

Скопируйте следующее XML-содержимое в pom.xml:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk-embedded</artifactId>
        <version>1.40.0</version>
        </dependency>
    </dependencies>
</project>

Выполните следующую команду Maven, чтобы установить пакет SDK службы "Речь" и зависимости.
```
mvn clean dependency:copy-dependencies
```

Для внедренных приложений Java добавьте клиент-sdk-embedded (.aar) в качестве зависимостей. Этот пакет поддерживает облачную, внедренную и гибридную речь.

Внимание

Обязательно используйте @aar суффикс, если зависимость указана в build.gradle. Приведем пример:

dependencies {
    implementation 'com.microsoft.cognitiveservices.speech:client-sdk-embedded:1.40.0@aar'
}

Модели и голоса

Для внедренной речи необходимо скачать модели распознавания речи для преобразования речи в текст и голоса для преобразования текста в речь. Инструкции предоставляются после успешного завершения процесса проверки ограниченного доступа.

Доступны следующие текстовые модели: da-DK, de-DE, en-AU, en-CA, en-GB, en-IE, en-IN, en-IN, en-US, es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, pt-PT, zh-CN, zh-HK и zh-TW.

Все тексты для речи языковых стандартов здесь (кроме fa-IR, персидского (Ирана)) доступны вне поля с 1 выбранной женщиной и /или 1 выбранными мужскими голосами. Мы приветствуем ваши входные данные, чтобы помочь нам оценить спрос на больше языков и голосов.

Внедренная конфигурация речи

Для облачных подключенных приложений, как показано в большинстве примеров пакета SDK службы "Речь", используется SpeechConfig объект с ключом ресурса службы "Речь" и регионом. Для внедренной речи не используется ресурс "Речь". Вместо облачного ресурса вы используете модели и голоса , скачанные на локальное устройство.

EmbeddedSpeechConfig Используйте объект, чтобы задать расположение моделей или голосов. Если приложение используется как для речи, так и для текста, можно использовать один и тот же EmbeddedSpeechConfig объект, чтобы задать расположение моделей и голосов.

// Provide the location of the models and voices.
List<string> paths = new List<string>();
paths.Add("C:\\dev\\embedded-speech\\stt-models");
paths.Add("C:\\dev\\embedded-speech\\tts-voices");
var embeddedSpeechConfig = EmbeddedSpeechConfig.FromPaths(paths.ToArray());

// For speech to text
embeddedSpeechConfig.SetSpeechRecognitionModel(
    "Microsoft Speech Recognizer en-US FP Model V8",
    Environment.GetEnvironmentVariable("EMBEDDED_SPEECH_MODEL_LICENSE"));

// For text to speech
embeddedSpeechConfig.SetSpeechSynthesisVoice(
    "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
    Environment.GetEnvironmentVariable("EMBEDDED_SPEECH_MODEL_LICENSE"));
embeddedSpeechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Совет

Функция GetEnvironmentVariable определяется в кратком руководстве по тексту и тексте в кратком руководстве по речью.

// Provide the location of the models and voices.
vector<string> paths;
paths.push_back("C:\\dev\\embedded-speech\\stt-models");
paths.push_back("C:\\dev\\embedded-speech\\tts-voices");
auto embeddedSpeechConfig = EmbeddedSpeechConfig::FromPaths(paths);

// For speech to text
embeddedSpeechConfig->SetSpeechRecognitionModel((
    "Microsoft Speech Recognizer en-US FP Model V8",
    GetEnvironmentVariable("EMBEDDED_SPEECH_MODEL_LICENSE"));

// For text to speech
embeddedSpeechConfig->SetSpeechSynthesisVoice(
    "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
    GetEnvironmentVariable("EMBEDDED_SPEECH_MODEL_LICENSE"));
embeddedSpeechConfig->SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat::Riff24Khz16BitMonoPcm);

// Provide the location of the models and voices.
List<String> paths = new ArrayList<>();
paths.add("C:\\dev\\embedded-speech\\stt-models");
paths.add("C:\\dev\\embedded-speech\\tts-voices");
var embeddedSpeechConfig = EmbeddedSpeechConfig.fromPaths(paths);

// For speech to text
embeddedSpeechConfig.setSpeechRecognitionModel(
    "Microsoft Speech Recognizer en-US FP Model V8",
    System.getenv("EMBEDDED_SPEECH_MODEL_LICENSE"));

// For text to speech
embeddedSpeechConfig.setSpeechSynthesisVoice(
    "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
    System.getenv("EMBEDDED_SPEECH_MODEL_LICENSE"));
embeddedSpeechConfig.setSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Внедренные примеры кода речи

Вы можете найти готовые к использованию внедренных примеров речи на сайте GitHub. Примечания к проектам с нуля см. в конкретных примерах документации:

Гибридная речь

Гибридная речь с HybridSpeechConfig объектом использует облачную службу распознавания речи по умолчанию и внедренную речь в качестве резервного варианта, если подключение к облаку ограничено или медленно.

При настройке гибридной речи для преобразования речи в текст (модели распознавания) внедренная речь используется при сбое подключения к облачной службе после повторных попыток. Распознавание может продолжать использовать облачную службу снова, если подключение будет возобновлено позже.

При использовании гибридной конфигурации речи для преобразования текста в речь (голоса), внедренные и облачные синтезы выполняются параллельно, а конечный результат выбирается на основе скорости отклика. Лучший результат оценивается снова по каждому новому запросу синтеза.

Облачная речь

Для облачной SpeechConfig речи используется объект, как показано в кратком руководстве по тексту и тексте для речи. Чтобы запустить краткие руководства по внедренной речи, можно заменить SpeechConfig на EmbeddedSpeechConfig или HybridSpeechConfig. Большинство других кодов распознавания речи и синтеза совпадают с использованием облачной, внедренной или гибридной конфигурации.

Встроенные возможности голосов

Для внедренных голосов важно отметить, что некоторые теги SSML в настоящее время не поддерживаются из-за различий в структуре модели. Подробные сведения о неподдерживаемых тегах SSML см. в следующей таблице.

Уровень 1	Уровень 2	Вложенные значения	Поддержка внедренных NTTS
audio	src		No
закладка			Да
break	strength		Да
	Время		Да
тишина	type	Ведущий, Tailing, запятая и т. д.	No
	значение		No
emphasis	level		No
lang			No
лексикон	uri		Да
Математические функции			No
msttsaudioduration	значение		No
msttsbackgroundaudio	src		No
	том		No
	fadein		No
	fadeout		No
msttsexpress-as	style		No
	styledegree		No
	роль		No
msttssilence			No
msttsviseme	type	redlips_front, FacialExpression	No
п			Да
phoneme	алфавит	ipa, sapi, ups и т. д.	Да
	ph		Да
просодия	контур	Поддержка уровней предложений, уровень слова только en-US и zh-CN	Да
	смола		Да
	range		Да
	rate		Да
	том		Да
s			Да
скажи как	interpret-as	символы, описание, number_digit, дата и т. д.	Да
	format		Да
	detail		Да
дочерний объект	псевдоним		Да
speak			Да
voice			No

Поделиться через

Что такое внедренная речь?

Требования платформы

Ограничения

Внедренные пакеты ПАКЕТА SDK для службы "Речь"

Модели и голоса

Внедренная конфигурация речи

Внедренные примеры кода речи

Гибридная речь

Облачная речь

Встроенные возможности голосов

Обратная связь

Дополнительные ресурсы

Поделиться через

Что такое внедренная речь?

Требования платформы

Ограничения

Внедренные пакеты ПАКЕТА SDK для службы "Речь"

Модели и голоса

Внедренная конфигурация речи

Внедренные примеры кода речи

Гибридная речь

Облачная речь

Встроенные возможности голосов

Связанный контент

Обратная связь

Дополнительные ресурсы