Внедренная речь

Статья
01/18/2024

Внедренная речь предназначена для преобразования речи на устройство в текст и текст в речевые сценарии, в которых подключение к облаку является периодическим или недоступным. Например, вы можете использовать внедренную речь в промышленном оборудовании, устройство кондиционирования воздуха с поддержкой голоса или автомобиль, который может выйти из диапазона. Вы также можете разрабатывать гибридные облачные и автономные решения. В сценариях, когда устройства должны находиться в безопасной среде, например в банке или правительственных сущностях, следует сначала рассмотреть возможность отключения контейнеров.

Внимание

Корпорация Майкрософт ограничивает доступ к внедренной речи. Вы можете подать заявку на доступ с помощью проверки ограниченного доступа в службе "Речь искусственного интеллекта Azure". Дополнительные сведения см. в разделе "Ограниченный доступ" для встроенной речи.

Требования платформы

Внедренная речь включается в пакет SDK службы "Речь" (версия 1.24.1 и более поздние версии) для C#, C++и Java. Дополнительные сведения см. в общих требованиях к установке пакета SDK службы "Речь" для языка программирования и целевой платформы.

Выберите целевую среду

Требуется Android 7.0 (уровень API 24) или более поздней версии на оборудовании Arm64 (arm64-v8a) или Arm32 (armeabi-v7a).

Внедренные TTS с нейронными голосами поддерживаются только в Arm64.

Ограничения

Внедренная речь доступна только с помощью пакетов SDK для C#, C++и Java. Другие пакеты SDK для службы "Речь", интерфейс командной строки службы "Речь" и REST API не поддерживают внедренную речь.

Встроенное распознавание речи поддерживает только моно 16-разрядные, 8-kГц или 16-kГц в кодировке WAV аудиоформаты.

Внедренные нейронные голоса поддерживают 24 кГц RIFF/RAW с требованием ОЗУ 100 МБ.

Внедренные пакеты ПАКЕТА SDK для службы "Речь"

Для внедренных приложений C# установите следующий пакет SDK службы "Речь" для пакетов C#:

Пакет	Description
Microsoft.CognitiveServices.Speech	Требуется для использования пакета SDK службы "Речь"
Microsoft.CognitiveServices.Speech.Extension.Embedded.SR	Требуется для встроенного распознавания речи
Microsoft.CognitiveServices.Speech.Extension.Embedded.TTS	Требуется для встроенного синтеза речи
Microsoft.CognitiveServices.Speech.Extension.ONNX.Runtime	Требуется для встроенного распознавания речи и синтеза
Microsoft.CognitiveServices.Speech.Extension.Telemetry	Требуется для встроенного распознавания речи и синтеза

Для внедренных приложений C++ установите следующий пакет SDK службы "Речь" для пакетов C++:

Пакет	Description
Microsoft.CognitiveServices.Speech	Требуется для использования пакета SDK службы "Речь"
Microsoft.CognitiveServices.Speech.Extension.Embedded.SR	Требуется для встроенного распознавания речи
Microsoft.CognitiveServices.Speech.Extension.Embedded.TTS	Требуется для встроенного синтеза речи
Microsoft.CognitiveServices.Speech.Extension.ONNX.Runtime	Требуется для встроенного распознавания речи и синтеза
Microsoft.CognitiveServices.Speech.Extension.Telemetry	Требуется для встроенного распознавания речи и синтеза

Выберите целевую среду

Среда выполнения Java
Android

Для внедренных приложений Java добавьте клиент-sdk-embedded (.jar) в качестве зависимостей. Этот пакет поддерживает облачную, внедренную и гибридную речь.

Внимание

Не добавляйте клиентский пакет SDK в тот же проект, так как он поддерживает только облачные службы распознавания речи.

Выполните следующие действия, чтобы установить пакет SDK службы "Речь" для Java с помощью Apache Maven:

Установите Apache Maven.
Откройте командную строку, в которой должен быть создан новый проект, и создайте файл pom.xml.

Скопируйте следующее XML-содержимое в pom.xml:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk-embedded</artifactId>
        <version>1.37.0</version>
        </dependency>
    </dependencies>
</project>

Выполните следующую команду Maven, чтобы установить пакет SDK службы "Речь" и зависимости.
```
mvn clean dependency:copy-dependencies
```

Для внедренных приложений Java добавьте клиент-sdk-embedded (.aar) в качестве зависимостей. Этот пакет поддерживает облачную, внедренную и гибридную речь.

Внимание

Обязательно используйте @aar суффикс, если зависимость указана в build.gradle. Приведем пример:

dependencies {
    implementation 'com.microsoft.cognitiveservices.speech:client-sdk-embedded:1.37.0@aar'
}

Модели и голоса

Для внедренной речи необходимо скачать модели распознавания речи для преобразования речи в текст и голоса для преобразования текста в речь. Инструкции предоставляются после успешного завершения процесса проверки ограниченного доступа.

Доступны следующие текстовые модели: da-DK, de-DE, en-AU, en-CA, en-GB, en-IE, en-IN, en-IN, en-US, es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, pt-PT, zh-CN, zh-HK и zh-TW.

Все тексты для речи языковых стандартов здесь (кроме fa-IR, персидского (Ирана)) доступны вне поля с 1 выбранной женщиной и /или 1 выбранными мужскими голосами. Мы приветствуем ваши входные данные, чтобы помочь нам оценить спрос на больше языков и голосов.

Внедренная конфигурация речи

Для облачных подключенных приложений, как показано в большинстве примеров пакета SDK службы "Речь", используется SpeechConfig объект с ключом ресурса службы "Речь" и регионом. Для внедренной речи не используется ресурс "Речь". Вместо облачного ресурса вы используете модели и голоса , скачанные на локальное устройство.

EmbeddedSpeechConfig Используйте объект, чтобы задать расположение моделей или голосов. Если приложение используется как для речи, так и для текста, можно использовать один и тот же EmbeddedSpeechConfig объект, чтобы задать расположение моделей и голосов.

// Provide the location of the models and voices.
List<string> paths = new List<string>();
paths.Add("C:\\dev\\embedded-speech\\stt-models");
paths.Add("C:\\dev\\embedded-speech\\tts-voices");
var embeddedSpeechConfig = EmbeddedSpeechConfig.FromPaths(paths.ToArray());

// For speech to text
embeddedSpeechConfig.SetSpeechRecognitionModel(
    "Microsoft Speech Recognizer en-US FP Model V8",
    Environment.GetEnvironmentVariable("MODEL_KEY"));

// For text to speech
embeddedSpeechConfig.SetSpeechSynthesisVoice(
    "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
    Environment.GetEnvironmentVariable("VOICE_KEY"));
embeddedSpeechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Совет

Функция GetEnvironmentVariable определяется в кратком руководстве по тексту и тексте в кратком руководстве по речью.

// Provide the location of the models and voices.
vector<string> paths;
paths.push_back("C:\\dev\\embedded-speech\\stt-models");
paths.push_back("C:\\dev\\embedded-speech\\tts-voices");
auto embeddedSpeechConfig = EmbeddedSpeechConfig::FromPaths(paths);

// For speech to text
embeddedSpeechConfig->SetSpeechRecognitionModel((
    "Microsoft Speech Recognizer en-US FP Model V8",
    GetEnvironmentVariable("MODEL_KEY"));

// For text to speech
embeddedSpeechConfig->SetSpeechSynthesisVoice(
    "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
    GetEnvironmentVariable("VOICE_KEY"));
embeddedSpeechConfig->SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat::Riff24Khz16BitMonoPcm);

// Provide the location of the models and voices.
List<String> paths = new ArrayList<>();
paths.add("C:\\dev\\embedded-speech\\stt-models");
paths.add("C:\\dev\\embedded-speech\\tts-voices");
var embeddedSpeechConfig = EmbeddedSpeechConfig.fromPaths(paths);

// For speech to text
embeddedSpeechConfig.setSpeechRecognitionModel(
    "Microsoft Speech Recognizer en-US FP Model V8",
    System.getenv("MODEL_KEY"));

// For text to speech
embeddedSpeechConfig.setSpeechSynthesisVoice(
    "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
    System.getenv("VOICE_KEY"));
embeddedSpeechConfig.setSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Внедренные примеры кода речи

Вы можете найти готовые к использованию внедренных примеров речи на сайте GitHub. Примечания к проектам с нуля см. в конкретных примерах документации:

Гибридная речь

Гибридная речь с HybridSpeechConfig объектом использует облачную службу распознавания речи по умолчанию и внедренную речь в качестве резервного варианта, если подключение к облаку ограничено или медленно.

При настройке гибридной речи для преобразования речи в текст (модели распознавания) внедренная речь используется при сбое подключения к облачной службе после повторных попыток. Распознавание может продолжать использовать облачную службу снова, если подключение будет возобновлено позже.

При использовании гибридной конфигурации речи для преобразования текста в речь (голоса), внедренные и облачные синтезы выполняются параллельно, а конечный результат выбирается на основе скорости отклика. Лучший результат оценивается снова по каждому новому запросу синтеза.

Облачная речь

Для облачной SpeechConfig речи используется объект, как показано в кратком руководстве по тексту и тексте для речи. Чтобы запустить краткие руководства по внедренной речи, можно заменить SpeechConfig на EmbeddedSpeechConfig или HybridSpeechConfig. Большинство других кодов распознавания речи и синтеза совпадают с использованием облачной, внедренной или гибридной конфигурации.

Встроенные возможности голосов

Для внедренных голосов важно отметить, что некоторые теги SSML в настоящее время не поддерживаются из-за различий в структуре модели. Подробные сведения о неподдерживаемых тегах SSML см. в следующей таблице.

Уровень 1	Уровень 2	Вложенные значения	Поддержка внедренных NTTS
audio	src		No
закладка			Да
break	strength		No
	Время		No
Тишина	type	Ведущий, Tailing, запятая и т. д.	No
	значение		No
emphasis	level		No
lang			No
Лексикон	uri		Да
Математические функции			No
msttsaudioduration	значение		No
msttsbackgroundaudio	src		No
	том		No
	fadein		No
	fadeout		No
msttsexpress-as	style		No
	styledegree		No
	роль		No
msttssilence			No
msttsviseme	type	redlips_front, FacialExpression	No
п			Да
phoneme	Алфавит	ipa, sapi, ups и т. д.	Да
	Ph		Да
prosody	Контур	Поддержка уровней предложений, уровень слова только en-US и zh-CN	Да
	Шаг		Да
	range		Да
	rate		Да
	том		Да
s			Да
скажи как	interpret-as	символы, описание, number_digit, дата и т. д.	Да
	format		Да
	detail		Да
дочерний объект	псевдоним		Да
speak			Да
voice			No

Внедренная речь

Требования платформы

Ограничения

Внедренные пакеты ПАКЕТА SDK для службы "Речь"

Модели и голоса

Внедренная конфигурация речи

Внедренные примеры кода речи

Гибридная речь

Облачная речь

Встроенные возможности голосов

Следующие шаги

Дополнительные ресурсы