Osadzona mowa

Artykuł
01/18/2024

Osadzona mowa jest przeznaczona do zamiany mowy na urządzenie na tekst i tekst na mowę , w których łączność w chmurze jest sporadycznie lub niedostępna. Można na przykład użyć mowy osadzonej w sprzęcie przemysłowym, jednostce klimatyzacji z włączoną obsługą głosu lub samochodzie, który może podróżować poza zasięgiem. Możesz również opracowywać rozwiązania chmury hybrydowej i offline. W przypadku scenariuszy, w których urządzenia muszą znajdować się w bezpiecznym środowisku, na przykład banku lub jednostki rządowej, należy najpierw rozważyć odłączenie kontenerów.

Ważne

Firma Microsoft ogranicza dostęp do osadzonej mowy. Możesz ubiegać się o dostęp za pomocą przeglądu osadzonej mowy usługi Mowa w usłudze Azure AI. Aby uzyskać więcej informacji, zobacz Ograniczony dostęp do osadzonej mowy.

Wymagania dotyczące platformy

Osadzona mowa jest dołączona do zestawu Speech SDK (wersja 1.24.1 i nowsza) dla języków C#, C++i Java. Zapoznaj się z ogólnymi wymaganiami dotyczącymi instalacji zestawu SPEECH SDK, aby uzyskać szczegółowe informacje dotyczące języka programowania i platformy docelowej.

Wybieranie środowiska docelowego

Wymaga systemu Android 7.0 (poziom 24 interfejsu API) lub nowszego na sprzęcie Arm64 (arm64-v8a) lub Arm32 (armeabi-v7a).

Osadzona usługa TTS z głosami neuronowymi jest obsługiwana tylko w usłudze Arm64.

Ograniczenia

Osadzona mowa jest dostępna tylko w przypadku zestawów SDK języka C#, C++i Java. Inne zestawy SDK rozpoznawania mowy, interfejs wiersza polecenia usługi Mowa i interfejsy API REST nie obsługują osadzonej mowy.

Osadzone rozpoznawanie mowy obsługuje tylko formaty audio WAV zakodowane w formacie WAV mono, 8 kHz lub 16 kHz.

Osadzone neuronowe głosy obsługują 24 kHz RIFF/RAW z wymaganiem pamięci RAM wynoszącym 100 MB.

Pakiety osadzonego zestawu SPEECH SDK

W przypadku aplikacji osadzonych w języku C# zainstaluj następujący zestaw Speech SDK dla pakietów języka C#:

Pakiet	opis
Microsoft.CognitiveServices.Speech	Wymagane do korzystania z zestawu SPEECH SDK
Microsoft.CognitiveServices.Speech.Extension.Embedded.SR	Wymagane do rozpoznawania mowy osadzonej
Microsoft.CognitiveServices.Speech.Extension.Embedded.TTS	Wymagane do syntezy mowy osadzonej
Microsoft.CognitiveServices.Speech.Extension.ONNX.Runtime	Wymagane do rozpoznawania i syntezy mowy osadzonej
Microsoft.CognitiveServices.Speech.Extension.Telemetry	Wymagane do rozpoznawania i syntezy mowy osadzonej

W przypadku aplikacji osadzonych języka C++ zainstaluj następujący zestaw Speech SDK dla pakietów języka C++:

Pakiet	opis
Microsoft.CognitiveServices.Speech	Wymagane do korzystania z zestawu SPEECH SDK
Microsoft.CognitiveServices.Speech.Extension.Embedded.SR	Wymagane do rozpoznawania mowy osadzonej
Microsoft.CognitiveServices.Speech.Extension.Embedded.TTS	Wymagane do syntezy mowy osadzonej
Microsoft.CognitiveServices.Speech.Extension.ONNX.Runtime	Wymagane do rozpoznawania i syntezy mowy osadzonej
Microsoft.CognitiveServices.Speech.Extension.Telemetry	Wymagane do rozpoznawania i syntezy mowy osadzonej

Wybieranie środowiska docelowego

Środowisko uruchomieniowe Języka Java
Android

W przypadku aplikacji osadzonych w języku Java dodaj element client-sdk-embedded (.jar) jako zależność. Ten pakiet obsługuje mowę w chmurze, osadzoną i hybrydową.

Ważne

Nie dodawaj zestawu client-sdk w tym samym projekcie, ponieważ obsługuje tylko usługi mowy w chmurze.

Wykonaj następujące kroki, aby zainstalować zestaw SPEECH SDK dla języka Java przy użyciu narzędzia Apache Maven:

Zainstaluj narzędzie Apache Maven.
Otwórz wiersz polecenia, w którym chcesz utworzyć nowy projekt, i utwórz nowy pom.xml plik.

Skopiuj następującą zawartość XML do pom.xmlpliku :

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk-embedded</artifactId>
        <version>1.37.0</version>
        </dependency>
    </dependencies>
</project>

Uruchom następujące polecenie narzędzia Maven, aby zainstalować zestaw SPEECH SDK i zależności.
```
mvn clean dependency:copy-dependencies
```

W przypadku aplikacji osadzonych w języku Java dodaj element client-sdk-embedded (.aar) jako zależność. Ten pakiet obsługuje mowę w chmurze, osadzoną i hybrydową.

Ważne

Nie dodawaj zestawu client-sdk w tym samym projekcie, ponieważ obsługuje tylko usługi mowy w chmurze.

Pamiętaj, aby użyć sufiksu @aar , gdy zależność jest określona w elemencie build.gradle. Oto przykład:

dependencies {
    implementation 'com.microsoft.cognitiveservices.speech:client-sdk-embedded:1.37.0@aar'
}

Modele i głosy

W przypadku osadzonej mowy należy pobrać modele rozpoznawania mowy na potrzeby zamiany mowy na tekst i głosy na zamianę tekstu na mowę. Instrukcje są udostępniane po pomyślnym zakończeniu procesu przeglądu ograniczonego dostępu.

Dostępne są następujące modele mowy do tekstu : da-DK, de-DE, en-AU, en-CA, en-GB, en-IE, en-IN, en-NZ, en-US, es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, pt-PT, zh-CN, zh-HK i zh-TW.

Wszystkie ustawienia regionalne zamiany tekstu na mowę tutaj (z wyjątkiem fa-IR, Perski (Iran)) są dostępne poza pudełkiem z 1 wybranymi kobietami i/lub 1 wybranymi męskimi głosami. Z zadowoleniem przyjmujemy twoje dane wejściowe, aby pomóc nam ocenić zapotrzebowanie na więcej języków i głosów.

Konfiguracja osadzonej mowy

W przypadku aplikacji połączonych z chmurą, jak pokazano w większości przykładów zestawu SPEECH SDK, należy użyć SpeechConfig obiektu z kluczem zasobu usługi Mowa i regionem. W przypadku osadzonej mowy nie używasz zasobu usługi Mowa. Zamiast zasobu w chmurze używasz modeli i głosów pobieranych na urządzenie lokalne.

Użyj obiektu , EmbeddedSpeechConfig aby ustawić lokalizację modeli lub głosów. Jeśli aplikacja jest używana zarówno do zamiany mowy na tekst, jak i do zamiany tekstu na mowę, możesz użyć tego samego EmbeddedSpeechConfig obiektu, aby ustawić lokalizację modeli i głosów.

// Provide the location of the models and voices.
List<string> paths = new List<string>();
paths.Add("C:\\dev\\embedded-speech\\stt-models");
paths.Add("C:\\dev\\embedded-speech\\tts-voices");
var embeddedSpeechConfig = EmbeddedSpeechConfig.FromPaths(paths.ToArray());

// For speech to text
embeddedSpeechConfig.SetSpeechRecognitionModel(
    "Microsoft Speech Recognizer en-US FP Model V8",
    Environment.GetEnvironmentVariable("MODEL_KEY"));

// For text to speech
embeddedSpeechConfig.SetSpeechSynthesisVoice(
    "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
    Environment.GetEnvironmentVariable("VOICE_KEY"));
embeddedSpeechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Napiwek

Funkcja jest definiowana GetEnvironmentVariable w przewodniku Szybki start zamiany mowy na tekst i zamianie tekstu na mowę— szybki start.

// Provide the location of the models and voices.
vector<string> paths;
paths.push_back("C:\\dev\\embedded-speech\\stt-models");
paths.push_back("C:\\dev\\embedded-speech\\tts-voices");
auto embeddedSpeechConfig = EmbeddedSpeechConfig::FromPaths(paths);

// For speech to text
embeddedSpeechConfig->SetSpeechRecognitionModel((
    "Microsoft Speech Recognizer en-US FP Model V8",
    GetEnvironmentVariable("MODEL_KEY"));

// For text to speech
embeddedSpeechConfig->SetSpeechSynthesisVoice(
    "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
    GetEnvironmentVariable("VOICE_KEY"));
embeddedSpeechConfig->SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat::Riff24Khz16BitMonoPcm);

// Provide the location of the models and voices.
List<String> paths = new ArrayList<>();
paths.add("C:\\dev\\embedded-speech\\stt-models");
paths.add("C:\\dev\\embedded-speech\\tts-voices");
var embeddedSpeechConfig = EmbeddedSpeechConfig.fromPaths(paths);

// For speech to text
embeddedSpeechConfig.setSpeechRecognitionModel(
    "Microsoft Speech Recognizer en-US FP Model V8",
    System.getenv("MODEL_KEY"));

// For text to speech
embeddedSpeechConfig.setSpeechSynthesisVoice(
    "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
    System.getenv("VOICE_KEY"));
embeddedSpeechConfig.setSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Przykłady kodu mowy osadzonej

Możesz znaleźć gotowe do użycia osadzonych przykładów mowy w usłudze GitHub. Aby uzyskać uwagi dotyczące projektów od podstaw, zobacz dokumentację specyficzną dla przykładów:

Mowa hybrydowa

Hybrydowa mowa z HybridSpeechConfig obiektem domyślnie używa usługi mowy w chmurze i osadzonej mowy jako rezerwowego w przypadku, gdy łączność w chmurze jest ograniczona lub powolna.

W przypadku hybrydowej konfiguracji mowy dla zamiany mowy na tekst (modele rozpoznawania) osadzona mowa jest używana, gdy połączenie z usługą w chmurze kończy się niepowodzeniem po wielokrotnych próbach. Rozpoznawanie może nadal korzystać z usługi w chmurze ponownie, jeśli połączenie zostanie wznowione później.

W przypadku hybrydowej konfiguracji mowy dla zamiany tekstu na mowę (głosy) osadzona i synteza chmury są uruchamiane równolegle, a końcowy wynik jest wybierany na podstawie szybkości odpowiedzi. Najlepszy wynik zostanie ponownie oceniony na każde nowe żądanie syntezy.

Mowa w chmurze

W przypadku mowy w chmurze używasz obiektu, jak pokazano w przewodniku SpeechConfigSzybki start zamiany mowy na tekst i zamianie tekstu na mowę. Aby uruchomić przewodniki Szybki start dotyczące osadzonej mowy, możesz zastąpić ciąg SpeechConfig ciągiem EmbeddedSpeechConfig lub HybridSpeechConfig. Większość innego rozpoznawania i syntezy kodu mowy jest taka sama, niezależnie od tego, czy jest używana konfiguracja chmurowa, osadzona, czy hybrydowa.

Funkcje osadzonych głosów

W przypadku osadzonych głosów należy pamiętać, że niektóre tagi SSML mogą nie być obecnie obsługiwane z powodu różnic w strukturze modelu. Aby uzyskać szczegółowe informacje dotyczące nieobsługiwanych tagów SSML, zapoznaj się z poniższą tabelą.

Poziom 1	Poziom 2	Wartości podrzędne	Obsługa osadzonej usługi NTTS
Audio	src		Nie.
bookmark			Tak
break	Siły		Nie.
	time		Nie.
Ciszy	type	Wiodące, ogonowe, dokładne przecinki itp.	Nie.
	wartość		Nie.
Nacisk	poziom		Nie.
Lang			Nie.
Leksykon	uri		Tak
Matematyki			Nie.
msttsaudioduration	wartość		Nie.
msttsbackgroundaudio	src		Nie.
	wolumin		Nie.
	fadein		Nie.
	Fadeout		Nie.
msttsexpress-as	— styl		Nie.
	styledegree		Nie.
	role		Nie.
msttssilence			Nie.
msttsviseme	type	redlips_front, FaceExpression	Nie.
p			Tak
Fonem	Alfabet	ipa, sapi, ups itp.	Tak
	Ph		Tak
Prosody	Kontur	Obsługa na poziomie zdań, poziom wyrazów tylko en-US i zh-CN	Tak
	Boisku		Tak
	range		Tak
	Oceń		Tak
	wolumin		Tak
s			Tak
say-as	interpret-as	znaki, pisownia, number_digit, data itp.	Tak
	format		Tak
	szczegóły		Tak
sub	alias		Tak
Mówić			Tak
voice			Nie.

Osadzona mowa

Wymagania dotyczące platformy

Ograniczenia

Pakiety osadzonego zestawu SPEECH SDK

Modele i głosy

Konfiguracja osadzonej mowy

Przykłady kodu mowy osadzonej

Mowa hybrydowa

Mowa w chmurze

Funkcje osadzonych głosów

Następne kroki

Dodatkowe zasoby