Co nowego w usłudze Azure AI Speech?

Artykuł
06/06/2024

Usługa Azure AI Speech jest aktualizowana w sposób ciągły. Aby być na bieżąco z najnowszymi wydarzeniami, ten artykuł zawiera informacje o nowych wersjach i funkcjach.

Ostatnie najważniejsze informacje

Tłumaczenie wideo jest teraz dostępne w usłudze Azure AI Speech. Aby uzyskać więcej informacji, zobacz Co to jest tłumaczenie wideo?.
Osobisty głos jest teraz ogólnie dostępny. Aby uzyskać więcej informacji, zobacz Co to jest osobisty głos?.
Usługa Azure AI Speech obsługuje tekst OpenAI na głosy mowy. Aby uzyskać więcej informacji, zobacz Co to jest tekst OpenAI na głosy mowy?.
Niestandardowy interfejs API głosu jest dostępny do tworzenia profesjonalnych i osobistych niestandardowych modeli neuronowych głosów oraz zarządzania nimi.

Informacje o wersji

Wybieranie usługi lub zasobu

Nadchodzące plany dla użytkowników systemów Linux i Android:

Uwaga

W tym artykule odwołuje się do systemu CentOS — dystrybucji systemu Linux, która zbliża się do stanu zakończenia życia (EOL). Rozważ odpowiednie użycie i planowanie. Aby uzyskać więcej informacji, zobacz wskazówki dotyczące zakończenia życia systemu CentOS.

Zestaw Speech SDK 1.38.0: wersja z czerwca 2024 r.

Nowe funkcje

Uaktualnij wymagania dotyczące platformy zestawu Speech SDK dla systemu Linux:
- Nowy minimalny plan bazowy to Ubuntu 20.04 LTS lub zgodny z glibc 2.31 lub nowszym.
- Pliki binarne dla systemu Linux x86 są usuwane zgodnie z obsługą platformy Ubuntu 20.04.
- Należy pamiętać, że system RHEL/CentOS 7 pozostaje obsługiwany do 30 czerwca (CentOS 7 EOL i koniec RHEL 7 Maintenance Support 2). Pliki binarne dla nich zostaną usunięte w wersji zestawu Speech SDK 1.39.0.
Dodano obsługę protokołu OpenSSL 3 w systemie Linux.
Dodano obsługę formatu wyjściowego audio g722-16khz-64 kbps z syntezatorem mowy.
Dodano obsługę wysyłania komunikatów za pośrednictwem obiektu połączenia z syntetyzatorem mowy.
Dodaj interfejsy API Start/StopKeywordRecognition w językach Objective-C i Swift.
Dodaj interfejs API do wybierania niestandardowej kategorii modelu tłumaczenia.
Aktualizowanie użycia usługi GStreamer za pomocą syntetyzatora mowy.

Poprawki błędów

Naprawiono błąd "Rozmiar komunikatu protokołu Websocket nie może przekraczać 65536 bajtów" podczas uruchamiania/stopKeywordRecognition.
Napraw błąd segmentacji języka Python podczas syntezy mowy.

Przykłady

Zaktualizuj przykłady języka C#, aby domyślnie używać platformy .NET 6.0.

Zestaw Speech SDK 1.37.0: wydanie z kwietnia 2024 r.

Nowe funkcje

Dodano obsługę przesyłania strumieniowego tekstu wejściowego w syntezie mowy.
Zmień domyślny głos syntezy mowy na en-US-AvaMultilingualNeural.
Zaktualizuj kompilacje systemu Android, aby używać biblioteki OpenSSL 3.x.

Poprawki błędów

Napraw sporadyczne awarie JVM podczas usuwania speechRecognizer podczas korzystania z rozwiązania MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Popraw wykrywanie domyślnych urządzeń audio w systemie Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Przykłady

Zaktualizowano pod kątem nowych funkcji.

Zestaw Speech SDK 1.36.0: wersja z marca 2024 r.

Nowe funkcje

Dodano obsługę identyfikacji języka w translacji wielojęzycznej w punktach końcowych w wersji 2 przy użyciu polecenia AutoDetectSourceLanguageConfig::FromOpenRange().

Poprawki błędów

Naprawiono zdarzenie SyntezaCanceled nie zostało wyzwolone, jeśli zatrzymanie jest wywoływane podczas zdarzenia SynthesisStarted.
Rozwiązano problem z szumem w osadzonej syntezie mowy.
Napraw awarię w osadzonym rozpoznawaniu mowy podczas równoległego uruchamiania wielu aparatów rozpoznawania.
Napraw ustawienie trybu wykrywania fraz w punktach końcowych w wersji 1/2.
Poprawki różnych problemów z usługą Microsoft Audio Stack.

Przykłady

Aktualizacje nowych funkcji.

Zestaw Speech SDK 1.35.0: wersja z lutego 2024 r.

Nowe funkcje

Zmień domyślny tekst na głos mowy z en-US-JennyMultilingualNeural na en-US-AvaNeural.
Obsługa szczegółów na poziomie wyrazów w osadzonych wynikach tłumaczenia mowy przy użyciu szczegółowego formatu danych wyjściowych.

Poprawki błędów

Napraw interfejs API pobierania pozycji AudioDataStream w języku Python.
Napraw tłumaczenie mowy przy użyciu punktów końcowych w wersji 2 bez wykrywania języka.
Napraw losową awarię i zduplikowane zdarzenia granicy wyrazów w osadzonym tekście na mowę.
Zwróć prawidłowy kod błędu anulowania dla wewnętrznego błędu serwera w połączeniach protokołu WebSocket.
Napraw błąd ładowania biblioteki FPIEProcessor.dll, gdy platforma MAS jest używana z językiem C#.

Przykłady

Drobne aktualizacje formatowania dla przykładów rozpoznawania osadzonego.

Zestaw Speech SDK 1.34.1: wydanie ze stycznia 2024 r.

Zmiany powodujące niezgodność

Tylko poprawki błędów

Nowe funkcje

Tylko poprawki błędów

Poprawki błędów

Poprawka regresji wprowadzona w wersji 1.34.0, w której utworzono adres URL punktu końcowego usługi z nieprawidłowymi ustawieniami regionalnymi dla użytkowników w kilku regionach Chin.

Zestaw Speech SDK 1.34.0: wydanie z listopada 2023 r.

Zmiany powodujące niezgodność

Funkcja SpeechRecognizer została zaktualizowana, aby domyślnie używać nowego punktu końcowego (tj. gdy nie określono jawnie adresu URL), który nie obsługuje już parametrów ciągu zapytania dla większości właściwości. Zamiast ustawiać parametry ciągu zapytania bezpośrednio za pomocą parametru ServicePropertyChannel.UriQueryParameter, użyj odpowiednich funkcji interfejsu API.

Nowe funkcje

Zgodność z platformą .NET 8 (poprawka z https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 wyjątkiem ostrzeżenia o centos7-x64)
Obsługa osadzonych metryk wydajności mowy, które mogą służyć do oceny możliwości urządzenia do uruchamiania osadzonej mowy.
Obsługa identyfikacji języka źródłowego w osadzonym translacji wielojęzycznej.
Obsługa osadzonej zamiany mowy na tekst, zamiany tekstu na mowę i tłumaczenie dla systemów iOS i Swift/Objective-C wydanych w wersji zapoznawczej.
Obsługa osadzona jest dostępna w usłudze MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Poprawki błędów

Poprawka dotycząca wzrostu rozmiaru binarnego zestawu SDK systemu iOS x2 razy · Problem nr 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Poprawka dotycząca niemożności pobrania sygnatur czasowych na poziomie wyrazów z usługi Azure Speech do interfejsu API tekstu · Problem nr 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Poprawka dotycząca fazy niszczenia okna dialogowegoServiceConnector w celu poprawnego rozłączenia zdarzeń. To powodowało awarie od czasu do czasu.
Poprawka wyjątku podczas tworzenia rozpoznawania, gdy jest używana usługa MAS.
FPIEProcessor.dll z pakietu NuGet Microsoft.CognitiveServices.Speech.Extension.MAS dla systemu Windows UWP x64 i ARM64 miały zależność od bibliotek środowiska uruchomieniowego VC dla natywnego języka C++. Problem został poprawiony przez zaktualizowanie zależności w celu poprawienia bibliotek środowiska uruchomieniowego VC (dla platformy UWP).
Poprawka dotycząca wywołań cyklicznych [MAS] w celu rozpoznawania potencjalnego klienta usługi RecognizeOnceAsync w celu SPXERR_ALREADY_INITIALIZED podczas korzystania z usługi MAS · Problem nr 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Poprawka dotycząca awarii osadzonego rozpoznawania mowy podczas użycia list fraz.

Przykłady

Osadzone przykłady systemu iOS dla zamiany mowy na tekst, zamiany tekstu na mowę i tłumaczenie.

Interfejs wiersza polecenia usługi Mowa w wersji 1.34.0: wydanie z listopada 2023 r.

Nowe funkcje

Obsługa danych wyjściowych zdarzeń granic słów podczas synchronizowania mowy.

Poprawki błędów

Zaktualizowano zależność JMESPath do najnowszej wersji, ulepsza oceny ciągów

Zestaw Speech SDK 1.33.0: wydanie z października 2023 r.

Powiadomienie o zmianach powodujących niezgodność

Nowy pakiet NuGet dodany dla usługi Microsoft Audio Stack (MAS) jest teraz wymagany do dołączania przez aplikacje korzystające z rozwiązania MAS w swoich plikach konfiguracji pakietu.

Nowe funkcje

Dodano nowy pakiet NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, który zapewnia lepszą wydajność anulowania echa podczas korzystania z usługi Microsoft Audio Stack
Ocena wymowy: dodano obsługę prosody i oceny zawartości, która może ocenić mowę mówionej pod względem prosodii, słownictwa, gramatyki i tematu.

Poprawki błędów

Naprawiono przesunięcia wyniku rozpoznawania słów kluczowych, tak aby były one poprawnie zgodne ze strumieniem dźwięku wejściowego od początku. Poprawka dotyczy zarówno autonomicznego rozpoznawania słów kluczowych, jak i rozpoznawania mowy wyzwalanej przez słowo kluczowe.
Naprawiono metodę stopSpeaking syntetyzatora nie zwraca natychmiast metody SPXSpeechSynthesizer stopSpeaking() nie można zwrócić natychmiast w systemie iOS 17 — Problem #2081
Rozwiązano problem z importowaniem katalizatora mac w module Swift Obsługa katalizatora mac z krzemem jabłkowym. Problem nr 1948
JS: Moduł AudioWorkletNode jest teraz ładowany przy użyciu zaufanego adresu URL z rezerwowym elementem przeglądarki CDN.
JS: Spakowane pliki lib są teraz przeznaczone dla środowiska ES6 JS z obsługą usuniętego środowiska ES5 JS.
JS: zdarzenia pośrednie dla scenariusza tłumaczenia przeznaczonego dla punktu końcowego w wersji 2 są poprawnie obsługiwane
JS: Właściwość języka TranslationRecognitionEventArgs jest teraz ustawiona dla zdarzeń translation.hypothesis.
Synteza mowy: zdarzenie SynthesisCompleted gwarantuje emitowane po wszystkich zdarzeniach metadanych, więc może służyć do wskazywania na koniec zdarzeń. Jak wykryć, kiedy wizemes są odbierane całkowicie? Problem nr 2093 Azure-Samples/cognitive-services-speech-sdk

Przykłady

Dodano przykład, aby zademonstrować przesyłanie strumieniowe MULAW przy użyciu języka Python)
Poprawka dotycząca przykładu NAudio zamiany mowy na tekst

Interfejs wiersza polecenia usługi Mowa w wersji 1.33.0: wydanie z października 2023 r.

Nowe funkcje

Obsługa danych wyjściowych zdarzeń granic słów podczas synchronizowania mowy.

Poprawki błędów

Brak

Zestaw Speech SDK 1.32.1: wersja z września 2023 r.

Poprawki błędów

Aktualizacje pakietów systemu Android z najnowszymi poprawkami zabezpieczeń z biblioteki OpenSSL1.1.1v
JS — dodano właściwość WebWorkerLoadType, aby umożliwić obejście obciążenia adresu URL danych dla procesu roboczego przekroczenia limitu czasu
JS — naprawianie rozłączenia tłumaczenia konwersacji po 10 minutach
JS — token uwierzytelniania tłumaczenia konwersacji z konwersacji jest teraz propagowany do połączenia usługi tłumaczenia

Przykłady

Transkrypcja konwersacji za pomocą interfejsów API języka Swift

Zestaw Speech SDK 1.31.0: wersja z sierpnia 2023 r.

Nowe funkcje

Obsługa diaryzacji w czasie rzeczywistym jest dostępna w publicznej wersji zapoznawczej z zestawem Speech SDK 1.31.0. Ta funkcja jest dostępna w następujących zestawach SDK: C#, C++, Java, JavaScript, Python i Objective-C/Swift.
Zsynchronizowana granica słowa syntezy mowy i zdarzenia viseme z odtwarzaniem dźwięku

Zmiany powodujące niezgodność

Nazwa byłego scenariusza "transkrypcji konwersacji" została zmieniona na "transkrypcja spotkań". Na przykład użyj polecenia MeetingTranscriber zamiast ConversationTranscriber, a nie CreateConversationAsync.CreateMeetingAsync Chociaż nazwy obiektów i metod zestawu SDK uległy zmianie, zmiana nazwy nie zmienia samej funkcji. Użyj obiektów transkrypcji spotkań na potrzeby transkrypcji spotkań z profilami użytkowników i podpisami głosowymi. Aby uzyskać więcej informacji, zobacz Transkrypcja spotkania. Te zmiany nie mają wpływu na obiekty i metody tłumaczenia konwersacji. Nadal można używać ConversationTranslator obiektu i jego metod na potrzeby scenariuszy tłumaczenia spotkań.

W przypadku diaryzacji w czasie rzeczywistym wprowadzono nowy ConversationTranscriber obiekt. Nowy model obiektów "transkrypcja konwersacji" i wzorce wywołań są podobne do ciągłego rozpoznawania obiektu SpeechRecognizer . Kluczową różnicą jest to, że ConversationTranscriber obiekt jest przeznaczony do użycia w scenariuszu konwersacji, w którym chcesz odróżnić wiele osób mówiących (diarization). Profile użytkowników i podpisy głosowe nie mają zastosowania. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący diaryzacji w czasie rzeczywistym.

W tej tabeli przedstawiono poprzednie i nowe nazwy obiektów dla diaryzacji w czasie rzeczywistym i transkrypcji spotkań. Nazwa scenariusza znajduje się w pierwszej kolumnie, poprzednie nazwy obiektów znajdują się w drugiej kolumnie, a nowe nazwy obiektów znajdują się w trzeciej kolumnie.

Nazwa scenariusza	Poprzednie nazwy obiektów	Nowe nazwy obiektów
Diaryzacja w czasie rzeczywistym	Nie dotyczy	`ConversationTranscriber`
Transkrypcja spotkania	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ Obiekty Participant, ParticipantChangedReasoni User mają zastosowanie zarówno do scenariuszy transkrypcji spotkania, jak i tłumaczenia spotkań.

² Obiekt Meeting jest nowy i jest używany z obiektem MeetingTranscriber .

Poprawki błędów

Naprawiono minimalną obsługiwaną wersję systemu macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Naprawiono usterkę oceny wymowy:
- Rozwiązano problem z wynikami dokładności telefonu, zapewniając, że teraz dokładnie odzwierciedlają tylko konkretny błędnie odrzucony phoneme. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Rozwiązano problem polegający na tym, że funkcja oceny wymowy była niedokładnie identyfikując całkowicie poprawną wymowę jako błędną, szczególnie w sytuacjach, w których wyrazy mogą mieć wiele prawidłowych wymow. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Przykłady

Zestaw SPEECH SDK 1.30.0: wersja z lipca 2023 r.

Nowe funkcje

C++, C#, Java — dodano obsługę DisplayWords szczegółowych wyników funkcji rozpoznawania mowy osadzonej.
Objective-C/Swift — dodano obsługę ConnectionMessageReceived zdarzenia w języku Objective-C/Swift.
Objective-C/Swift — ulepszone modele wyszukiwania słów kluczowych dla systemu iOS. Ta zmiana zwiększyła rozmiar niektórych pakietów, które zawierają pliki binarne systemu iOS (takie jak NuGet, XCFramework). Pracujemy nad zmniejszeniem rozmiaru przyszłych wersji.

Poprawki błędów

Rozwiązano problem z przeciekiem pamięci podczas korzystania z aparatu rozpoznawania mowy za pomocą funkcji PhraseListGrammar, co było zgłaszane przez klienta (problem z usługą GitHub).
Naprawiono zakleszczenie tekstu w interfejsie API otwierania połączenia mowy.

Dodatkowe uwagi

Java — niektóre metody interfejsu API języka Java zostały zmienione wewnętrznie na pakiet internal, protected lub private. public Ta zmiana nie powinna mieć wpływu na deweloperów, ponieważ nie oczekujemy, że aplikacje będą z nich korzystać. Tutaj zanotowano przejrzystość.

Przykłady

Nowe przykłady oceny wymowy dotyczące sposobu określania języka uczenia we własnej aplikacji
- C#: Zobacz przykładowy kod.
- C++: Zobacz przykładowy kod.
- JavaScript: zobacz przykładowy kod.
- Objective-C: Zobacz przykładowy kod.
- Python: zobacz przykładowy kod.
- Swift: zobacz przykładowy kod.

Zestaw Speech SDK 1.29.0: wersja z czerwca 2023 r.

Nowe funkcje

C++, C#, Java — wersja zapoznawcza osadzonych interfejsów API tłumaczenia mowy. Teraz możesz wykonać tłumaczenie mowy bez połączenia z chmurą!
JavaScript — ciągła identyfikacja języka (LID) jest teraz włączona na potrzeby tłumaczenia mowy.
JavaScript — współtworzenie społeczności w celu dodania LocaleName właściwości do VoiceInfo klasy. Dziękujemy użytkownikowi usługi GitHub shivsarthak za żądanie ściągnięcia.
C++, C#, Java — dodano obsługę ponownego próbkowania tekstu osadzonego do danych wyjściowych mowy z częstotliwości próbkowania 16 kHz do 48 kHz.
Dodano obsługę hi-IN ustawień regionalnych w rozpoznawaniu intencji z prostym dopasowaniem wzorca.

Poprawki błędów

Naprawiono awarię spowodowaną przez stan wyścigu w rozpoznawaniu mowy podczas niszczenia obiektu, jak pokazano w niektórych naszych testach systemu Android
Naprawiono możliwe zakleszczenia w rozpoznawaniu intencji za pomocą prostego dopasowania wzorca

Przykłady

Nowe osadzone przykłady tłumaczenia mowy

Zestaw Speech SDK 1.28.0: wydanie z maja 2023 r.

Zmiana powodująca niezgodność

Zestaw SDK języka JavaScript: protokół OCSP (Online Certificate Status Protocol) został usunięty. Dzięki temu klienci mogą lepiej dostosować się do standardów przeglądarki i węzłów na potrzeby obsługi certyfikatów. Wersja 1.28 i nowsze nie będą już zawierać naszego niestandardowego modułu OCSP.

Nowe funkcje

Rozpoznawanie mowy osadzonej jest teraz zwracane NoMatchReason::EndSilenceTimeout , gdy upłynął limit czasu ciszy na końcu wypowiedzi. Jest to zgodne z zachowaniem podczas rozpoznawania przy użyciu usługi rozpoznawania mowy w czasie rzeczywistym.
Zestaw SDK języka JavaScript: ustaw właściwości przy SpeechTranslationConfig użyciu PropertyId wartości wyliczenia.

Poprawki błędów

Język C# w systemie Windows — naprawianie potencjalnego stanu wyścigu/zakleszczenia w rozszerzeniu audio systemu Windows. W scenariuszach, w których zarówno szybkie usuwanie modułu renderowania dźwięku, jak i użycie metody Syntetyzatora do zatrzymania, bazowe zdarzenie nie zostało zresetowane przez zatrzymanie i może spowodować, że obiekt renderujący nigdy nie zostanie usunięty, a jednocześnie może przechowywać globalną blokadę do dyspozycji, zamrażając wątek GC dotnet.

Przykłady

Dodano przykład osadzonej mowy dla interfejsu MAUI.
Zaktualizowano przykład osadzonej mowy dla języka Java dla systemu Android w celu uwzględnienia tekstu na mowę.

Zestaw Speech SDK 1.27.0: wersja z kwietnia 2023 r.

Powiadomienie o nadchodzących zmianach

Planujemy usunięcie protokołu OCSP (Online Certificate Status Protocol) w następnej wersji zestawu JAVAScript SDK. Dzięki temu klienci mogą lepiej dostosować się do standardów przeglądarki i węzłów na potrzeby obsługi certyfikatów. Wersja 1.27 to ostatnia wersja zawierająca nasz niestandardowy moduł OCSP.

Nowe funkcje

JavaScript — dodano obsługę danych wejściowych mikrofonu z przeglądarki za pomocą funkcji identyfikacji i weryfikacji osoby mówiącej.
Rozpoznawanie mowy osadzonej — obsługa aktualizacji ustawień PropertyId::Speech_SegmentationSilenceTimeoutMs .

Poprawki błędów

Ogólne — aktualizacje niezawodności w logice ponownego łączenia usługi (wszystkie języki programowania z wyjątkiem języka JavaScript).
Ogólne — naprawianie konwersji ciągów przeciekających pamięci w systemie Windows (wszystkie odpowiednie języki programowania z wyjątkiem języka JavaScript).
Rozpoznawanie mowy osadzonej — naprawa awarii w funkcji rozpoznawania mowy francuskiej podczas korzystania z niektórych wpisów listy gramatycznej.
Dokumentacja kodu źródłowego — poprawki do dokumentacji zestawu SDK dotyczące komentarzy dokumentacji związanych z rejestrowaniem audio w usłudze.
Rozpoznawanie intencji — naprawianie priorytetów dopasowywania wzorca związanych z jednostkami listy.

Przykłady

Poprawnie obsłuż błąd uwierzytelniania w przykładzie transkrypcji konwersacji w języku C#( CTS).
Dodano przykład oceny wymowy przesyłania strumieniowego dla języków Python, JavaScript, Objective-C i Swift.

Zestaw Speech SDK 1.26.0: wersja z marca 2023 r.

Zmiany powodujące niezgodność

Kod bitowy został wyłączony we wszystkich miejscach docelowych systemu iOS w następujących pakietach: Cocoapod z xcframework, NuGet (dla platform Xamarin i MAUI) i aparatu Unity. Zmiana jest spowodowana wycofaniem obsługi kodu bitowego firmy Apple z wersji Xcode 14 i nowszych. Ta zmiana oznacza również, że jeśli używasz środowiska Xcode 13 lub jawnie włączono kod bitowy w aplikacji przy użyciu zestawu SDK usługi Mowa, może wystąpić błąd z informacją" struktura nie zawiera kodu bitowego i należy ją ponownie skompilować". Aby rozwiązać ten problem, upewnij się, że obiekty docelowe mają wyłączony kod bitowy.
Minimalny cel wdrożenia systemu iOS został uaktualniony do wersji 11.0 w tej wersji, co oznacza, że armv7 HW nie jest już obsługiwana.

Nowe funkcje

Funkcja rozpoznawania mowy osadzonej (na urządzeniu) obsługuje teraz zarówno dźwięk wejściowy o częstotliwości próbkowania 8, jak i 16 kHz (16-bitowy na próbkę, mono PCM).
Synteza mowy zgłasza teraz opóźnienia połączeń, sieci i usług w wyniku, aby ułatwić kompleksową optymalizację opóźnień.
Nowe reguły podziału dla rozpoznawania intencji z prostym dopasowaniem wzorca. Im więcej bajtów znaków, które są dopasowane, wygra dopasowania wzorca z mniejszą liczbą bajtów znaków. Przykład: Wzorzec "Select {something} in the top right" (Wybierz element {something} w prawym górnym rogu) spowoduje wygraną ciągu "Select {something}" (Wybierz {coś})

Poprawki błędów

Synteza mowy: napraw usterkę polegającą na tym, że emoji nie jest poprawne w zdarzeniach granic słowa.
Rozpoznawanie intencji za pomocą usługi Conversational Language Understanding (CLU):
- Intencje z przepływu pracy programu CLU Orchestrator są teraz wyświetlane poprawnie.
- Wynik JSON jest teraz dostępny za pośrednictwem identyfikatora LanguageUnderstandingServiceResponse_JsonResultwłaściwości .
Rozpoznawanie mowy z aktywacją słowa kluczowego: poprawka dotycząca braku dźwięku ~150 ms po rozpoznaniu słowa kluczowego.
Poprawka dotycząca kompilacji wydania nuGet zestawu SPEECH SDK dla systemu iOS MAUI zgłoszonej przez klienta (problem z usługą GitHub)

Przykłady

Poprawka przykładowa aplikacji Swift dla systemu iOS zgłoszona przez klienta (problem z usługą GitHub)

Zestaw Speech SDK 1.25.0: wydanie ze stycznia 2023 r.

Zmiany powodujące niezgodność

Interfejsy API identyfikacji języka (wersja zapoznawcza) zostały uproszczone. Jeśli zaktualizujesz zestaw Speech SDK 1.25 i zobaczysz podział kompilacji, odwiedź stronę Identyfikacji języka, aby dowiedzieć się więcej o nowej właściwości SpeechServiceConnection_LanguageIdMode. Ta pojedyncza właściwość zastępuje dwie poprzednie SpeechServiceConnection_SingleLanguageIdPrioritySpeechServiceConnection_ContinuousLanguageIdPriorityi . Ustalanie priorytetów między małym opóźnieniem a wysoką dokładnością nie jest już konieczne po najnowszych ulepszeniach modelu. Teraz wystarczy wybrać, czy uruchamiać funkcję przy uruchamianiu, czy ciągłej identyfikacji języka podczas ciągłego rozpoznawania mowy lub tłumaczenia.

Nowe funkcje

C#/C++/Java: Osadzony zestaw SPEECH SDK jest teraz udostępniany w publicznej wersji zapoznawczej. Zobacz dokumentację usługi Embedded Speech (wersja zapoznawcza). Teraz możesz wykonywać zamianę mowy na urządzenie na tekst i tekst na mowę, gdy łączność w chmurze jest sporadycznie lub niedostępna. Obsługiwane na platformach Android, Linux, macOS i Windows
C# MAUI: dodano obsługę elementów docelowych dla systemów iOS i Mac Catalyst w zestawie Sdk usługi Mowa NuGet (problem klienta)
Unity: architektura x86_64 systemu Android dodana do pakietu Aparatu Unity (problem z klientem)
Przejdź:
- Dodano obsługę bezpośredniego przesyłania strumieniowego usługi ALAW/MULAW na potrzeby rozpoznawania mowy (problem z klientem)
- Dodano obsługę elementu PhraseListGrammar. Dziękujemy użytkownikowi usługi GitHub czkoko za wkład społeczności!
C#/C++: Rozpoznawanie intencji obsługuje teraz modele usługi Conversational Language Understanding w języku C++ i C# z orkiestracją w usłudze firmy Microsoft

Poprawki błędów

Naprawianie okazjonalnego zawieszenia w obiekcie KeywordRecognizer podczas próby jego zatrzymania
Python:
- Poprawka dotycząca pobierania wyników oceny wymowy po PronunciationAssessmentGranularity.FullText ustawieniu (problem z klientem)
- Poprawka dotycząca właściwości płci dla głosów męskich, które nie są pobierane, podczas uzyskiwania głosów syntezy mowy
JavaScript
- Poprawka dotycząca analizowania niektórych plików WAV zarejestrowanych na urządzeniach z systemem iOS (problem klienta)
- Zestaw JS SDK teraz kompiluje się bez używania rozwiązania npm-force-resolutions (problem z klientem)
- Usługa Conversation Translator teraz poprawnie ustawia punkt końcowy usługi podczas korzystania z wystąpienia usługi speechConfig utworzonego przy użyciu funkcji SpeechConfig.fromEndpoint()

Przykłady

Dodano przykłady pokazujące, jak używać osadzonej mowy
Dodano mowę do przykładu tekstu dla interfejsu MAUI

Zobacz repozytorium przykładów zestawu SPEECH SDK.

Zestaw Speech SDK 1.24.2: wydanie z listopada 2022 r.

Nowe funkcje

Brak nowych funkcji— tylko osadzona poprawka aparatu do obsługi nowych plików modelu.

Poprawki błędów

Wszystkie języki programujące
- Rozwiązano problem z szyfrowaniem osadzonych modeli rozpoznawania mowy.

Zestaw Speech SDK 1.24.1: wydanie z listopada 2022 r.

Nowe funkcje

Opublikowane pakiety dla wersji zapoznawczej osadzonej mowy. Aby uzyskać więcej informacji, zobacz https://aka.ms/embedded-speech.

Poprawki błędów

Wszystkie języki programujące
- Naprawa osadzonej awarii TTS, gdy czcionka głosowa nie jest obsługiwana
- Poprawka stopSpeaking() nie może zatrzymać odtwarzania w systemie Linux (#1686)
Zestaw SDK dla języka JavaScript
- Naprawiono regresję w sposobie transkrypcji konwersacji z bramą dźwięku.
Java
- Tymczasowo opublikowane zaktualizowane pliki POM i Javadocs w usłudze Maven Central w celu umożliwienia potoku dokumentacji aktualizacji dokumentacji online.
Python
- Naprawiono regresję, w której język Python speak_text(ssml) zwraca wartość void.

Zestaw Speech SDK 1.24.0: wersja z października 2022 r.

Nowe funkcje

Wszystkie języki programowe: AMR-WB (16khz) dodane do obsługiwanej listy formatów danych wyjściowych zamiany tekstu na mowę
Python: dodano pakiet dla systemu Linux ARM64 w przypadku obsługiwanych dystrybucji systemu Linux.
C#/C++/Java/Python: Dodano obsługę bezpośredniego przesyłania strumieniowego ALAW i MULAW do usługi rozpoznawania mowy (oprócz istniejącego strumienia PCM) przy użyciu polecenia AudioStreamWaveFormat.
C# MAUI: pakiet NuGet zaktualizowany w celu obsługi obiektów docelowych systemu Android dla deweloperów MAUI platformy .NET (problem klienta)
Mac: dodano oddzielną pracę XCframework dla komputerów Mac, która nie zawiera żadnych plików binarnych systemu iOS. Oferuje to opcję dla deweloperów, którzy potrzebują tylko plików binarnych Mac przy użyciu mniejszego pakietu XCframework.
Microsoft Audio Stack (MAS):
- W przypadku określenia kątów tworzących belki dźwięk pochodzący poza określonym zakresem będzie lepiej pomijany.
- Około 70% zmniejszenie rozmiaru libMicrosoft.CognitiveServices.Speech.extension.mas.so dla systemu Linux ARM32 i Linux ARM64.
Rozpoznawanie intencji przy użyciu dopasowania wzorca:
- Dodawanie obsługi ortografii dla języków fr, , de, esjp
- Dodano wstępnie utworzoną obsługę liczb całkowitych dla języka es.

Poprawki błędów

iOS: usuwanie błędu syntezy mowy w systemie iOS 16 spowodowanego błędem dekodowania skompresowanego dźwięku (problem klienta).
JavaScript:
- Napraw token uwierzytelniania, który nie działa podczas pobierania listy głosów syntezy mowy (problem z klientem).
- Użyj adresu URL danych do ładowania procesów roboczych (problem z klientem).
- Utwórz worklet procesora audio tylko wtedy, gdy audioWorklet jest obsługiwany w przeglądarce (problem klienta). Był to wkład społeczności WilliamA Wonga. Dziękujemy Williamowi!
- Rozwiązano problem z rozpoznaną wywołaniem zwrotnym, gdy odpowiedź usługi connectionMessage LUIS jest pusta (problem z klientem).
- Odpowiednio ustaw limit czasu segmentacji mowy.
Rozpoznawanie intencji przy użyciu dopasowania wzorca:
- Znaki inne niż json wewnątrz modeli będą teraz poprawnie ładowane.
- Rozwiązano problem z zawieszającymi się wywołaniami recognizeOnceAsync(text) podczas ciągłego rozpoznawania.

Zestaw Speech SDK 1.23.0: wersja z lipca 2022 r.

Nowe funkcje

C#, C++, Java: dodano obsługę języków zh-cn i zh-hk rozpoznawania intencji z dopasowywania wzorców.
C#: Dodano obsługę AnyCPU kompilacji programu .NET Framework

Poprawki błędów

Android: usunięto lukę w zabezpieczeniach protokołu OpenSSL CVE-2022-2068 przez zaktualizowanie biblioteki OpenSSL do wersji 1.1.1q
Python: naprawianie awarii podczas korzystania z elementu PushAudioInputStream
iOS: Poprawka "EXC_BAD_ACCESS: Podjęto próbę wyłudzenia wskaźnika o wartości null" zgodnie z raportem w systemie iOS (problem z usługą GitHub)

Zestaw Speech SDK 1.22.0: wersja z czerwca 2022 r.

Nowe funkcje

Java: IntentRecognitionResult API for getEntities(), applyLanguageModels() i recognizeOnceAsync(text) dodany do obsługi aparatu "prostego dopasowywania wzorców".
Unity: dodano obsługę komputera Mac M1 (Apple Silicon) dla pakietu Aparatu Unity (problem z usługą GitHub)
C#: Dodano obsługę x86_64 dla platformy Xamarin Android (problem z usługą GitHub)
C#: Minimalna wersja programu .NET Framework zaktualizowana do wersji 4.6.2 dla pakietu C# zestawu SDK jako wersja 4.6.1 została wycofana (zobacz Zasady cyklu życia składnika programu Microsoft .NET Framework)
Linux: dodano obsługę systemów Debian 11 i Ubuntu 22.04 LTS. System Ubuntu 22.04 LTS wymaga ręcznej instalacji biblioteki libssl1.1 albo jako pakietu binarnego z tego miejsca (na przykład libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb lub nowszego dla x64) lub przez skompilowanie ze źródeł.

Poprawki błędów

UwP: zależność OpenSSL została usunięta z bibliotek platformy UWP i zastąpiona protokołem WebSocket WinRT i interfejsami API PROTOKOŁU HTTP w celu spełnienia zgodności z zabezpieczeniami i mniejszego śladu binarnego.
Mac: rozwiązano problem "MicrosoftCognitiveServicesSpeech Module Not Found" podczas korzystania z projektów Swift przeznaczonych dla platformy macOS
Windows, Mac: rozwiązano problem specyficzny dla platformy polegający na tym, że źródła audio, które zostały skonfigurowane za pośrednictwem właściwości do strumieniowego przesyłania strumieniowego w czasie rzeczywistym, czasami spadły i ostatecznie przekroczyły pojemność

Przykłady (GitHub)

C#: Zaktualizowano przykłady platformy .NET Framework w celu korzystania z wersji 4.6.2
Unity: przykład asystenta wirtualnego naprawiono dla systemów Android i UWP
Unity: przykłady aparatu Unity zaktualizowane dla wersji LTS aparatu Unity 2020

Zestaw Speech SDK 1.21.0: wersja z kwietnia 2022 r.

Nowe funkcje

Java i JavaScript: dodano obsługę ciągłej identyfikacji języka podczas korzystania z obiektu SpeechRecognizer
JavaScript: dodano interfejsy API diagnostyczne w celu włączenia rejestrowania na poziomie rejestrowania konsoli i rejestrowania plików (tylko węzeł) w celu ułatwienia firmie Microsoft rozwiązywania problemów zgłaszanych przez klientów
Python: Dodano obsługę transkrypcji konwersacji
Go: Dodano obsługę rozpoznawania osoby mówiącej
C++ i C#: Dodano obsługę wymaganej grupy wyrazów w rozpoznawaniu intencji (proste dopasowywanie wzorca). Na przykład: "(set|start|begin) czasomierz", w którym "set", "start" lub "begin" musi być obecny, aby intencja została rozpoznana.
Wszystkie języki programowania, Synteza mowy: dodano właściwość czasu trwania w zdarzeniach granic wyrazów. Dodano obsługę granicy interpunkcyjnej i granicy zdań
Objective-C/Swift/Java: dodano wyniki na poziomie wyrazu w obiekcie wyniku oceny wymowy (podobnie jak w języku C#). Aplikacja nie musi już analizować ciągu wyników JSON, aby uzyskać informacje na poziomie wyrazu (problem z usługą GitHub)
Platforma systemu iOS: dodano eksperymentalną obsługę architektury ARMv7

Poprawki błędów

Platforma systemu iOS: poprawka umożliwiająca kompilowanie elementu docelowego "Dowolne urządzenie z systemem iOS" podczas korzystania z narzędzia CocoaPod (problem z usługą GitHub)
Platforma systemu Android: wersja openSSL została zaktualizowana do wersji 1.1.1n w celu naprawienia luki w zabezpieczeniach CVE-2022-0778
JavaScript: rozwiązano problem polegający na tym, że nagłówek wav nie był aktualizowany przy użyciu rozmiaru pliku (problem z usługą GitHub)
JavaScript: rozwiązywanie problemów z anulowaniem synchronizacji identyfikatora żądania — problemy z tłumaczeniem powodujących niezgodność (problem z usługą GitHub)
JavaScript: rozwiązano problem podczas tworzenia wystąpienia wystąpienia elementu SpeakerAudioDestination bez strumienia (problem z usługą GitHub)
C++: Napraw nagłówki języka C++, aby usunąć ostrzeżenie podczas kompilowania dla języka C++17 lub nowszego

Przykłady w usłudze GitHub

Nowe przykłady języka Java do rozpoznawania mowy z identyfikacją języka
Nowe przykłady języków Python i Java na potrzeby transkrypcji konwersacji
Nowy przykład języka Go na potrzeby rozpoznawania osoby mówiącej
Nowe narzędzie języka C++ i języka C# dla systemu Windows, które wylicza wszystkie urządzenia do przechwytywania i renderowania dźwięku w celu znalezienia identyfikatora urządzenia. Ten identyfikator jest wymagany przez zestaw SDK usługi Mowa, jeśli planujesz przechwytywać dźwięk z lub renderować dźwięk do urządzenia innego niż domyślne.

Zestaw Speech SDK 1.20.0: wydanie ze stycznia 2022 r.

Nowe funkcje

Objective-C, Swift i Python: dodano obsługę poleceń DialogServiceConnector używanych w scenariuszach asystenta głosowego.
Python: dodano obsługę języka Python 3.10. Obsługa języka Python 3.6 została usunięta na koniec życia języka Python przez 3,6.
Unity: zestaw SPEECH SDK jest teraz obsługiwany dla aplikacji aparatu Unity w systemie Linux.
C++, C#: IntentRecognizer przy użyciu dopasowywania wzorca jest teraz obsługiwany w języku C#. Ponadto scenariusze z jednostkami niestandardowymi, opcjonalnymi grupami i rolami jednostek są teraz obsługiwane w językach C++ i C#.
C++, C#: Ulepszone rejestrowanie śledzenia diagnostyki przy użyciu nowych klas FileLogger, MemoryLogger i EventLogger. Dzienniki zestawu SDK są ważnym narzędziem firmy Microsoft do diagnozowania problemów zgłaszanych przez klientów. Te nowe klasy ułatwiają klientom integrowanie dzienników zestawu Speech SDK z własnym systemem rejestrowania.
Wszystkie języki programowania: WymowaAssessmentConfig ma teraz właściwości ustawiania żądanego alfabetu phoneme (IPA lub SAPI) i N-Best Phoneme Count (unikanie konieczności tworzenia konfiguracji JSON zgodnie z problemem 1284 w usłudze GitHub). Ponadto dane wyjściowe na poziomie sylalnej są teraz obsługiwane.
Android, iOS i macOS (wszystkie języki programowania): usługa GStreamer nie jest już potrzebna do obsługi sieci o ograniczonej przepustowości. Funkcja SpeechSynthesizer używa teraz funkcji dekodowania audio systemu operacyjnego do dekodowania skompresowanego dźwięku przesyłanego strumieniowo z tekstu do usługi mowy.
Wszystkie języki programowania: Funkcja SpeechSynthesizer obsługuje teraz trzy nowe nieprzetworzone formaty Wyjściowe Firmy (bez kontenera), które są powszechnie używane w scenariuszach transmisji strumieniowej na żywo.
JavaScript: dodano interfejs API getVoicesAsync() do usługi SpeechSynthesizer w celu pobrania listy obsługiwanych głosów syntezy (problem 1350 w usłudze GitHub)
JavaScript: dodano interfejs API getWaveFormat() do formatu AudioStreamFormat w celu obsługi formatów fal innych niż PCM (problem 452 w usłudze GitHub)
JavaScript: dodano interfejsy API getter/setter i mute()/unmute() do funkcji SpeakerAudioDestination (problem 463 w usłudze GitHub)

Poprawki błędów

C++, C#, Java, JavaScript, Objective-C i Swift: poprawka umożliwiająca usunięcie 10-sekundowego opóźnienia podczas zatrzymywania rozpoznawania mowy korzystającego z elementu PushAudioInputStream. Dotyczy to sytuacji, w której po wywołaniu polecenia StopContinuousRecognition (problemy z usługą GitHub 1318, 3311)
Aparat Unity w systemach Android i UWP: metapliki aparatu Unity zostały naprawione dla platformy UWP, Android ARM64 i Podsystem Windows dla systemu Android (WSA) ARM64 (problem z usługą GitHub 1360)
iOS: kompilowanie aplikacji zestawu SPEECH SDK na dowolnym urządzeniu z systemem iOS podczas korzystania z narzędzia CocoaPods jest teraz rozwiązane (problem z usługą GitHub 1320)
iOS: gdy funkcja SpeechSynthesizer jest skonfigurowana do wyprowadzania dźwięku bezpośrednio do głośnika, odtwarzanie zostało zatrzymane na początku w rzadkich warunkach. To zostało naprawione.
JavaScript: użyj rezerwowego procesora skryptu dla danych wejściowych mikrofonu, jeśli nie znaleziono żadnego workletu audio (problem 455 w usłudze GitHub)
JavaScript: dodawanie protokołu do agenta w celu wyeliminowania usterki wykrytej za pomocą integracji usługi Sentry (problem 465 w usłudze GitHub)

Przykłady w usłudze GitHub

Przykłady języków C++, C#, Python i Java pokazujące sposób uzyskiwania szczegółowych wyników rozpoznawania. Szczegóły obejmują wyniki rozpoznawania alternatywnego, współczynnik ufności, formularz leksykalny, formularz znormalizowany, formularz maskowany z chronometrażem na poziomie wyrazu dla każdego z nich.
Przykład systemu iOS dodany przy użyciu narzędzia AVFoundation jako zewnętrznego źródła audio.
Dodano przykład języka Java, aby pokazać, jak uzyskać format SRT (SubRip Text) przy użyciu zdarzenia WordBoundary.
Przykłady dla systemu Android na potrzeby oceny wymowy.
C++, C# pokazujący użycie nowych klas rejestrowania diagnostycznego.

Zestaw Speech SDK 1.19.0: wydanie z listopada 2021 r.

Najważniejsze informacje

Usługa rozpoznawania osoby mówiącej jest teraz ogólnie dostępna. Interfejsy API zestawu SPEECH SDK są dostępne w językach C++, C#, Java i JavaScript. Dzięki funkcji rozpoznawania osoby mówiącej można dokładnie zweryfikować i zidentyfikować osoby mówiące o ich unikatowych cechach głosu. Aby uzyskać więcej informacji na temat tego tematu, zobacz dokumentację.
Zrezygnowaliśmy z obsługi systemu Ubuntu 16.04 w połączeniu z usługami Azure DevOps i GitHub. Ubuntu 16.04 osiągnął koniec życia już w kwietniu 2021 roku. Przeprowadź migrację przepływów pracy systemu Ubuntu 16.04 do systemu Ubuntu 18.04 lub nowszego.
Łączenie biblioteki OpenSSL w plikach binarnych systemu Linux zmieniło się na dynamiczne. Rozmiar pliku binarnego systemu Linux został zmniejszony o około 50%.
Dodano obsługę krzemu opartego na architekturze ARM na komputerze Mac M1.

Nowe funkcje

C++/C#/Java: dodano nowe interfejsy API w celu włączenia obsługi przetwarzania audio dla danych wejściowych mowy za pomocą usługi Microsoft Audio Stack. Tutaj znajdziesz dokumentację.
C++: Nowe interfejsy API do rozpoznawania intencji ułatwiające bardziej zaawansowane dopasowywanie wzorców. Obejmuje to jednostki List i Prebuilt Integer, a także obsługę grupowania intencji i jednostek jako modeli (dokumentacja, aktualizacje i przykłady są opracowywane i będą publikowane w najbliższej przyszłości).
Mac: obsługa krzemu opartego na architekturze ARM64 (M1) dla pakietów CocoaPod, Python, Java i NuGet związanych z problemem GitHub 1244.
iOS/Mac: pliki binarne systemu iOS i macOS są teraz pakowane w pliki xcframework związane z problemem GitHub 919.
iOS/Mac: obsługa katalizatora dla komputerów Mac związanych z problemem GitHub 1171.
Linux: dodano nowy pakiet tar dla centOS7 About the Speech SDK (Informacje o zestawie SDK usługi Mowa). Pakiet .tar systemu Linux zawiera teraz określone biblioteki dla systemu RHEL/CentOS 7 w systemie lib/centos7-x64. Biblioteki zestawu SPEECH SDK w bibliotece lib/x64 są nadal stosowane dla wszystkich innych obsługiwanych dystrybucji systemu Linux x64 (w tym RHEL/CentOS 8) i nie będą działać w systemie RHEL/CentOS 7.
JavaScript: interfejsy API VoiceProfile i SpeakerRecognizer wykonane async/awaitable.
JavaScript: dodano obsługę regionów platformy Azure dla instytucji rządowych USA.
Windows: dodano obsługę odtwarzania w systemie platforma uniwersalna systemu Windows (UWP).

Poprawki błędów

Android: aktualizacja zabezpieczeń openSSL (zaktualizowana do wersji 1.1.1l) dla pakietów systemu Android.
Python: Usunięto usterkę polegającą na tym, że wybieranie urządzenia mówiącego w języku Python kończy się niepowodzeniem.
Podstawowe: automatycznie połącz się ponownie, gdy próba połączenia zakończy się niepowodzeniem.
iOS: kompresja audio wyłączona w pakietach systemu iOS ze względu na niestabilność i problemy z kompilacją kodu bitowego podczas korzystania z usługi GStreamer. Szczegóły są dostępne za pośrednictwem usługi GitHub problemu 1209.

Przykłady w usłudze GitHub

Mac/iOS: zaktualizowano przykłady i przewodniki Szybki start dotyczące korzystania z pakietu xcframework.
.NET: przykłady zaktualizowane do korzystania z wersji .NET Core 3.1.
JavaScript: dodano przykład dla asystentów głosowych.

Zestaw Speech SDK 1.18.0: wersja z 2021 r.

Uwaga: rozpocznij pracę z zestawem SPEECH SDK tutaj.

Podsumowanie wyróżniania

Ubuntu 16.04 osiągnął koniec życia w kwietniu 2021 roku. W przypadku usług Azure DevOps i GitHub spadniemy obsługę wersji 16.04 we wrześniu 2021 r. Przeprowadź migrację przepływów pracy ubuntu-16.04 do systemu ubuntu-18.04 lub nowszego wcześniej.

Nowe funkcje

C++: Prosty wzorzec języka zgodny z rozpoznawaniem intencji ułatwia teraz implementowanie prostych scenariuszy rozpoznawania intencji.
C++/C#/Java: Dodaliśmy nowy interfejs API GetActivationPhrasesAsync() do VoiceProfileClient klasy w celu otrzymania listy prawidłowych fraz aktywacji w fazie rejestracji rozpoznawania osoby mówiącej dla niezależnych scenariuszy rozpoznawania.
- Ważne: funkcja rozpoznawania osoby mówiącej jest dostępna w wersji zapoznawczej. Wszystkie profile głosowe utworzone w wersji zapoznawczej zostaną wycofane z 90 dni po przeniesieniu funkcji rozpoznawania osoby mówiącej z wersji zapoznawczej do ogólnej dostępności. W tym momencie profile głosowe w wersji zapoznawczej przestaną działać.
Python: dodano obsługę ciągłej identyfikacji języka (LID) w istniejących obiektach SpeechRecognizer i TranslationRecognizer .
Python: dodano nowy obiekt języka Python o nazwie SourceLanguageRecognizer , aby wykonać jednorazową lub ciągłą pokrywę (bez rozpoznawania lub tłumaczenia).
JavaScript: getActivationPhrasesAsync interfejs API dodany do VoiceProfileClient klasy w celu otrzymania listy prawidłowych fraz aktywacji w fazie rejestracji rozpoznawania osoby mówiącej dla niezależnych scenariuszy rozpoznawania.
Interfejs API języka JavaScriptVoiceProfileClientenrollProfileAsync jest teraz asynchroniczny. Zobacz ten niezależny kod identyfikacyjny, na przykład użycie.

Ulepszenia

Java: obsługa funkcji AutoCloseable dodana do wielu obiektów Java. Teraz model try-with-resources jest obsługiwany w celu wydania zasobów. Zobacz ten przykład, który używa funkcji try-with-resources. Aby dowiedzieć się więcej na temat tego wzorca, zapoznaj się również z samouczkiem dotyczącym dokumentacji języka Java dla środowiska Oracle dla instrukcji try-with-resources .
Zużycie dysku zostało znacznie zmniejszone dla wielu platform i architektur. Przykłady danych Microsoft.CognitiveServices.Speech.core binarnych: x64 Linux jest mniejszy niż 475 KB (8,0%); Arm64 Windows UWP jest mniejszy o 464 KB (11,5%); x86 Windows jest mniejszy niż 343 KB (17,5%); i x64 Windows jest mniejszy o 451 KB (19,4% redukcji).

Poprawki błędów

Java: Naprawiono błąd syntezy, gdy tekst syntezy zawiera znaki zastępcze. Szczegóły znajdują się tutaj.
JavaScript: przetwarzanie dźwięku mikrofonu przeglądarki używa AudioWorkletNode teraz zamiast przestarzałego ScriptProcessorNode. Szczegóły znajdują się tutaj.
JavaScript: poprawne utrzymywanie konwersacji podczas długotrwałych scenariuszy tłumaczenia konwersacji. Szczegóły znajdują się tutaj.
JavaScript: rozwiązano problem polegający na ponownym połączeniu rozpoznawania z strumieniem multimediów w ciągłym rozpoznawaniu. Szczegóły znajdują się tutaj.
JavaScript: rozwiązano problem z ponownym nawiązywaniem połączenia z elementem pushStream w ciągłym rozpoznawaniu. Szczegóły znajdują się tutaj.
JavaScript: poprawiono obliczanie przesunięcia na poziomie wyrazu w wynikach szczegółowego rozpoznawania. Szczegóły znajdują się tutaj.

Przykłady

Przykłady z przewodnika Szybki start dla języka Java zostały zaktualizowane tutaj.
Zaktualizowano przykłady rozpoznawania osoby mówiącej w języku JavaScript, aby pokazać nowe użycie elementu enrollProfileAsync(). Zobacz przykłady tutaj.

Zestaw Speech SDK 1.17.0: wersja z maja 2021 r.

Uwaga

Rozpocznij pracę z zestawem SPEECH SDK tutaj.

Podsumowanie wyróżniania

Mniejszy ślad — nadal zmniejszamy ilość pamięci i dysku zestawu SPEECH SDK oraz jego składników.
Nowy autonomiczny interfejs API identyfikacji języka umożliwia rozpoznawanie języka mówionego.
Twórz aplikacje rzeczywistości mieszanej i gier z obsługą mowy przy użyciu aparatu Unity w systemie macOS.
Teraz możesz używać funkcji Zamiana tekstu na mowę oprócz rozpoznawania mowy z języka programowania Go.
Kilka poprawek usterek w celu rozwiązania problemów, które zostały oflagowane przez naszych cenionych klientów w usłudze GitHub! DZIĘKUJĘ! Śledź opinie!

Nowe funkcje

C++/C#: Nowe autonomiczne wykrywanie języka przy uruchamianiu i ciągłym za pośrednictwem interfejsu SourceLanguageRecognizer API. Jeśli chcesz tylko wykryć języki mówione w zawartości audio, jest to interfejs API, aby to zrobić. Szczegółowe informacje można znaleźć w językach C++ i C#.
C++/C#: Rozpoznawanie mowy i rozpoznawanie tłumaczenia obsługują teraz zarówno na początku, jak i ciągłą identyfikację języka, dzięki czemu można programowo określić, które języki są używane przed ich transkrypcją lub przetłumaczoną. Zapoznaj się z dokumentacją dotyczącą rozpoznawania mowy i tutaj, aby zapoznać się z tłumaczeniem mowy.
C#: Dodano obsługę aparatu Unity dla systemu macOS (x64). Spowoduje to odblokowanie rozpoznawania mowy i przypadków użycia syntezy mowy w rzeczywistości mieszanej i grach!
Go: Dodaliśmy obsługę tekstu syntezy mowy na mowę w języku programowania Go w celu udostępnienia syntezy mowy w jeszcze większej analizie użycia. Zobacz nasz przewodnik Szybki start lub dokumentację referencyjną.
C++/C#/Java/Python/Objective-C/Go: syntetyzator mowy obsługuje connection teraz obiekt. Ułatwia to zarządzanie i monitorowanie połączenia z usługą Rozpoznawanie mowy, co jest szczególnie przydatne w przypadku wstępnego nawiązywania połączenia w celu zmniejszenia opóźnienia. Zapoznaj się z dokumentacją tutaj.
C++/C#/Java/Python/Objective-C/Go: Teraz uwidaczniamy opóźnienie i czas wykonywania, SpeechSynthesisResult aby ułatwić monitorowanie i diagnozowanie problemów z opóźnieniem syntezy mowy. Zobacz szczegóły języków C++, C#, Java, Python, Objective-C i Go.
C++/C#/Java/Python/Objective-C: Zamiana tekstu na mowę domyślnie używa głosów neuronowych, gdy nie określisz głosu do użycia. Zapewnia to domyślnie większą wierność danych wyjściowych, ale także zwiększa domyślną cenę. Możesz określić dowolny z ponad 70 standardowych głosów lub ponad 130 neuronowych głosów, aby zmienić wartość domyślną.
C++/C#/Java/Python/Objective-C/Go: Dodaliśmy właściwość Gender do informacji o głosie syntezy, aby ułatwić wybieranie głosów na podstawie płci. Dotyczy to problemu z usługą GitHub #1055.
C++, C#, Java, JavaScript: obsługujemy teraz rozpoznawanie retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsynci getAllProfilesAsync() w funkcji rozpoznawania osoby mówiącej, aby ułatwić zarządzanie użytkownikami wszystkich profilów głosowych dla danego konta. Zobacz dokumentację języka C++, C#, Java, JavaScript. To rozwiązanie problemu z usługą GitHub nr 338.
JavaScript: dodaliśmy ponawianie prób dla niepowodzeń połączenia, które sprawią, że aplikacje mowy oparte na języku JavaScript będą bardziej niezawodne.

Ulepszenia

Pliki binarne zestawu SDK rozpoznawania mowy dla systemu Linux i Android zostały zaktualizowane w celu korzystania z najnowszej wersji biblioteki OpenSSL (1.1.1k)
Ulepszenia rozmiaru kodu:
- Usługa Language Understanding jest teraz podzielona na oddzielną bibliotekę "lu".
- Rozmiar binarny systemu Windows x64 core zmniejszył się o 14,4%.
- Rozmiar binarny rdzenia arm64 systemu Android zmniejszył się o 13,7%.
- inne składniki również zmniejszyły się w rozmiarze.

Poprawki błędów

Wszystko: Rozwiązano problem z usługą GitHub #842 dla elementu ServiceTimeout. Teraz można transkrybować długie pliki audio przy użyciu zestawu SPEECH SDK bez połączenia z usługą kończącą się tym błędem. Jednak nadal zalecamy używanie transkrypcji wsadowej dla długich plików.
C#: Rozwiązano problem z usługą GitHub #947 polegający na tym, że żadne dane wejściowe mowy nie mogły pozostawić aplikacji w złym stanie.
Java: Rozwiązano problem z usługą GitHub #997 polegający na tym, że zestaw SPEECH SDK dla języka Java 1.16 ulegał awarii podczas korzystania z narzędzia DialogServiceConnector bez połączenia sieciowego lub nieprawidłowego klucza subskrypcji.
Naprawiono awarię, gdy nagle zatrzymano rozpoznawanie mowy (na przykład przy użyciu CTRL+C w aplikacji konsolowej).
Java: dodano poprawkę do usuwania plików tymczasowych w systemie Windows podczas korzystania z zestawu Speech SDK dla języka Java.
Java: Rozwiązano problem z usługą GitHub nr 994 polegający na tym, że wywołanie DialogServiceConnector.stopListeningAsync mogło spowodować błąd.
Java: rozwiązano problem klienta w przewodniku Szybki start asystenta wirtualnego.
JavaScript: Rozwiązano problem z usługą GitHub #366 , w którym ConversationTranslator wystąpił błąd "this.cancelSpeech nie jest funkcją".
JavaScript: Rozwiązano problem z usługą GitHub nr 298 , w którym przykład "Pobierz wynik jako strumień w pamięci" odtwarzał dźwięk głośno.
JavaScript: Rozwiązano problem z usługą GitHub #350 , który polegał na tym, że wywołanie AudioConfig mogło spowodować, że element "ReferenceError: MediaStream" nie został zdefiniowany.
JavaScript: naprawiono ostrzeżenie UnhandledPromiseRejection w Node.js dla długotrwałych sesji.

Przykłady

Zaktualizowano dokumentację przykładów aparatu Unity dla systemu macOS tutaj.
Przykład react native dla usługi rozpoznawania mowy azure AI jest teraz dostępny tutaj.

Zestaw Speech SDK 1.16.0: wersja z marca 2021 r.

Uwaga

Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz go tutaj.

Nowe funkcje

C++/C#/Java/Python: przeniesiono do najnowszej wersji usługi GStreamer (1.18.3), aby dodać obsługę transkrypcji dowolnego formatu multimediów w systemach Windows, Linux i Android. Zapoznaj się z dokumentacją tutaj.
C++/C#/Java/Objective-C/Python: Dodano obsługę dekodowania skompresowanego TTS/syntetyzowanego dźwięku do zestawu SDK. Jeśli ustawisz format audio wyjściowego na PCM i GStreamer jest dostępny w systemie, zestaw SDK automatycznie zażąda skompresowanego dźwięku z usługi, aby zaoszczędzić przepustowość i zdekodować dźwięk na kliencie. Możesz ustawić wartość SpeechServiceConnection_SynthEnableCompressedAudioTransmission , aby false wyłączyć tę funkcję. Szczegóły języka C++, C#, Java, Objective-C, Python.
JavaScript: Node.js użytkownicy mogą teraz używać interfejsu AudioConfig.fromWavFileInput API. To rozwiązanie problemu z usługą GitHub nr 252.
C++/C#/Java/Objective-C/Python: Dodano GetVoicesAsync() metodę TTS, aby zwrócić wszystkie dostępne głosy syntezy. Szczegóły języków C++, C#, Java, Objective-C i Python.
C++/C#/Java/JavaScript/Objective-C/Python: Dodano VisemeReceived zdarzenie syntezy TTS/mowy w celu zwrócenia synchronicznej animacji wizjera. Zapoznaj się z dokumentacją tutaj.
C++/C#/Java/JavaScript/Objective-C/Python: Dodano BookmarkReached zdarzenie dla usługi TTS. Zakładki można ustawić w wejściowym języku SSML i pobrać przesunięcia audio dla każdej zakładki. Zapoznaj się z dokumentacją tutaj.
Java: dodano obsługę interfejsów API rozpoznawania osoby mówiącej. Szczegóły znajdują się tutaj.
C++/C#/JavaScript/Objective-C/Python: dodano dwa nowe formaty audio wyjściowe z kontenerem WebM dla TTS (Webm16Khz16BitMonoOpus i Webm24Khz16BitMonoOpus). Są to lepsze formaty przesyłania strumieniowego audio za pomocą koderu Opus. Szczegóły języka C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: Dodano obsługę pobierania profilu głosowego dla scenariusza rozpoznawania osoby mówiącej. Szczegóły dotyczące języków C++, C# i Java.
C++/C#/Java/Objective-C/Python: Dodano obsługę oddzielnej biblioteki udostępnionej dla mikrofonu audio i kontrolki głośnika. Dzięki temu deweloper może używać zestawu SDK w środowiskach, które nie mają wymaganych zależności bibliotek audio.
Objective-C/Swift: dodano obsługę platformy modułów z nagłówkiem parasola. Dzięki temu deweloper może zaimportować zestaw SPEECH SDK jako moduł w aplikacjach języka Objective-C/Swift dla systemu iOS/Mac. To rozwiązanie problemu z usługą GitHub nr 452.
Python: dodano obsługę języka Python 3.9 i usunięto obsługę języka Python 3.5 na koniec życia języka Python przez 3,5.

Znane problemy

C++/C#/Java: DialogServiceConnector nie można użyć elementu w CustomCommandsConfig celu uzyskania dostępu do aplikacji poleceń niestandardowych i zamiast tego wystąpi błąd połączenia. Można to obejść przez ręczne dodanie identyfikatora aplikacji do żądania za pomocą polecenia config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Oczekiwane zachowanie funkcji zostanie przywrócone CustomCommandsConfig w następnej wersji.

Ulepszenia

W ramach wysiłku obejmującego wiele wersji, aby zmniejszyć użycie pamięci i zużycie dysku przez zestaw SDK usługi Mowa, pliki binarne systemu Android są teraz o 3% do 5% mniejsze.
Poprawiono dokładność, czytelność i sekcje naszej dokumentacji referencyjnej języka C#tutaj.

Poprawki błędów

JavaScript: duże nagłówki plików WAV są teraz poprawnie analizowane (zwiększa fragment nagłówka do 512 bajtów). To rozwiązanie problemu z usługą GitHub nr 962.
JavaScript: Poprawiono problem z chronometrażem mikrofonu, jeśli strumień mikrofonu kończy się przed zatrzymaniem rozpoznawania, co rozwiązuje problem z brakiem funkcji rozpoznawania mowy w przeglądarce Firefox.
JavaScript: Teraz poprawnie obsługujemy obietnicę inicjowania, gdy przeglądarka wymusza wyłączenie mikrofonu przed zakończeniem włączania.
JavaScript: zamieniliśmy zależność adresu URL na adres URL-parse. To rozwiązanie problemu z usługą GitHub nr 264.
Android: naprawiono wywołania zwrotne, które nie działają, gdy minifyEnabled ustawiono wartość true.
C++/C#/Java/Objective-C/Python: TCP_NODELAY zostanie poprawnie ustawiona na bazowe we/wy gniazda dla usługi TTS, aby zmniejszyć opóźnienie.
C++/C#/Java/Python/Objective-C/Go: Naprawiono sporadyczne awarie, gdy rozpoznawanie zostało zniszczone tuż po uruchomieniu rozpoznawania.
C++/C#/Java: Naprawiono sporadyczne awarie w niszczeniu aparatu rozpoznawania osoby mówiącej.

Przykłady

JavaScript: przykłady przeglądarki nie wymagają już oddzielnego pobierania pliku biblioteki JavaScript.

Zestaw Speech SDK 1.15.0: wydanie ze stycznia 2021 r.

Uwaga

Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz go tutaj.

Podsumowanie wyróżniania

Mniejsza ilość pamięci i miejsca na dysku sprawia, że zestaw SDK jest bardziej wydajny.
Formaty danych wyjściowych o większej wierności są dostępne dla prywatnej wersji zapoznawczej niestandardowego neuronowego głosu.
Rozpoznawanie intencji może teraz uzyskać zwrot więcej niż górna intencja, co daje możliwość dokonania oddzielnej oceny intencji klienta.
Asystentzy głosowi i boty są teraz łatwiejsze do skonfigurowania i możesz sprawić, że natychmiast przestanie nasłuchiwać, i kontrolować sposób reagowania na błędy.
Ulepszona wydajność urządzenia dzięki opcjonalnemu kompresji.
Użyj zestawu Speech SDK w systemie Windows ARM/ARM64.
Ulepszone debugowanie niskiego poziomu.
Funkcja oceny wymowy jest teraz szerzej dostępna.
Kilka poprawek usterek w celu rozwiązania problemów, które zostały oflagowane przez naszych cenionych klientów w usłudze GitHub! DZIĘKUJĘ! Śledź opinie!

Ulepszenia

Zestaw SDK usługi Mowa jest teraz bardziej wydajny i lekki. Rozpoczęliśmy nakład pracy z wieloma wersjami, aby zmniejszyć użycie pamięci i zużycie dysku przez zestaw SDK usługi Mowa. Pierwszym krokiem było znaczne zmniejszenie rozmiaru plików w bibliotekach udostępnionych na większości platform. W porównaniu z wersją 1.14:
- 64-bitowe biblioteki systemu Windows zgodne z platformą UWP są o około 30% mniejsze.
- 32-bitowe biblioteki systemu Windows nie widzą jeszcze poprawy rozmiaru.
- Biblioteki systemu Linux są o 20–25% mniejsze.
- Biblioteki systemu Android są o 3–5% mniejsze.

Nowe funkcje

Wszystko: Nowe formaty wyjściowe 48 KHz dostępne dla prywatnej wersji zapoznawczej niestandardowego neuronowego głosu za pośrednictwem interfejsu API syntezy mowy TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Wszystko: Niestandardowy głos jest również łatwiejszy w użyciu. Dodano obsługę ustawiania głosu niestandardowego za pośrednictwem języka EndpointId (C++, C#, Java, JavaScript , Objective-C, Python). Przed tą zmianą niestandardowi użytkownicy głosowi musieli ustawić adres URL punktu końcowego FromEndpoint za pomocą metody . Teraz klienci mogą używać FromSubscription metody tak samo jak wstępnie utworzone głosy, a następnie podać identyfikator wdrożenia, ustawiając wartość EndpointId. Upraszcza to konfigurowanie niestandardowych głosów.
C++/C#/Java/Objective-C/Python: Uzyskaj więcej niż górną intencjęIntentRecognizer. Obsługuje teraz konfigurowanie wyniku JSON zawierającego wszystkie intencje, a nie tylko intencję oceniania najwyższego poziomu za pośrednictwem metody przy LanguageUnderstandingModel FromEndpoint użyciu verbose=true parametru URI. To rozwiązanie problemu z usługą GitHub nr 880. Zobacz zaktualizowaną dokumentację tutaj.
C++/C#/Java: natychmiastowe zatrzymywanie nasłuchiwania asystenta głosowego lub bota. DialogServiceConnector(C++, C#, Java) ma teraz metodę towarzyszącą ListenOnceAsync()StopListeningAsync() . Spowoduje to natychmiastowe zatrzymanie przechwytywania dźwięku i bezproblemowe oczekiwanie na wynik, co czyni go idealnym do użycia ze scenariuszami "zatrzymaj teraz" naciśnięcia przycisku.
C++/C#/Java/JavaScript: Ustaw asystenta głosowego lub bota na lepsze reagowanie na podstawowe błędy systemu. DialogServiceConnector (C++, C#, Java, JavaScript) ma teraz nową TurnStatusReceived procedurę obsługi zdarzeń. Te zdarzenia opcjonalne odpowiadają każdej ITurnContext rozdzielczości bota i będą zgłaszać błędy wykonywania kolei, gdy wystąpią, na przykład w wyniku nieobsługiwanego wyjątku, przekroczenia limitu czasu lub spadku sieci między usługą Direct Line Speech i botem. TurnStatusReceived ułatwia reagowanie na warunki awarii. Jeśli na przykład bot trwa zbyt długo w zapytaniu bazy danych zaplecza (na przykład w poszukiwaniu produktu), TurnStatusReceived klient może wiedzieć, że wykona reprompt z komunikatem "przepraszam, nie udało mi się tego zrobić, możesz spróbować ponownie" lub coś podobnego.
C++/C#: Użyj zestawu SPEECH SDK na większej korzystaniu z platform. Pakiet NuGet zestawu SPEECH SDK obsługuje teraz pliki binarne natywne dla komputerów z systemem Windows ARM/ARM64 (platforma UWP była już obsługiwana), aby zestaw SPEECH SDK był bardziej przydatny w przypadku większej liczby typów maszyn.
Java: DialogServiceConnector teraz ma metodę setSpeechActivityTemplate() , która została przypadkowo wykluczona z języka wcześniej. Jest to równoważne ustawieniu Conversation_Speech_Activity_Template właściwości i będzie żądać, aby wszystkie przyszłe działania platformy Bot Framework pochodzące z usługi rozpoznawania mowy direct line scaliły podaną zawartość z ładunkami JSON.
Java: ulepszone debugowanie niskiego poziomu. Klasa Connection ma MessageReceived teraz zdarzenie podobne do innych języków programowania (C++, C#). To zdarzenie zapewnia niski poziom dostępu do danych przychodzących z usługi i może być przydatne do diagnostyki i debugowania.
JavaScript: łatwiejsza konfiguracja asystentów głosowych i botów za pomocą BotFrameworkConfigprogramu , który ma fromHost() teraz i fromEndpoint() metody fabryki, które upraszczają korzystanie z niestandardowych lokalizacji usług i ręczne ustawianie właściwości. Ustandaryzowaliśmy również opcjonalną specyfikację botId używania bota innego niż domyślny w fabrykach konfiguracji.
JavaScript: ulepszona wydajność urządzenia za pomocą dodanej właściwości kontrolki ciągu na potrzeby kompresji protokołu websocket. Ze względów wydajności domyślnie wyłączyliśmy kompresję protokołu Websocket. Można je ponownie przywrócić w scenariuszach o niskiej przepustowości. Więcej szczegółów można znaleźć tutaj. To rozwiązanie problemu z usługą GitHub nr 242.
JavaScript: dodano obsługę oceny lPronunciation, aby umożliwić ocenę wymowy mowy. Zobacz przewodnik Szybki start tutaj.

Poprawki błędów

Wszystkie (z wyjątkiem języka JavaScript): naprawiono regresję w wersji 1.14, w której zbyt dużo pamięci zostało przydzielone przez rozpoznawanie.
C++: Rozwiązano problem z odzyskiwaniem pamięci z usługą , który rozwiązał problem z usługą DialogServiceConnectorGitHub #794.
C#: Rozwiązano problem z zamknięciem wątku, który powodował zablokowanie obiektów przez około sekundę podczas usuwania.
C++/C#/Java: Naprawiono wyjątek uniemożliwiający aplikacji ustawienie tokenu autoryzacji mowy lub szablonu działania więcej niż raz na obiekcie DialogServiceConnector.
C++/C#/Java: Naprawiono awarię aparatu rozpoznawania z powodu stanu wyścigu w łzawie.
JavaScript: DialogServiceConnector wcześniej nie uwzględniał opcjonalnego botId parametru określonego w BotFrameworkConfigfabrykach. Umożliwiło to ręczne ustawienie parametru botId ciągu zapytania w celu użycia bota innego niż domyślny. Usterka została poprawiona, a botId wartości podane BotFrameworkConfigfabrykom będą honorowane i używane, w tym nowe fromHost() i fromEndpoint() dodane. Dotyczy to również parametru applicationId .CustomCommandsConfig
JavaScript: Rozwiązano problem z usługą GitHub #881, który zezwalał na ponowne użycie obiektu rozpoznawania.
JavaScript: rozwiązano problem polegający na tym, że skD wysyłał speech.config wiele razy w jednej sesji TTS, co marnowało przepustowość.
JavaScript: uproszczona obsługa błędów podczas autoryzacji mikrofonu, umożliwiając bardziej opisowy komunikat bąbelkowy, gdy użytkownik nie zezwolił na wprowadzanie mikrofonu w przeglądarce.
JavaScript: Rozwiązano problem z usługą GitHub nr 249 polegający na tym, że błędy typu w ConversationTranslator pliku i ConversationTranscriber powodowały błąd kompilacji dla użytkowników języka TypeScript.
Objective-C: Rozwiązano problem polegający na tym, że kompilacja usługi GStreamer nie powiodła się dla systemu iOS w środowisku Xcode 11.4, co rozwiązało problem z usługą GitHub nr 911.
Python: Rozwiązano problem z usługą GitHub #870, usuwając polecenie "DeprecationWarning: imp module jest przestarzały na rzecz importlib".

Przykłady

Przykład from-file dla przeglądarki JavaScript używa teraz plików do rozpoznawania mowy. To rozwiązanie problemu z usługą GitHub nr 884.

Zestaw Speech SDK 1.14.0: wydanie z października 2020 r.

Uwaga

Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz go tutaj.

Nowe funkcje

Linux: dodano obsługę systemów Debian 10 i Ubuntu 20.04 LTS.
Python/Objective-C: Dodano obsługę interfejsu KeywordRecognizer API. Dokumentacja będzie tutaj.
C++/Java/C#: Dodano obsługę ustawiania dowolnego HttpHeader klucza/wartości za pomocą polecenia ServicePropertyChannel::HttpHeader.
JavaScript: dodano obsługę interfejsu ConversationTranscriber API. Przeczytaj dokumentację tutaj.
C++/C#: Dodano nową AudioDataStream FromWavFileInput metodę (aby odczytać . Pliki WAV tutaj (C++) i tutaj (C#).
C++/C#/Java/Python/Objective-C/Swift: Dodano metodę zatrzymywania stopSpeakingAsync() syntezy mowy w tekście. Przeczytaj dokumentację referencyjną tutaj (C++), tutaj (C#), tutaj (Java), tutaj (Python), a tutaj (Objective-C/Swift).
C#, C++, Java: dodano FromDialogServiceConnector() funkcję do Connection klasy, która może służyć do monitorowania zdarzeń połączenia i rozłączania dla programu DialogServiceConnector. Przeczytaj dokumentację referencyjną tutaj (C#), tutaj (C++), a tutaj (Java).
C++/C#/Java/Python/Objective-C/Swift: Dodano obsługę oceny wymowy, która ocenia wymowę mowy i przekazuje głośnikom opinie na temat dokładności i płynności dźwięku mówionego. Przeczytaj dokumentację tutaj.

Zmiana powodująca niezgodność

JavaScript: PullAudioOutputStream.read() ma zmianę typu zwracanego z wewnętrznej obietnicy na natywną obietnicę języka JavaScript.

Poprawki błędów

Wszystko: Naprawiono regresję 1.13, w SetServiceProperty której wartości z pewnymi znakami specjalnymi były ignorowane.
C#: Naprawiono przykłady konsoli systemu Windows w programie Visual Studio 2019, które nie mogą znaleźć natywnych bibliotek DLL.
C#: Naprawiono awarię z zarządzaniem pamięcią, jeśli strumień jest używany jako KeywordRecognizer dane wejściowe.
ObjectiveC/Swift: Naprawiono awarię z zarządzaniem pamięcią, jeśli strumień jest używany jako dane wejściowe rozpoznawania.
Windows: rozwiązano problem z współistnieniem z protokołem BT HFP/A2DP w systemie UWP.
JavaScript: naprawiono mapowanie identyfikatorów sesji w celu ulepszenia rejestrowania i pomocy w wewnętrznych korelacjach debugowania/usługi.
JavaScript: dodano poprawkę do DialogServiceConnector wyłączania wywołań ListenOnce po wykonaniu pierwszego wywołania.
JavaScript: rozwiązano problem polegający na tym, że dane wyjściowe wyników zawsze stały się "proste".
JavaScript: rozwiązano problem z ciągłym rozpoznawaniem w przeglądarce Safari w systemie macOS.
JavaScript: ograniczenie obciążenia procesora CPU dla scenariusza o wysokiej przepływności żądań.
JavaScript: zezwalaj na dostęp do szczegółów wyniku rejestracji profilu głosowego.
JavaScript: dodano poprawkę do ciągłego rozpoznawania w programie IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: Naprawiono niepoprawny adres URL dla elementu australiaeast i brazilsouth w elem.IntentRecognizer
C++/C#: Dodano VoiceProfileType jako argument podczas tworzenia VoiceProfile obiektu.
C++/C#/Java/Python/Swift/ObjectiveC: Naprawiono potencjał SPX_INVALID_ARG podczas próby odczytania AudioDataStream z danej pozycji.
IOS: naprawiono awarię z rozpoznawaniem mowy w środowisku Unity

Przykłady

ObjectiveC: Dodano przykład do rozpoznawania słów kluczowych tutaj.
C#/JavaScript: Dodano przewodnik Szybki start do transkrypcji konwersacji tutaj (C#) i tutaj (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: Dodano przykład do oceny wymowy tutaj
Xamarin: zaktualizowano przewodnik Szybki start do najnowszego szablonu programu Visual Studio tutaj.

Znany problem

Certyfikat Globalny główny G2 firmy DigiCert nie jest domyślnie obsługiwany w urządzeniach HoloLens 2 i Android 4.4 (KitKat) i musi zostać dodany do systemu, aby zestaw Speech SDK działał. Certyfikat zostanie dodany do obrazów systemu operacyjnego HoloLens 2 w najbliższej przyszłości. Klienci z systemem Android 4.4 muszą dodać zaktualizowany certyfikat do systemu.

Testy skrócone covid-19

Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!

Zestaw Speech SDK 1.13.0: wersja z lipca 2020 r.

Uwaga

Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz i zainstaluj go z tego miejsca.

Nowe funkcje

C#: Dodano obsługę asynchronicznej transkrypcji konwersacji. Zapoznaj się z dokumentacją tutaj.
JavaScript: dodano obsługę rozpoznawania osoby mówiącej zarówno dla przeglądarki , jak i Node.js.
JavaScript: dodano obsługę identyfikacji języka/identyfikatora języka. Zapoznaj się z dokumentacją tutaj.
Objective-C: Dodano obsługę transkrypcji konwersacji z wieloma urządzeniami i konwersacji.
Python: dodano obsługę skompresowanego dźwięku dla języka Python w systemach Windows i Linux. Zapoznaj się z dokumentacją tutaj.

Poprawki błędów

Wszystko: rozwiązano problem, który spowodował, że słowo kluczoweRecognizer nie przenosiło strumieni do przodu po rozpoznaniu.
Wszystko: rozwiązano problem, który spowodował, że strumień uzyskany z słowa kluczowegoRecognitionResult nie zawierał słowa kluczowego.
Wszystko: rozwiązano problem polegający na tym, że narzędzie SendMessageAsync nie wysyłało komunikatu za pośrednictwem przewodu po zakończeniu oczekiwania użytkowników.
Wszystko: Naprawiono awarię interfejsów API rozpoznawania osoby mówiącej, gdy użytkownicy wywołają metodę VoiceProfileClient::SpeakerRecEnrollProfileAsync wiele razy i nie czekali na zakończenie wywołań.
Wszystko: naprawiono włączanie rejestrowania plików w klasach VoiceProfileClient i SpeakerRecognizer.
JavaScript: rozwiązano problem z ograniczaniem przepustowości, gdy przeglądarka została zminimalizowana.
JavaScript: rozwiązano problem z wyciekiem pamięci w strumieniach.
JavaScript: dodano buforowanie odpowiedzi OCSP z usługi NodeJS.
Java: rozwiązano problem powodujący, że pola BigInteger zawsze zwracały wartość 0.
iOS: rozwiązano problem z publikowaniem aplikacji opartych na zestawie SPEECH SDK w sklepie App Store dla systemu iOS.

Przykłady

C++: Dodano przykładowy kod do rozpoznawania osoby mówiącej tutaj.

Testy skrócone covid-19

Zestaw Speech SDK 1.12.1: wersja z czerwca 2020 r.

Nowe funkcje

C#, C++: Wersja zapoznawcza rozpoznawania osoby mówiącej: ta funkcja umożliwia identyfikację osoby mówiącej (kto mówi?) i weryfikację osoby mówiącej (czy osoba mówiąca, która twierdzi, że?). Zacznij od omówienia, przeczytaj artykuł Podstawy rozpoznawania osoby mówiącej lub dokumentację referencyjną interfejsu API.

Poprawki błędów

C#, C++: Stałe nagrywanie mikrofonu nie działało w wersji 1.12 w funkcji rozpoznawania osoby mówiącej.
JavaScript: poprawki dotyczące zamiany tekstu na mowę w przeglądarce Firefox i Safari w systemach macOS i iOS.
Poprawka dotycząca awarii naruszenia dostępu weryfikatora aplikacji systemu Windows podczas transkrypcji konwersacji podczas korzystania ze strumienia ośmiu kanałów.
Poprawka dotycząca awarii naruszenia dostępu weryfikatora aplikacji systemu Windows w przypadku tłumaczenia konwersacji z wieloma urządzeniami.

Przykłady

C#: Przykładowy kod rozpoznawania osoby mówiącej.
C++: przykład kodu do rozpoznawania osoby mówiącej.
Java: przykład kodu do rozpoznawania intencji w systemie Android.

Testy skrócone covid-19

Zestaw Speech SDK 1.12.0: wersja z maja 2020 r.

Nowe funkcje

Go: Nowa obsługa języka Go na potrzeby rozpoznawania mowy i niestandardowego asystenta głosowego. Skonfiguruj środowisko deweloperskie tutaj. Przykładowy kod można znaleźć w poniższej sekcji Przykłady.
JavaScript: dodano obsługę przeglądarki dla zamiany tekstu na mowę. Zapoznaj się z dokumentacją tutaj.
C++, C#, Java: nowe KeywordRecognizer obiekty i interfejsy API obsługiwane na platformach Windows, Android, Linux i iOS. Przeczytaj dokumentację tutaj. Przykładowy kod można znaleźć w poniższej sekcji Przykłady.
Java: dodano konwersację z wieloma urządzeniami z obsługą tłumaczenia. Zapoznaj się z dokumentacją referencyjną tutaj.

Ulepszenia i optymalizacje

JavaScript: zoptymalizowana implementacja mikrofonu przeglądarki poprawiająca dokładność rozpoznawania mowy.
Java: powiązania refaktoryzowane przy użyciu bezpośredniej implementacji JNI bez SWIG. Ta zmiana zmniejsza o 10 razy rozmiar powiązań dla wszystkich pakietów Java używanych dla systemów Windows, Android, Linux i Mac oraz ułatwia dalsze opracowywanie implementacji języka Java zestawu SPEECH SDK.
Linux: zaktualizowano dokumentację pomocy technicznej z najnowszymi uwagami specyficznymi dla systemu RHEL 7.
Ulepszona logika połączenia w celu wielokrotnego nawiązywania połączenia w przypadku wystąpienia błędów usługi i sieci.
Zaktualizowano stronę szybkiego startu portal.azure.com Speech, aby pomóc deweloperom wykonać kolejny krok w podróży po usłudze Azure AI Speech.

Poprawki błędów

C#, Java: rozwiązano problem z ładowaniem bibliotek zestawu SDK w usłudze ARM systemu Linux (zarówno w wersji 32-bitowej, jak i 64-bitowej).
C#: Stałe jawne usuwanie natywnych dojść dla obiektów TranslationRecognizer, IntentRecognizer i Connection.
C#: Naprawiono zarządzanie okresem istnienia danych wejściowych audio dla obiektu ConversationTranscriber.
Rozwiązano problem polegający na tym, że IntentRecognizer przyczyna wyniku nie została prawidłowo ustawiona podczas rozpoznawania intencji z prostych fraz.
Rozwiązano problem polegający na tym, że SpeechRecognitionEventArgs przesunięcie wyniku nie było poprawnie ustawione.
Naprawiono warunek wyścigu polegający na tym, że zestaw SDK próbował wysłać komunikat sieciowy przed otwarciem połączenia protokołu websocket. Można było odtworzyć podczas TranslationRecognizer dodawania uczestników.
Naprawiono przecieki pamięci w a aparatze rozpoznawania słów kluczowych.

Przykłady

Go: dodano przewodniki Szybki start dotyczące rozpoznawania mowy i niestandardowego asystenta głosowego. Znajdź przykładowy kod tutaj.
JavaScript: dodano przewodniki Szybki start dotyczące zamiany tekstu na mowę, tłumaczenie i rozpoznawanie intencji.
Przykłady rozpoznawania słów kluczowych dla języków C# i Java (Android).

Testy skrócone covid-19

Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. Jeśli coś przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!

Zestaw Speech SDK 1.11.0: wersja z marca 2020 r.

Nowe funkcje

Linux: Dodano obsługę systemu Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 z instrukcjami dotyczącymi konfigurowania systemu dla zestawu Speech SDK.
Linux: dodano obsługę języka C# platformy .NET Core w systemie Linux ARM32 i ARM64. Przeczytaj więcej tutaj.
C#, C++: Dodano UtteranceId w ConversationTranscriptionResultpliku spójny identyfikator dla wszystkich pośrednich i końcowych wyników rozpoznawania mowy. Szczegóły dotyczące języka C#, C++.
Python: dodano obsługę elementu Language ID. Zobacz speech_sample.py w repozytorium GitHub.
Windows: dodano obsługę skompresowanego formatu wejściowego audio na platformie Windows dla wszystkich aplikacji konsolowych win32. Szczegóły znajdują się tutaj.
JavaScript: obsługa syntezy mowy (tekstu na mowę) w środowisku NodeJS. Dowiedz się więcej tutaj.
JavaScript: dodaj nowe interfejsy API, aby umożliwić inspekcję wszystkich wiadomości wysyłanych i odebranych. Dowiedz się więcej tutaj.

Poprawki błędów

C#, C++: Rozwiązano problem, więc SendMessageAsync teraz wysyła komunikat binarny jako typ binarny. Szczegóły dotyczące języka C#, C++.
C#, C++: Rozwiązano problem polegający na tym, że używanie Connection MessageReceived zdarzenia mogło spowodować awarię, jeśli Recognizer obiekt został usunięty przed obiektem Connection . Szczegóły dotyczące języka C#, C++.
Android: rozmiar buforu audio z mikrofonu zmniejszył się z 800 ms do 100 ms w celu zwiększenia opóźnienia.
Android: rozwiązano problem z emulatorem systemu Android x86 w programie Android Studio.
JavaScript: dodano obsługę regionów w Chinach za pomocą interfejsu fromSubscription API. Szczegóły znajdują się tutaj.
JavaScript: dodaj więcej informacji o błędach dotyczących niepowodzeń połączenia z usługi NodeJS.

Przykłady

Unity: przykład publiczny rozpoznawania intencji został naprawiony, gdzie importowanie pliku json usługi LUIS kończyło się niepowodzeniem. Szczegóły znajdują się tutaj.
Python: przykład dodany dla elementu Language ID. Szczegóły znajdują się tutaj.

Testy covid19 skrócone: ze względu na zdalną pracę w ciągu ostatnich kilku tygodni, nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacji urządzenia, jak zwykle. Na przykład nie można przetestować danych wejściowych mikrofonu i danych wyjściowych głośnika w systemach Linux, iOS i macOS. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogłyby uszkodzić coś na tych platformach, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Dziękujemy za dalsze wsparcie. Jak zawsze opublikuj pytania lub opinię w witrynie GitHub lub Stack Overflow.
Bądź zdrowy!

Zestaw Speech SDK 1.10.0: wersja z lutego 2020 r.

Nowe funkcje

Dodano pakiety języka Python do obsługi nowej wersji 3.8 języka Python.
Obsługa systemu Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Uwaga

Klienci muszą skonfigurować protokół OpenSSL zgodnie z tymi instrukcjami.
Obsługa systemu Linux ARM32 dla systemów Debian i Ubuntu.
Program DialogServiceConnector obsługuje teraz opcjonalny parametr "identyfikator bota" w pliku BotFrameworkConfig. Ten parametr umożliwia korzystanie z wielu botów mowy direct line z pojedynczym zasobem mowy. Bez określonego parametru zostanie użyty domyślny bot (określony przez stronę konfiguracji kanału mowy direct line).
Właściwość DialogServiceConnector ma teraz właściwość SpeechActivityTemplate. Zawartość tego ciągu JSON będzie używana przez funkcję Direct Line Speech do wstępnego wypełniania wielu obsługiwanych pól we wszystkich działaniach, które docierają do bota mowy direct line, w tym działań generowanych automatycznie w odpowiedzi na zdarzenia, takie jak rozpoznawanie mowy.
TTS używa teraz klucza subskrypcji do uwierzytelniania, zmniejszając pierwsze opóźnienie bajtów pierwszego wyniku syntezy po utworzeniu syntezatora.
Zaktualizowano modele rozpoznawania mowy dla 19 ustawień regionalnych dla średniej redukcji współczynnika błędów słów o wartości 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Nowe modele przynoszą znaczące ulepszenia w wielu domenach, w tym Dyktowanie, transkrypcja call-center i scenariusze indeksowania wideo.

Poprawki błędów

Usunięto usterkę polegającą na tym, że transkrypcja konwersacji nie oczekiwała prawidłowo w interfejsach API języka JAVA
Rozwiązanie problemu z emulatorem x86 dla platformy Xamarin w usłudze GitHub
Brak dodawania (Pobierz|Set)Metody właściwości na AudioConfig
Naprawiono usterkę TTS polegającą na tym, że nie można zatrzymać elementu audioDataStream w przypadku niepowodzenia połączenia
Używanie punktu końcowego bez regionu spowodowałoby błędy USP dla translatora konwersacji
Generowanie identyfikatorów w aplikacjach uniwersalnych systemu Windows używa teraz odpowiednio unikatowego algorytmu GUID; wcześniej i nieumyślnie domyślnie domyślnie dokonywała implementacji stubbed, która często produkowała kolizje w dużych zestawach interakcji.

Przykłady

Przykład aparatu Unity do korzystania z zestawu SPEECH SDK z mikrofonem aparatu Unity i przesyłaniem strumieniowym w trybie wypychania

Inne zmiany

Zaktualizowano dokumentację konfiguracji protokołu OpenSSL dla systemu Linux

Zestaw Speech SDK 1.9.0: wydanie ze stycznia 2020 r.

Nowe funkcje

Konwersacja z wieloma urządzeniami: połącz wiele urządzeń z tą samą konwersacją opartą na mowie lub tekście i opcjonalnie przetłumacz wiadomości wysyłane między nimi. Dowiedz się więcej w tym artykule.
Dodano obsługę rozpoznawania słów kluczowych dla pakietu Android .aar i dodano obsługę wersji x86 i x64.
Objective-C: SendMessage i SetMessageProperty metody dodane do Connection obiektu. Zapoznaj się z dokumentacją tutaj.
Interfejs API języka C++ języka TTS obsługuje std::wstring teraz jako dane wejściowe tekstu syntezy, usuwając konieczność przekonwertowania ciągu na ciąg przed przekazaniem go do zestawu SDK. Więcej szczegółów można znaleźć tutaj.
C#: Identyfikator języka i konfiguracja języka źródłowego są teraz dostępne.
JavaScript: dodano funkcję do obiektu w Connection celu przekazywania niestandardowych komunikatów z usługi Mowa jako wywołania zwrotnego receivedServiceMessage.
JavaScript: dodano obsługę ułatwiania FromHost API korzystania z kontenerów lokalnych i suwerennych chmur. Zapoznaj się z dokumentacją tutaj.
JavaScript: Teraz dziękujemy NODE_TLS_REJECT_UNAUTHORIZED za wkład z orgadów. Więcej szczegółów można znaleźć tutaj.

Zmiany powodujące niezgodność

OpenSSL Została zaktualizowana do wersji 1.1.1b i jest statycznie połączona z podstawową biblioteką zestawu SPEECH SDK dla systemu Linux. Może to spowodować przerwanie, jeśli skrzynka odbiorcza OpenSSL nie została zainstalowana /usr/lib/ssl w katalogu w systemie. Zapoznaj się z naszą dokumentacją w dokumentacji zestawu SPEECH SDK, aby obejść ten problem.
Zmieniliśmy typ danych zwracany dla języka C# WordLevelTimingResult.Offset z int na long , aby umożliwić dostęp do WordLevelTimingResults danych mowy, gdy dane mowy są dłuższe niż 2 minuty.
PushAudioInputStream a PullAudioInputStream teraz wysyłaj informacje nagłówka wav do usługi Rozpoznawanie mowy na AudioStreamFormatpodstawie , opcjonalnie określone podczas ich tworzenia. Klienci muszą teraz używać obsługiwanego formatu wejściowego audio. Wszystkie inne formaty otrzymają nieoptymalne wyniki rozpoznawania lub mogą powodować inne problemy.

Poprawki błędów

Zobacz aktualizację w OpenSSL obszarze Zmiany powodujące niezgodność powyżej. Rozwiązaliśmy zarówno sporadyczne awarie, jak i problem z wydajnością (rywalizacja o blokowanie pod dużym obciążeniem) w systemach Linux i Java.
Java: wprowadzono ulepszenia zamknięcia obiektów w scenariuszach o wysokiej współbieżności.
Zrestrukturyzował nasz pakiet NuGet. Usunęliśmy trzy kopie Microsoft.CognitiveServices.Speech.core.dll folderów lib i Microsoft.CognitiveServices.Speech.extension.kws.dll w folderach lib, dzięki czemu pakiet NuGet jest mniejszy i szybszy do pobrania, a dodaliśmy nagłówki potrzebne do skompilowania niektórych aplikacji natywnych języka C++.
Naprawiono tutaj przykłady z przewodnika Szybki start. Zakończyły się one bez wyświetlania wyjątku "nie znaleziono mikrofonu" w systemie Linux, macOS, Windows.
Naprawiono awarię zestawu SDK z długimi wynikami rozpoznawania mowy w niektórych ścieżkach kodu, takich jak ten przykład.
Rozwiązano problem z błędem wdrażania zestawu SDK w środowisku aplikacji internetowej platformy Azure.
Rozwiązano problem z błędem TTS podczas używania tagu wielokrotnego <voice> lub <audio> tagu w celu rozwiązania tego problemu klienta.
Naprawiono błąd TTS 401 po odzyskaniu zestawu SDK z wstrzymania.
JavaScript: Naprawiono cykliczny import danych audio dzięki kontrybucji z euirim.
JavaScript: dodano obsługę ustawiania właściwości usługi, jak dodano w wersji 1.7.
JavaScript: rozwiązano problem polegający na tym, że błąd połączenia mógł spowodować ciągłe, nieudane próby ponownego nawiązania połączenia z zestawem websocket.

Przykłady

Dodano tutaj przykład rozpoznawania słów kluczowych dla systemu Android.
Dodano przykład TTS dla scenariusza serwera tutaj.
W tym miejscu dodano przewodniki Szybki start konwersacji z wieloma urządzeniami dla języków C# i C++.

Inne zmiany

Zoptymalizowany rozmiar biblioteki podstawowej zestawu SDK w systemie Android.
Zestaw SDK w wersji 1.9.0 i nowszych obsługuje zarówno typy, jak int i string w polu wersji podpisu głosowego dla transkrypcji konwersacji.

Zestaw Speech SDK 1.8.0: wydanie z listopada 2019 r.

Nowe funkcje

FromHost() Dodano interfejs API, aby ułatwić korzystanie z kontenerów lokalnych i suwerennych chmur.
Dodano identyfikację języka źródłowego na potrzeby rozpoznawania mowy (w językach Java i C++)
Dodano SourceLanguageConfig obiekt rozpoznawania mowy używany do określania oczekiwanych języków źródłowych (w językach Java i C++)
Dodano KeywordRecognizer obsługę systemów Windows (UWP), Android i iOS za pośrednictwem pakietów NuGet i Unity
Dodano zdalny interfejs API języka Java do transkrypcji konwersacji w partiach asynchronicznych.

Zmiany powodujące niezgodność

Funkcje transkrypcji konwersacji zostały przeniesione w obszarze przestrzeni nazw Microsoft.CognitiveServices.Speech.Transcription.
Części metod transkrypcji konwersacji są przenoszone do nowej Conversation klasy.
Porzucona obsługa 32-bitowego systemu iOS (ARMv7 i x86)

Poprawki błędów

Poprawka dotycząca awarii w przypadku użycia lokalnego KeywordRecognizer bez prawidłowego klucza subskrypcji usługi Mowa

Przykłady

Przykład platformy Xamarin dla programu KeywordRecognizer
Przykład aparatu Unity dla KeywordRecognizer
Przykłady języków C++ i Java na potrzeby automatycznej identyfikacji języka źródłowego.

Zestaw Speech SDK 1.7.0: wydanie z września 2019 r.

Nowe funkcje

Dodano obsługę wersji beta dla platformy Xamarin na platformie platforma uniwersalna systemu Windows (UWP), Android i iOS
Dodano obsługę systemu iOS dla aparatu Unity
Dodano Compressed obsługę danych wejściowych dla aplikacji ALaw, Mulaw, FLAC, w systemach Android, iOS i Linux
Dodano SendMessageAsync w Connection klasie do wysyłania komunikatu do usługi
Dodano SetMessageProperty w Connection klasie do ustawiania właściwości komunikatu
Dodano powiązania TTS dla języków Java (JRE i Android), Python, Swift i Objective-C
Funkcja TTS dodała obsługę odtwarzania dla systemów macOS, iOS i Android.
Dodano informacje "granice wyrazów" dla TTS.

Poprawki błędów

Rozwiązano problem z kompilacją IL2CPP w środowisku Unity 2019 dla systemu Android
Rozwiązano problem z nieprawidłowo sformułowanymi nagłówkami w danych wejściowych pliku wav, które były przetwarzane niepoprawnie
Rozwiązano problem z identyfikatorami UUID, które nie były unikatowe we właściwościach połączenia
Naprawiono kilka ostrzeżeń dotyczących specyfikatorów wartości null w powiązaniach swift (może wymagać niewielkich zmian w kodzie)
Usunięto usterkę, która powodowała, że połączenia protokołu Websocket były zamykane niegracyjnie pod obciążeniem sieci
Rozwiązano problem w systemie Android, który czasami powoduje zduplikowane identyfikatory wyświetleń używane przez DialogServiceConnector
Ulepszenia stabilności połączeń w interakcjach obejmujących wiele obrotu oraz raportowanie błędów (za pośrednictwem Canceled zdarzeń) w przypadku wystąpienia DialogServiceConnector
DialogServiceConnectorRozpoczęcie sesji będzie teraz prawidłowo dostarczać zdarzenia, w tym podczas wywoływania podczas aktywnego działania ListenOnceAsync()StartKeywordRecognitionAsync()
Rozwiązano problem z awarią skojarzona z DialogServiceConnector odbieranymi działaniami

Przykłady

Szybki start dla platformy Xamarin
Zaktualizowano przewodnik Szybki start dla programu CPP z informacjami o systemie Linux ARM64
Zaktualizowany przewodnik Szybki start dla aparatu Unity z informacjami o systemie iOS

Zestaw Speech SDK 1.6.0: wersja z czerwca 2019 r.

Przykłady

Przykłady z przewodnika Szybki start dotyczące zamiany tekstu na mowę na platformie UWP i aparatu Unity
Przykład szybkiego startu dla języka Swift w systemie iOS
Przykłady aparatu Unity do rozpoznawania i tłumaczenia mowy i intencji
Zaktualizowano przykłady szybkiego startu dla DialogServiceConnector

Ulepszenia/zmiany

Przestrzeń nazw okna dialogowego:
- Zmieniono nazwę polecenia SpeechBotConnector na DialogServiceConnector
- Zmieniono nazwę polecenia BotConfig na DialogServiceConfig
- BotConfig::FromChannelSecret() został ponownie zamapowany na DialogServiceConfig::FromBotSecret()
- Wszyscy istniejący klienci mowy direct line nadal są obsługiwani po zmianie nazwy
Aktualizowanie adaptera REST TTS w celu obsługi serwera proxy, trwałego połączenia
Poprawianie komunikatu o błędzie po przekazaniu nieprawidłowego regionu
Swift/Objective-C:
- Ulepszone raportowanie błędów: Metody, które mogą spowodować błąd, są teraz obecne w dwóch wersjach: jeden, który uwidacznia NSError obiekt do obsługi błędów, i jeden, który zgłasza wyjątek. Były są narażone na Swift. Ta zmiana wymaga dostosowania do istniejącego kodu Swift.
- Ulepszona obsługa zdarzeń

Poprawki błędów

Poprawka dotycząca TTS: gdzie SpeakTextAsync przyszłość została zwrócona bez oczekiwania na ukończenie renderowania dźwięku
Poprawka dotycząca marshalingu ciągów w języku C# w celu włączenia obsługi pełnego języka
Poprawka problemu z aplikacją .NET Core w celu załadowania biblioteki podstawowej za pomocą platformy docelowej net461 w przykładach
Rozwiązanie problemów z okazjonalnymi problemami dotyczącymi wdrażania bibliotek natywnych w folderze wyjściowym w przykładach
Poprawka dotycząca niezawodnego zamykania gniazd internetowych
Poprawka umożliwiająca awarię podczas otwierania połączenia pod dużym obciążeniem w systemie Linux
Poprawka dotycząca brakujących metadanych w pakiecie platformy dla systemu macOS
Rozwiązywanie problemów z systemem pip install --user Windows

Zestaw Speech SDK 1.5.1

Jest to wersja poprawki błędów, która ma wpływ tylko na natywny/zarządzany zestaw SDK. Nie ma to wpływu na wersję zestawu SDK języka JavaScript.

Poprawki błędów

Poprawka z podskrypcji w przypadku użycia z transkrypcją konwersacji.
Naprawiono usterkę w wykryciu słowa kluczowego dla asystentów głosowych.

Zestaw Speech SDK 1.5.0: wersja z maja 2019 r.

Nowe funkcje

Wykrywanie słów kluczowych (KWS) jest teraz dostępne dla systemów Windows i Linux. Funkcja KWS może działać z dowolnym typem mikrofonu, oficjalną obsługą KWS, jednak obecnie jest ograniczona do tablic mikrofonów znajdujących się na sprzęcie Azure Kinect DK lub zestawie SDK urządzeń rozpoznawania mowy.
Funkcje wskazówek dotyczących fraz są dostępne za pośrednictwem zestawu SDK. Więcej informacji można znaleźć tutaj.
Funkcje transkrypcji konwersacji są dostępne za pośrednictwem zestawu SDK.
Dodaj obsługę asystentów głosowych przy użyciu kanału mowy direct line.

Przykłady

Dodano przykłady nowych funkcji lub nowych usług obsługiwanych przez zestaw SDK.

Ulepszenia/zmiany

Dodano różne właściwości rozpoznawania w celu dostosowania zachowania usługi lub wyników usługi (takich jak maskowanie wulgaryzmów i innych).
Teraz można skonfigurować rozpoznawanie za pomocą standardowych właściwości konfiguracji, nawet jeśli utworzono rozpoznawanie FromEndpoint.
Objective-C: OutputFormat właściwość została dodana do klasy SPXSpeechConfiguration.
Zestaw SDK obsługuje teraz debian 9 jako dystrybucję systemu Linux.

Poprawki błędów

Rozwiązano problem polegający na tym, że zasób osoby mówiącej został zdestrukowany zbyt wcześnie w tekście na mowę.

Zestaw Speech SDK 1.4.2

Jest to wersja poprawki błędów, która ma wpływ tylko na natywny/zarządzany zestaw SDK. Nie ma to wpływu na wersję zestawu SDK języka JavaScript.

Zestaw SPEECH SDK 1.4.1

Jest to wersja tylko dla języka JavaScript. Nie dodano żadnych funkcji. Wprowadzono następujące poprawki:

Uniemożliwianie ładowania pakietu internetowego https-proxy-agent.

Zestaw Speech SDK 1.4.0: wersja z kwietnia 2019 r.

Nowe funkcje

Zestaw SDK obsługuje teraz usługę Zamiana tekstu na mowę jako wersję beta. Jest on obsługiwany w systemach Windows i Linux Desktop z języków C++ i C#. Aby uzyskać więcej informacji, zobacz Omówienie zamiany tekstu na mowę.
Zestaw SDK obsługuje teraz pliki audio MP3 i Opus/OGG jako pliki wejściowe strumienia. Ta funkcja jest dostępna tylko w systemie Linux w językach C++ i C# i jest obecnie dostępna w wersji beta (więcej szczegółów znajdziesz tutaj).
Zestaw SPEECH SDK dla języków Java, .NET Core, C++ i Objective-C zyskał obsługę systemu macOS. Obsługa języka Objective-C dla systemu macOS jest obecnie dostępna w wersji beta.
iOS: zestaw SPEECH SDK dla systemu iOS (Objective-C) jest teraz również publikowany jako CocoaPod.
JavaScript: obsługa mikrofonu innego niż domyślny jako urządzenie wejściowe.
JavaScript: obsługa serwera proxy dla Node.js.

Przykłady

Dodano przykłady używania zestawu Speech SDK z językiem C++ i języka Objective-C w systemie macOS.
Dodano przykłady pokazujące użycie usługi zamiany tekstu na mowę.

Ulepszenia/zmiany

Python: dodatkowe właściwości wyników rozpoznawania są teraz uwidocznione za pośrednictwem properties właściwości .
Aby uzyskać dodatkową obsługę programowania i debugowania, możesz przekierować informacje dotyczące rejestrowania i diagnostyki zestawu SDK do pliku dziennika (więcej szczegółów znajdziesz tutaj).
JavaScript: zwiększanie wydajności przetwarzania dźwięku.

Poprawki błędów

Mac/iOS: Usunięto usterkę, która doprowadziła do długiego oczekiwania, gdy nie można było ustanowić połączenia z usługą Mowa.
Python: ulepszanie obsługi błędów dla argumentów w wywołaniach zwrotnych języka Python.
JavaScript: naprawiono nieprawidłowe raportowanie stanu mowy zakończone na żądanieSession.

Zestaw Speech SDK 1.3.1: odświeżanie z lutego 2019 r.

Jest to wersja poprawki błędów, która ma wpływ tylko na natywny/zarządzany zestaw SDK. Nie ma to wpływu na wersję zestawu SDK języka JavaScript.

Poprawka

Naprawiono przeciek pamięci podczas korzystania z wejścia mikrofonu. Nie ma to wpływu na dane wejściowe oparte na strumieniu lub pliku.

Zestaw Speech SDK 1.3.0: wersja z lutego 2019 r.

Nowe funkcje

Zestaw SPEECH SDK obsługuje wybór mikrofonu wejściowego za pośrednictwem AudioConfig klasy . Dzięki temu można przesyłać strumieniowo dane audio do usługi Mowa z mikrofonu innego niż domyślny. Aby uzyskać więcej informacji, zobacz dokumentację opisującą wybór urządzenia wejściowego audio. Ta funkcja nie jest jeszcze dostępna w języku JavaScript.
Zestaw SPEECH SDK obsługuje teraz aparat Unity w wersji beta. Prześlij opinię za pośrednictwem sekcji problemu w repozytorium przykładowym GitHub. Ta wersja obsługuje aparat Unity w systemach Windows x86 i x64 (aplikacje klasyczne lub platforma uniwersalna systemu Windows) i Android (ARM32/64, x86). Więcej informacji jest dostępnych w naszym przewodniku Szybki start dla aparatu Unity.
Plik Microsoft.CognitiveServices.Speech.csharp.bindings.dll (dostarczany w poprzednich wersjach) nie jest już potrzebny. Funkcje są teraz zintegrowane z podstawowym zestawem SDK.

Przykłady

Następująca nowa zawartość jest dostępna w naszym przykładowym repozytorium:

Dodatkowe przykłady dla programu AudioConfig.FromMicrophoneInput.
Dodatkowe przykłady języka Python do rozpoznawania intencji i tłumaczenia.
Dodatkowe przykłady użycia Connection obiektu w systemie iOS.
Dodatkowe przykłady języka Java do tłumaczenia z danymi wyjściowymi dźwięku.
Nowy przykład użycia interfejsu API REST transkrypcji wsadowej.

Ulepszenia/zmiany

Pyton
- Ulepszona weryfikacja parametru i komunikaty o błędach w pliku SpeechConfig.
- Dodaj obsługę Connection obiektu .
- Obsługa 32-bitowego języka Python (x86) w systemie Windows.
- Zestaw Speech SDK dla języka Python jest niedostępny w wersji beta.
Ios
- Zestaw SDK jest teraz kompilowany z zestawem SDK systemu iOS w wersji 12.1.
- Zestaw SDK obsługuje teraz system iOS w wersji 9.2 lub nowszej.
- Popraw dokumentację referencyjną i popraw kilka nazw właściwości.
JavaScript
- Dodaj obsługę Connection obiektu .
- Dodawanie plików definicji typów dla pakietu JavaScript
- Początkowa obsługa i implementacja wskazówek dotyczących fraz.
- Zwracanie kolekcji właściwości z plikiem JSON usługi na potrzeby rozpoznawania
Biblioteki DLL systemu Windows zawierają teraz zasób wersji.
Jeśli tworzysz rozpoznawanie FromEndpoint, możesz dodać parametry bezpośrednio do adresu URL punktu końcowego. Nie FromEndpoint można skonfigurować rozpoznawania za pomocą standardowych właściwości konfiguracji.

Poprawki błędów

Pusta nazwa użytkownika serwera proxy i hasło serwera proxy nie były poprawnie obsługiwane. W tej wersji, jeśli ustawisz nazwę użytkownika serwera proxy i hasło serwera proxy na pusty ciąg, nie zostaną one przesłane podczas nawiązywania połączenia z serwerem proxy.
Identyfikator sessionId utworzony przez zestaw SDK nie zawsze był naprawdę losowy dla niektórych języków/środowisk. Dodano inicjowanie generatora losowego, aby rozwiązać ten problem.
Popraw obsługę tokenu autoryzacji. Jeśli chcesz użyć tokenu autoryzacji, określ w SpeechConfig polu i pozostaw pusty klucz subskrypcji. Następnie utwórz rozpoznawanie w zwykły sposób.
W niektórych przypadkach Connection obiekt nie został poprawnie zwolniony. Ten problem został rozwiązany.
Przykład języka JavaScript został naprawiony w celu obsługi danych wyjściowych audio na potrzeby syntezy tłumaczenia również w przeglądarce Safari.

Zestaw Speech SDK 1.2.1

Jest to wersja tylko dla języka JavaScript. Nie dodano żadnych funkcji. Wprowadzono następujące poprawki:

Odpal koniec strumienia na turn.end, a nie na speech.end.
Usunięto usterkę w pompie audio, która nie planowała następnego wysłania, jeśli bieżące wysyłanie nie powiodło się.
Napraw ciągłe rozpoznawanie za pomocą tokenu uwierzytelniania.
Poprawka usterek dla różnych punktów końcowych/rozpoznawania.
Ulepszenia dokumentacji.

Zestaw Speech SDK 1.2.0: wersja z grudnia 2018 r.

Nowe funkcje

Pyton
- Wersja beta obsługi języka Python (wersja 3.5 lub nowsza) jest dostępna w tej wersji. Aby uzyskać więcej informacji, zobacz tutaj](.. /.. /quickstart-python.md).
JavaScript
- Zestaw SPEECH SDK dla języka JavaScript został typu open source. Kod źródłowy jest dostępny w witrynie GitHub.
- Teraz obsługujemy Node.js. Więcej informacji można znaleźć tutaj.
- Ograniczenie długości sesji audio zostało usunięte, ponowne nawiązywanie połączenia nastąpi automatycznie pod przykrywką.
Connection sprzeciwiać się
- Z obiektu Recognizermożna uzyskać dostęp do Connection obiektu . Ten obiekt umożliwia jawne zainicjowanie połączenia z usługą i subskrybowanie zdarzeń łączenia i rozłączania. (Ta funkcja nie jest jeszcze dostępna w językach JavaScript i Python).
Obsługa systemu Ubuntu 18.04.
Android
- Włączona obsługa narzędzia ProGuard podczas generowania pakietu APK.

Ulepszenia

Ulepszenia użycia wątków wewnętrznych, zmniejszenie liczby wątków, blokad, teksów.
Ulepszone raportowanie błędów/informacje. W kilku przypadkach komunikaty o błędach nie zostały rozpropagowane przez cały czas.
Zaktualizowano zależności programistyczne w języku JavaScript, aby używać aktualnych modułów.

Poprawki błędów

Naprawiono przecieki pamięci z powodu niezgodności typu w pliku RecognizeAsync.
W niektórych przypadkach wyciekły wyjątki.
Naprawianie przecieku pamięci w argumentach zdarzeń tłumaczenia.
Rozwiązano problem z blokowaniem ponownego nawiązywania połączenia w długotrwałych sesjach.
Rozwiązano problem, który mógł prowadzić do braku wyniku końcowego w przypadku nieudanych tłumaczeń.
C#: Jeśli async operacja nie była oczekiwana w wątku głównym, możliwe, że rozpoznawanie może zostać usunięte przed ukończeniem zadania asynchronicznego.
Java: rozwiązano problem powodujący awarię maszyny wirtualnej Java.
Objective-C: Stałe mapowanie wyliczenia; Wartość RecognizedIntent została zwrócona zamiast RecognizingIntent.
JavaScript: ustaw domyślny format danych wyjściowych na wartość "simple" w pliku SpeechConfig.
JavaScript: usuwanie niespójności między właściwościami obiektu konfiguracji w języku JavaScript i innych językach.

Przykłady

Zaktualizowano i naprawiono kilka przykładów (na przykład głosy wyjściowe do tłumaczenia itp.).
Dodano przykłady Node.js w przykładowym repozytorium.

Zestaw Speech SDK 1.1.0

Nowe funkcje

Obsługa systemu Android x86/x64.
Obsługa serwera proxy: w SpeechConfig obiekcie można teraz wywołać funkcję, aby ustawić informacje o serwerze proxy (nazwa hosta, port, nazwa użytkownika i hasło). Ta funkcja nie jest jeszcze dostępna w systemie iOS.
Ulepszony kod błędu i komunikaty. Jeśli funkcja rozpoznawania zwróciła błąd, ustawiono to już Reason (w anulowanym zdarzeniu) lub CancellationDetails (w wyniku rozpoznawania) na Errorwartość . Anulowane zdarzenie zawiera teraz dwa dodatkowe elementy członkowskie i ErrorCodeErrorDetails. Jeśli serwer zwrócił dodatkowe informacje o błędzie z zgłoszonym błędem, będzie teraz dostępny w nowych elementach członkowskich.

Ulepszenia

Dodano dodatkową weryfikację w konfiguracji rozpoznawania i dodano dodatkowy komunikat o błędzie.
Ulepszona obsługa długiej ciszy w środku pliku audio.
Pakiet NuGet: w przypadku projektów .NET Framework uniemożliwia kompilowanie przy użyciu konfiguracji Platformy AnyCPU.

Poprawki błędów

Naprawiono kilka wyjątków znalezionych w funkcjach rozpoznawania. Ponadto wyjątki są przechwytywane i konwertowane na Canceled zdarzenie.
Napraw przeciek pamięci w zarządzaniu właściwościami.
Usunięto usterkę, w której plik wejściowy audio mógł spowodować awarię rozpoznawania.
Usunięto usterkę polegającą na tym, że zdarzenia mogły być odbierane po zdarzeniu zatrzymania sesji.
Naprawiono niektóre warunki wyścigu w wątkowaniu.
Rozwiązano problem ze zgodnością systemu iOS, który mógł spowodować awarię.
Ulepszenia stabilności dla obsługi mikrofonu systemu Android.
Usunięto usterkę polegającą na tym, że rozpoznawanie w języku JavaScript powodowało ignorowanie języka rozpoznawania.
Usunięto usterkę uniemożliwiającą EndpointId ustawienie (w niektórych przypadkach) w języku JavaScript.
Zmieniono kolejność parametrów w elemencie AddIntent w języku JavaScript i dodano brak podpisu AddIntent JavaScript.

Przykłady

Dodano przykłady języków C++ i C# na potrzeby użycia strumienia ściągania i wypychania w przykładowym repozytorium.

Zestaw Speech SDK 1.0.1

Ulepszenia niezawodności i poprawki błędów:

Naprawiono potencjalny błąd krytyczny spowodowany stanem wyścigu w rozpoznawaniu
Naprawiono potencjalny błąd krytyczny w przypadku wystąpienia nieustawionych właściwości.
Dodano dodatkowy błąd i sprawdzanie parametrów.
Objective-C: Naprawiono możliwy błąd krytyczny spowodowany zastąpieniem nazwy w NSString.
Objective-C: Skorygowana widoczność interfejsu API
JavaScript: naprawiono problem dotyczący zdarzeń i ich ładunków.
Ulepszenia dokumentacji.

W naszym przykładowym repozytorium dodano nowy przykład dla języka JavaScript.

Zestaw Azure AI Speech SDK 1.0.0: wydanie z września 2018 r.

Nowe funkcje

Obsługa języka Objective-C w systemie iOS. Zapoznaj się z naszym przewodnikiem Szybki start języka Objective-C dla systemu iOS.
Obsługa języka JavaScript w przeglądarce. Zapoznaj się z naszym przewodnikiem Szybki start dla języka JavaScript.

Zmiany powodujące niezgodność

W tej wersji wprowadzono szereg zmian powodujących niezgodność. Sprawdź tę stronę , aby uzyskać szczegółowe informacje.

Zestaw Azure AI Speech SDK 0.6.0: wydanie z sierpnia 2018 r.

Nowe funkcje

Aplikacje platformy UWP utworzone za pomocą zestawu SPEECH SDK mogą teraz przekazywać zestaw certyfikacji aplikacji systemu Windows (WACK). Zapoznaj się z przewodnikiem Szybki start platformy UWP.
Obsługa platformy .NET Standard 2.0 w systemie Linux (Ubuntu 16.04 x64).
Eksperymentalne: obsługa języka Java 8 w systemach Windows (64-bitowych) i Linux (Ubuntu 16.04 x64). Zapoznaj się z przewodnikiem Szybki start środowiska uruchomieniowego Języka Java.

Zmiana funkcjonalna

Uwidacznianie dodatkowych informacji o błędach dotyczących błędów połączenia.

Zmiany powodujące niezgodność

W języku Java (Android) SpeechFactory.configureNativePlatformBindingWithDefaultCertificate funkcja nie wymaga już parametru ścieżki. Teraz ścieżka jest automatycznie wykrywana na wszystkich obsługiwanych platformach.
Usunięto metodę get-accessor właściwości EndpointUrl w językach Java i C#.

Poprawki błędów

W języku Java wynik syntezy dźwięku w rozpoznawaniu tłumaczenia jest teraz implementowany.
Usunięto usterkę, która mogła powodować nieaktywne wątki i zwiększoną liczbę otwartych i nieużywanych gniazd.
Rozwiązano problem polegający na tym, że długotrwałe rozpoznawanie mogło zakończyć się w środku transmisji.
Naprawiono stan wyścigu w zamykaniu rozpoznawania.

Zestaw Azure AI Speech SDK 0.5.0: wersja z lipca 2018 r.

Nowe funkcje

Obsługa platformy android (interfejs API 23: Android 6.0 Marshmallow lub nowszy). Zapoznaj się z przewodnikiem Szybki start dla systemu Android.
Obsługa platformy .NET Standard 2.0 w systemie Windows. Zapoznaj się z przewodnikiem Szybki start platformy .NET Core.
Eksperymentalne: obsługa platformy UWP w systemie Windows (wersja 1709 lub nowsza).
- Zapoznaj się z przewodnikiem Szybki start platformy UWP.
- Należy pamiętać, że aplikacje platformy UWP utworzone za pomocą zestawu SPEECH SDK nie przekazują jeszcze zestawu Certyfikacji aplikacji systemu Windows (WACK).
Obsługa długotrwałego rozpoznawania za pomocą automatycznego ponownego łączenia.

Zmiany funkcjonalne

StartContinuousRecognitionAsync() obsługuje długotrwałe rozpoznawanie.
Wynik rozpoznawania zawiera więcej pól. Są one przesunięte od początku dźwięku i czasu trwania (zarówno w znacznikach) rozpoznanego tekstu, jak i dodatkowych wartości reprezentujących stan rozpoznawania, na przykład InitialSilenceTimeout i InitialBabbleTimeout.
Obsługa tokenu AuthorizationToken na potrzeby tworzenia wystąpień fabryki.

Zmiany powodujące niezgodność

Zdarzenia rozpoznawania: NoMatch typ zdarzenia został scalony ze zdarzeniem Error .
Nazwa elementu SpeechOutputFormat w języku C# została zmieniona na OutputFormat , aby zachować dopasowanie do języka C++.
Zwracany typ niektórych metod interfejsu AudioInputStream nieco się zmienił:
- W języku read Java metoda zwraca long teraz wartość zamiast int.
- W języku Read C# metoda zwraca uint teraz zamiast int.
- W języku C++ Read metody i GetFormat zwracają size_t teraz zamiast int.
C++: Wystąpienia strumieni wejściowych audio można teraz przekazywać tylko jako shared_ptr.

Poprawki błędów

Naprawiono nieprawidłowe wartości zwracane w wyniku, gdy RecognizeAsync() upłynął limit czasu.
Zależność od bibliotek podstaw multimediów w systemie Windows została usunięta. Zestaw SDK używa teraz podstawowych interfejsów API audio.
Poprawka dokumentacji: dodano stronę regionów w celu opisania obsługiwanych regionów.

Znany problem

Zestaw Speech SDK dla systemu Android nie zgłasza wyników syntezy mowy na potrzeby tłumaczenia. Ten problem zostanie rozwiązany w następnej wersji.

Zestaw Azure AI Speech SDK 0.4.0: wersja z 2018 r. do czerwca

Zmiany funkcjonalne

AudioInputStream

Rozpoznawanie może teraz używać strumienia jako źródła audio. Aby uzyskać więcej informacji, zobacz powiązany przewodnik z instrukcjami.
Szczegółowy format danych wyjściowych

Podczas tworzenia elementu SpeechRecognizermożna zażądać Detailed lub Simple format danych wyjściowych. Zawiera DetailedSpeechRecognitionResult współczynnik ufności, rozpoznany tekst, nieprzetworzony formularz leksykalny, znormalizowany formularz i znormalizowany formularz z maskowaną wulgaryzmem.

Zmiana powodująca niezgodność

Zmieniono wartość na SpeechRecognitionResult.Text z SpeechRecognitionResult.RecognizedText w języku C#.

Poprawki błędów

Rozwiązano możliwy problem z wywołaniem zwrotnym w warstwie USP podczas zamykania.
Jeśli rozpoznawanie używa pliku wejściowego audio, trzymał się do uchwytu pliku dłużej niż jest to konieczne.
Usunięto kilka zakleszczeń między pompą komunikatu a rozpoznawaniem.
Wyzwol wynik NoMatch po przekroczeniu limitu czasu odpowiedzi z usługi.
Biblioteki podstaw multimediów w systemie Windows są ładowane z opóźnieniem. Ta biblioteka jest wymagana tylko w przypadku wejścia mikrofonu.
Szybkość przekazywania danych audio jest ograniczona do około dwukrotnie większej szybkości oryginalnego dźwięku.
W systemie Windows zestawy .NET języka C# są teraz silne.
Poprawka dokumentacji: Region jest wymagana informacja do utworzenia aparatu rozpoznawania.

Dodano więcej przykładów i jest stale aktualizowanych. Aby zapoznać się z najnowszym zestawem przykładów, zobacz repozytorium GitHub przykłady zestawu SDK usługi Mowa.

Azure AI Speech SDK 0.2.12733: wersja z 2018 r.

Ta wersja to pierwsza publiczna wersja zapoznawcza zestawu AZURE AI Speech SDK.

Interfejs wiersza polecenia usługi Mowa w wersji 1.38.0: wersja z czerwca 2024 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.38.0

Nowe funkcje

Brak

Poprawki błędów

Brak

Interfejs wiersza polecenia usługi Mowa w wersji 1.37.0: wydanie z kwietnia 2024 r.

Zaktualizowano, aby używać zestawu Speech SDK 1.37.0

Nowe funkcje

Brak

Poprawki błędów

Brak

Interfejs wiersza polecenia usługi Mowa w wersji 1.36.0: wersja z marca 2024 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.36.0

Nowe funkcje

Brak

Poprawki błędów

Brak

Interfejs wiersza polecenia usługi Mowa w wersji 1.35.0: wersja z lutego 2024 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.35.0

Nowe funkcje

Brak

Poprawki błędów

Aktualizowanie zależności JMESPath do najnowszej wersji

Interfejs wiersza polecenia usługi Mowa w wersji 1.34.0: wydanie z listopada 2023 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.34.0

Interfejs wiersza polecenia usługi Mowa w wersji 1.33.0: wydanie z października 2023 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.34.0

Interfejs wiersza polecenia usługi Mowa w wersji 1.31.0: wydanie z sierpnia 2023 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.31.0

Interfejs wiersza polecenia usługi Mowa w wersji 1.30.0: wersja z lipca 2023 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.30.0

Interfejs wiersza polecenia usługi Mowa w wersji 1.29.0: wersja z czerwca 2023 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.29.0

Interfejs wiersza polecenia usługi Mowa w wersji 1.28.0: wydanie z maja 2023 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.28.0

Interfejs wiersza polecenia usługi Mowa w wersji 1.27.0: wydanie z kwietnia 2023 r.

Aktualizacje

Zaktualizowano do korzystania z zestawu Speech SDK 1.27.0
Zaktualizuj domyślny punkt końcowy, aby używać interfejsów API REST w wersji 3.1 na potrzeby niestandardowego rozpoznawania mowy i rozpoznawania mowy wsadowej.

Poprawki błędów

Poprawki związane ze sposobem analizowania/konfigurowania parametrów zapytania.

Interfejs wiersza polecenia usługi Mowa w wersji 1.26.0: wersja z marca 2023 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.26.0.

Interfejs wiersza polecenia usługi Mowa w wersji 1.25.0: styczeń 2023 r.

Zaktualizowano do korzystania z zestawu Speech SDK 1.25.0.

Interfejs wiersza polecenia usługi Mowa w wersji 1.24.0: wydanie z października 2022 r.

Używa zestawu Speech SDK 1.24.0.

Nowe funkcje

Rozszerzono "sprawdzanie spx", aby obsługiwać zapytania JMESPath względem wszystkich zdarzeń spx

Poprawki błędów

Różne ulepszenia niezawodności w porównaniu z ocenami zapytań JMESPath
Poprawka dotycząca obcinania operacji zapisu plików, które mogą wystąpić na maszynach z ograniczonymi zasobami

Interfejs wiersza polecenia usługi Mowa w wersji 1.23.0: wersja z lipca 2022 r.

Używa zestawu Speech SDK 1.23.0.

Nowe funkcje

Lepszy podpis (--output vtt i --output srt) duży podział wyników (maksymalnie 37 znaków, 3 wiersze)
Udokumentowane spx synthesize--format opcje (zobacz spx help synthesize format)
Udokumentowana większość spx csr poleceń/opcji (zobacz spx help csr)
Dodano spx csr model copy polecenie (zobacz spx help csr model copy)
Dodano --check result opcję przy użyciu zapytań JMES (zobacz spx help check result)
Ulepszone komunikaty o błędach podczas określania nieprawidłowych opcji polecenia
Przeniesiono z platformy .NET Core 3.1 do platformy .NET 6.0. Aby uruchomić interfejs wiersza polecenia usługi Mowa, należy zainstalować środowisko uruchomieniowe platformy .NET 6.0 (lub nowsze).

Poprawki błędów

Zaktualizowano wszystkie adresy URL w celu usunięcia języka (na przykład "en-US")
Naprawiono informacje o wersji, które mają być prawidłowo raportowane we wszystkich przypadkach (wcześniej były wyświetlane puste)

Interfejs wiersza polecenia usługi Mowa w wersji 1.22.0: wersja z czerwca 2022 r.

Używa zestawu Speech SDK 1.22.0.

Nowe funkcje

Dodano spx init polecenie, aby kierować użytkowników przez proces tworzenia klucza zasobu usługi Mowa bez przechodzenia do witryny Azure Web Portal.
Kontenery platformy Docker mowy mają teraz dołączony interfejs wiersza polecenia platformy Azure, więc spx init polecenie działa poza polem.
Dodano znacznik czasu jako opcję danych wyjściowych zdarzeń, aby zwiększyć użyteczność spX podczas obliczania opóźnień.

Interfejs wiersza polecenia usługi Mowa w wersji 1.21.0: wersja z kwietnia 2022 r.

Używa zestawu Speech SDK 1.21.0.

Nowe funkcje

Generowanie podpisów WEBVTT
- Dodano obsługę flagi --output vtt do polecenia spx translate
- Obsługuje --output vtt file FILENAME zastępowanie domyślnej nazwy pliku VTT
- Obsługuje --output vtt file - zapisywanie w standardowych danych wyjściowych
- Poszczególne pliki VTT są tworzone dla każdego języka docelowego (na przykład --target en;de;fr)
Generowanie podpisów SRT
- Dodano --output srt obsługę elementu spx recognize, spx intenti spx translate
- Obsługuje --output srt file FILENAME zastępowanie domyślnej nazwy PLIKU SRT
- Obsługuje --output srt file - zapisywanie w standardowych danych wyjściowych
- W przypadku spx translateprogramu poszczególne pliki SRT są tworzone dla każdego języka docelowego (na przykład --target en;de;fr)

Poprawki błędów

Poprawiono dane wyjściowe przedziału czasu WEBVTT w celu prawidłowego użycia hh:mm:ss.fff formatu

Interfejs wiersza polecenia usługi Mowa w wersji 1.20.0: wydanie ze stycznia 2022 r.

Nowe funkcje

Rozpoznawanie osoby mówiącej
- spx profile enroll a spx speaker [identify/verify] teraz obsługują wejście mikrofonu
Rozpoznawanie intencji (spx intent)
- --keyword FILE.table
- --pattern i --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, , --once+--continuous (wartość domyślna ciągła)
- --output all/each connection EVENT
- --output all/each connection message(na przykład , textpath)
Sprawdzanie/tworzenie danych wyjściowych konsoli interfejsu wiersza polecenia:
- --expect PATTERN obsługa wszystkich --not expect PATTERN poleceń
- --auto expect pomoc w tworzeniu oczekiwanych wzorców
Rejestrowanie danych wyjściowych przez zestaw SDK — sprawdzanie/tworzenie
- --log expect PATTERN obsługa wszystkich --not log expect PATTERN poleceń
- --log auto expect [FILTER] obsługa wszystkich poleceń
- --log FILE pomoc techniczna w zakresie spx profile i spx speaker
Wejście pliku audio
- --format ANY obsługa wszystkich poleceń
- --file - obsługa (odczytywanie ze standardowych danych wejściowych, włączanie scenariuszy potoku)
Dane wyjściowe pliku audio
- --audio output - Zapisywanie do standardowych danych wyjściowych, włączanie scenariuszy potoku
Pliki wyjściowe
- --output all/each file - Zapisywanie do standardowych danych wyjściowych
- --output batch file - Zapisywanie do standardowych danych wyjściowych
- --output vtt file - Zapisywanie do standardowych danych wyjściowych
- --output json file -Zapisywanie do standardowych danych wyjściowych, dla spx csr poleceń i spx batch
Właściwości danych wyjściowych
- --output […] result XXX property (PropertyId lub string)
- --output […] connection message received XXX property (PropertyId lub string)
- --output […] recognizer XXX property (PropertyId lub string)
Integracja zadań WebJob platformy Azure
- spx webjob teraz jest zgodny ze wzorcem podrzędnego polecenia
- Zaktualizowano usługę WebJob, aby odzwierciedlić wzorzec podzadania (zobacz spx help webjob)

Poprawki błędów

Usunięto usterkę, gdy obie --output vtt FILE i --output batch FILE są używane w tym samym czasie
spx [...] --zip ZIPFILENAME teraz zawiera wszystkie pliki binarne wymagane dla wszystkich scenariuszy (jeśli istnieją)
spx profile polecenia i spx speaker zwracają teraz szczegółowe informacje o błędzie dotyczące anulowania

Wydanie z 2021 r.

Nowe funkcje

Dodano obsługę weryfikacji profilu, identyfikatora osoby mówiącej i osoby mówiącej — spróbuj spx profile i spx speaker z poziomu wiersza polecenia.
Dodaliśmy również obsługę okna dialogowego — spróbuj użyć spx dialog wiersza polecenia.
Ulepszona spx pomoc. Prześlij nam opinię na temat tego, jak to działa, otwierając problem z usługą GitHub.
Zmniejszyliśmy rozmiar instalacji narzędzia .NET.

Testy skrócone covid-19

Ponieważ trwająca pandemia nadal wymaga od naszych inżynierów pracy z domu, skrypty ręcznej weryfikacji przed pandemią zostały znacznie zmniejszone. Testujemy na mniejszej liczbie urządzeń z mniejszą liczbą konfiguracji, a prawdopodobieństwo wystąpienia usterek specyficznych dla środowiska może zostać zwiększone. Nadal rygorystycznie weryfikujemy duży zestaw automatyzacji. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!

Wydanie z 2021 r.

Nowe funkcje

Dodano spx intent polecenie do rozpoznawania intencji, zastępując element spx recognize intent.
Rozpoznawanie i intencja może teraz używać funkcji platformy Azure do obliczania współczynnika błędów słów przy użyciu polecenia spx recognize --wer url <URL>.
Funkcja Recognize może teraz wyświetlać wyniki jako pliki VTT przy użyciu polecenia spx recognize --output vtt file <FILENAME>.
Poufne informacje o kluczu są teraz zaciemniane w danych wyjściowych debugowania/pełnej.
Dodano sprawdzanie adresów URL i komunikat o błędzie dla pola zawartości w tworzeniu transkrypcji wsadowej.

Testy skrócone covid-19

Wydanie z 2021 r.

Nowe funkcje

Interfejs wiersza polecenia usługi Mowa jest teraz dostępny jako pakiet NuGet i można go zainstalować za pośrednictwem interfejsu wiersza polecenia platformy .NET jako narzędzia globalnego platformy .NET, które można wywołać z poziomu powłoki/wiersza polecenia.
Repozytorium szablonu usługi DevOps usługi Custom Speech zostało zaktualizowane w celu używania interfejsu wiersza polecenia usługi Mowa dla niestandardowych przepływów pracy mowy.

Testy skrócone covid-19

Wydanie z października 2020 r.

SPX to interfejs wiersza polecenia do korzystania z usługi Mowa bez pisania kodu. Pobierz najnowszą wersję tutaj.

Nowe funkcje

spx csr dataset upload --kind audio|language|acoustic — tworzenie zestawów danych na podstawie danych lokalnych, a nie tylko z adresów URL.
spx csr evaluation create|status|list|update|delete — porównywanie nowych modeli z bazową prawdą/innymi modelami.
spx * list — obsługuje środowisko niestronicowane (nie wymaga --top X --skip X).
spx * --http header A=B — obsługują nagłówki niestandardowe (dodane dla pakietu Office do uwierzytelniania niestandardowego).
spx help – ulepszony tekst i kolor tekstu z znaczników wstecznych kodowany (niebieski).

Wydanie z 2020 r.

Dodano funkcje wyszukiwania pomocy w interfejsie wiersza polecenia:
- spx help find --text TEXT
- spx help find --topic NAME
Zaktualizowano usługę , aby pracować z nowo wdrożonym interfejsem API usługi Batch w wersji 3.0 i niestandardowymi interfejsami API rozpoznawania mowy:
- spx help batch examples
- spx help csr examples

Testy skrócone covid-19

Interfejs wiersza polecenia usługi Mowa (znany również jako SPX): wydanie z maja 2020 r.

SPX to nowe narzędzie wiersza polecenia, które umożliwia rozpoznawanie, syntezę, tłumaczenie, transkrypcję wsadową i niestandardowe zarządzanie mową z poziomu wiersza polecenia. Służy do testowania usługi Mowa lub tworzenia skryptów zadań usługi Mowa, które należy wykonać. Pobierz narzędzie i przeczytaj dokumentację tutaj.

Wydanie z maja 2024 r.

Głos osobisty (GA)

Osobisty głos jest teraz ogólnie dostępny. Dzięki osobistemu głosowi możesz uzyskać replikację głosu wygenerowanego przez sztuczną inteligencję (lub użytkowników aplikacji) w ciągu kilku sekund. Jako monit dźwiękowy podasz jednominutowy przykład mowy, a następnie użyjesz go do wygenerowania mowy w dowolnym z ponad 90 języków obsługiwanych w ponad 100 ustawieniach regionalnych. Aby uzyskać więcej informacji, zobacz omówienie głosu osobistego.

Wstępnie utworzony głos neuronowy

Wprowadzenie do 8 nowych wielojęzycznych głosów w publicznej wersji zapoznawczej: en-GB-AdaMultilingualNeural, , en-GB-OllieMultilingualNeural, it-IT-AlessioMultilingualNeurales-ES-IsidoraMultilingualNeuralit-IT-IsabellaMultilingualNeurales-ES-ArabellaMultilingualNeuralit-IT-MarcelloMultilingualNeurali .pt-BR-ThalitaMultilingualNeural Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.
Wprowadzenie 2 nowych en-US głosów zoptymalizowanych pod kątem scenariusza usługi Call Center w publicznej wersji zapoznawczej: en-US-LunaNeural i en-US-KaiNeural. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Wydanie z kwietnia 2024 r.

Awatar zamiany tekstu na mowę

Teraz możesz ustawić statyczny obraz tła dla awatarów. Aby użyć tej funkcji, po prostu użyj avatarConfig.backgroundImage właściwości i określ adres URL wskazujący żądany obraz. W przypadku detials zapoznaj się z tematem Jak edytować tło.

Wydanie z marca 2024 r.

Wstępnie utworzony głos neuronowy

9 wielojęzycznych głosów jest ogólnie dostępnych we wszystkich regionach: en-US-AvaMultilingualNeural, , en-US-BrianMultilingualNeuralde-DE-SeraphinaMultilingualNeuralen-US-AndrewMultilingualNeuralde-DE-FlorianMultilingualNeuralfr-FR-RemyMultilingualNeuralen-US-EmmaMultilingualNeural, fr-FR-VivienneMultilingualNeural, i .zh-CN-XiaoxiaoMultilingualNeural Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.
Wprowadzenie do nowego wielojęzycznego głosu w publicznej wersji zapoznawczej: ja-JP-MasaruMultilingualNeural. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.
Dodatkowe aktualizacje:
- en-US-RyanMultilingualNeural jest ogólnie dostępny we wszystkich regionach.
- en-US-JennyMultilingualV2Neural jest ogólnie dostępny we wszystkich regionach, scalonych z en-US-JennyMultilingualNeural.
- Wersja zapoznawcza dostępna dla zaktualizowanych en-IN-NeerjaNeural i hi-IN-SwaraNeural z 3 nowymi stylami w regionach Wschodnie stany USA, Europa Zachodnia i Azja Południowo-Wschodnia.
- Wersja zapoznawcza dostępna dla nowych kobiet głosów w Indiach Środkowych: en-IN-KavyaNeural, , en-IN-AnanyaNeuralen-IN-AashiNeural, hi-IN-KavyaNeurali hi-IN-AnanyaNeural.

Awatar zamiany tekstu na mowę

Usunięto zależność od usługi Azure Communication Services (ACS) TURN dla awatara w czasie rzeczywistym. Przykładowy kod został odpowiednio zaktualizowany, aby odzwierciedlić tę zmianę.
Opublikowany tekst w cenniku awatara mowy. Aby uzyskać więcej informacji, zobacz stronę cennika. Należy pamiętać, że cennik awatara będzie widoczny tylko dla regionów usług, w których funkcja jest dostępna, w tym Zachodnie stany USA 2, Europa Zachodnia i Azja Południowo-Wschodnia.

Wydanie z lutego 2024 r.

Głosy OpenAI

Usługa Azure AI Speech obsługuje tekst OpenAI na głosy mowy w następujących regionach: Północno-środkowe stany USA i Szwecja Środkowa. Podobnie jak głosy usługi Azure AI Speech, tekst OpenAI na głosy mowy zapewnia wysokiej jakości syntezę mowy w celu przekonwertowania tekstu pisanego na naturalny dźwięk mówiony. Dzięki temu można uzyskać szeroką gamę możliwości immersyjnych i interaktywnych środowisk użytkownika. Aby uzyskać więcej informacji, zobacz Co to jest tekst OpenAI na głosy mowy?.

Uwaga

Tekst openAI na głosy mowy są również dostępne w usłudze Azure OpenAI Service.
Dzięki tej aktualizacji dostosowaliśmy ceny wstępnie utworzonych neuronowych głosów za pomocą usługi Azure AI Speech. Sprawdź zaktualizowane ceny tutaj.

Osobisty głos

Funkcja głosu osobistego obsługuje DragonLatestNeural teraz i PhoenixLatestNeural modele. Te nowe modele zwiększają naturalność syntetyzowanych głosów, lepiej przypominające cechy mowy głosu w wierszu polecenia. Aby uzyskać więcej informacji, zobacz Integrowanie głosu osobistego w aplikacji.

Wydanie z grudnia 2023 r.

Niestandardowy interfejs API głosu

Niestandardowy interfejs API głosu jest dostępny do tworzenia profesjonalnych i osobistych niestandardowych modeli neuronowych głosów oraz zarządzania nimi.

Niestandardowy neuronowy głos

Nowo wytrenowane modele głosowe obsługują teraz częstotliwość próbkowania 48 kHz, niezależnie od wersji modelu. W przypadku wcześniej wytrenowanych modeli głosowych należy uaktualnić wersję aparatu do wersji co najmniej 2023.11.13.0 , aby zwiększyć częstotliwość próbkowania do 48 kHz.

Wstępnie utworzony głos neuronowy

Wprowadzenie do nowych wielojęzycznych głosów w publicznej wersji zapoznawczej:

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`de-DE`	Niemiecki (Niemcy)	`de-DE-FlorianMultilingualNeural` (Mężczyzna)
`de-DE`	Niemiecki (Niemcy)	`de-DE-SeraphinaMultilingualNeural` (Kobieta)
`en-US`	Angielski (Stany Zjednoczone)	`en-US-AvaMultilingualNeural` (Kobieta)
`en-US`	Angielski (Stany Zjednoczone)	`en-US-EmmaMultilingualNeural` (Kobieta)
`fr-FR`	Francuski (Francja)	`fr-FR-RemyMultilingualNeural` (Mężczyzna)
`en-US`	Angielski (Stany Zjednoczone)	`en-US-BrianMultilingualNeural` (Mężczyzna)
`en-US`	Angielski (Stany Zjednoczone)	`en-US-AndrewMultilingualNeural` (Mężczyzna)
`fr-FR`	Francuski (Francja)	`fr-FR-VivienneMultilingualNeural` (Kobieta)
`zh-CN`	Chiński (mandaryński, uproszczony)	`zh-CN-XiaoxiaoMultilingualNeural` (Kobieta)
`zh-CN`	Chiński (mandaryński, uproszczony)	`zh-CN-XiaochenMultilingualNeural` (Kobieta)
`zh-CN`	Chiński (mandaryński, uproszczony)	`zh-CN-YunyiMultilingualNeural` (Mężczyzna)

Wprowadzenie nowych zh-CN-XiaoxiaoDialectsNeural głosów do publicznej wersji zapoznawczej, które obsługują kilka chińskich dialektów i akcentów:

Nazwa głosu	Język pomocniczy	Dialekt/akcent
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Chiński (Zhongyuan Mandaryński Shaanxi, uproszczony)
	`zh-CN-sichuan`	Chiński (południowo-zachodni mandaryński, uproszczony)
	`zh-CN-shanxi`	Chiński (shanxi akcent mandaryński, uproszczony)
	`nan-CN`	Chiński (południowy min, uproszczony)
	`zh-CN-anhui`	Chiński (Jianghuai Mandaryński Anhui, uproszczony)
	`zh-CN-hunan`	Chiński (akcent hunan mandaryński, uproszczony)
	`zh-CN-gansu`	Chiński (Lanyin Mandaryński Gansu, uproszczony)
	`zh-CN-shandong`	Chiński (Jilu Mandaryński, uproszczony)
	`zh-CN-henan`	Chiński (Zhongyuan Mandaryński Henan, uproszczony)
	`zh-CN-liaoning`	Chiński (północno-wschodni mandaryński, uproszczony)
	`zh-TW`	Chiński (tajwański mandaryński, tradycyjny)

Wydanie z listopada 2023 r.

Osobisty głos

Osobisty głos jest dostępny w wersji zapoznawczej w następujących regionach: Europa Zachodnia, Wschodnie stany USA i Azja Południowo-Wschodnia. Za kilka sekund za pomocą osobistego głosu (wersja zapoznawcza) możesz uzyskać wygenerowaną przez sztuczną inteligencję replikację głosu (lub użytkowników aplikacji). Jako monit dźwiękowy podasz jednominutowy przykład mowy, a następnie użyjesz go do wygenerowania mowy w dowolnym z ponad 90 języków obsługiwanych w ponad 100 ustawieniach regionalnych.

Aby uzyskać więcej informacji, zobacz osobisty głos.

Awatar zamiany tekstu na mowę

Awatar zamiany tekstu na mowę jest dostępny w wersji zapoznawczej w następujących regionach: Zachodnie stany USA 2, Europa Zachodnia i Azja Południowo-Wschodnia.

Awatar zamiany tekstu na mowę konwertuje tekst na cyfrowy film fotorealistycznego człowieka (wstępnie utworzonego awatara lub niestandardowego tekstu na awatar mowy) mówiącego z głosem naturalnie brzmiącym. Tekst do mowy awatar wideo może być syntetyzowany asynchronicznie lub w czasie rzeczywistym. Deweloperzy mogą tworzyć aplikacje zintegrowane z tekstem do awatara mowy za pośrednictwem interfejsu API lub za pomocą narzędzia do tworzenia zawartości w usłudze Speech Studio do tworzenia zawartości wideo bez kodowania.

Aby uzyskać więcej informacji, zobacz tekst dotyczący awatara mowy, notatek przejrzystości i ujawniania talentów głosowych i awatarów.

Niestandardowy neuronowy głos

Dodano obsługę 24 nowych ustawień regionalnych dla głosów krzyżowych. Aby uzyskać więcej informacji, zobacz pełną listę języków.

Wstępnie utworzony głos neuronowy

Wprowadzenie do nowych głosów w publicznej wersji zapoznawczej:

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`de-DE`	Niemiecki (Niemcy)	`SeraphinaNeural` (Kobieta)
`es-ES`	Hiszpański (Hiszpania)	`XimenaNeural` (Kobieta)
`fr-CA`	francuski (Kanada)	`ThierryNeural` (Mężczyzna)
`fr-FR`	Francuski (Francja)	`VivienneNeural` (Kobieta)
`it-IT`	Włoski (Włochy)	`GiuseppeNeural` (Mężczyzna)
`ko-KR`	Koreański (Korea)	`HyunsuNeural` (Mężczyzna)
`pt-BR`	Portugalski (Brazylia)	`ThalitaNeural` (Kobieta)

Modele zaktualizowane o naprawione błędy i poprawę jakości:

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`es-ES`	Hiszpański (Hiszpania)	`AlvaroNeural` (Mężczyzna)
`en-GB`	Angielski (Zjednoczone Królestwo)	`RyanNeural` (Mężczyzna)
`ko-KR`	Koreański (Korea)	`InjoonNeural` (Mężczyzna)

Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Wersja z października 2023 roku

Niestandardowy neuronowy głos

Dodano obsługę 12 nowych ustawień regionalnych z niestandardowym neuronowym głosem Pro. Aby uzyskać więcej informacji, zobacz pełną listę języków.

Wydanie z września 2023 roku

Wstępnie utworzony głos neuronowy

Wprowadzenie do nowych głosów w publicznej wersji zapoznawczej:

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`en-US`	Angielski (Stany Zjednoczone)	`en-US-EmmaNeural` (Kobieta)
`en-US`	Angielski (Stany Zjednoczone)	`en-US-AndrewNeural` (Mężczyzna)
`en-US`	Angielski (Stany Zjednoczone)	`en-US-BrianNeural` (Mężczyzna)

Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Osadzony głos neuronowy

Wszystkie 147 ustawień regionalnych tutaj (z wyjątkiem fa-IR, Perski (Iran)) są dostępne w pudełku z 1 wybranych kobiet i / lub 1 wybranych męskich głosów.

Wydanie z sierpnia 2023

Niestandardowy neuronowy głos

Najnowsza wersja przepisu szkoleniowego CNV Lite została wydana teraz. W tej wersji wprowadzono kilka ulepszeń dotyczących jakości modeli językowych. Wypróbuj program Speech Studio.

Wydanie z lipca 2023 r.

Niestandardowy neuronowy głos

Głos w wielu stylach jest ogólnie dostępny.
Dodano dwa nowe ustawienia regionalne w publicznej wersji zapoznawczej dla wielostylowego głosu: ja-JP i zh-CN. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów. Zapoznaj się z listą stylów ustawień wstępnych dla różnych języków.
Głos krzyżowy jest ogólnie dostępny.
Dodano dwa nowe ustawienia regionalne dla głosu wielojęzycznego: id-ID i nl-NL. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Wstępnie utworzone neuronowe głosy TTS

Wprowadzenie nowego en-US głosu neutralnego pod względem płci w publicznej wersji zapoznawczej:

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`en-US`	Angielski (Stany Zjednoczone)	`en-US-BlueNeural` (Neutralne)

Wprowadzenie do nowych wielojęzycznych głosów w publicznej wersji zapoznawczej:

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`en-US`	Angielski (Stany Zjednoczone)	`en-US-JennyMultilingualV2Neural` (Kobieta)
`en-US`	Angielski (Stany Zjednoczone)	`en-US-RyanMultilingualNeural` (Mężczyzna)

Wielojęzyczne głosy en-US-JennyMultilingualV2Neural i en-US-RyanMultilingualNeural automatyczne wykrywanie języka tekstu wejściowego. Jednak nadal można użyć <lang> elementu , aby dostosować język mówienia dla tych głosów.

Te nowe wielojęzyczne głosy mogą mówić w 41 językach i akcentach: Arabic (Egypt), CatalanItalian (Italy)Chinese (Cantonese, Traditional)Indonesian (Indonesia)Swedish (Sweden)Chinese (Mandarin, Simplified)Hindi (India)Portuguese (Portugal)Turkish (Türkiye)Russian (Russia)Danish (Denmark)Portuguese (Brazil)Thai (Thailand)Polish (Poland)Dutch (Belgium)Norwegian Bokmål (Norway)German (Austria)Korean (Korea)Dutch (Netherlands)Czech (Czechia)English (Australia)Japanese (Japan)Hungarian (Hungary)French (Switzerland)French (France)French (Canada)French (Belgium)Finnish (Finland)Spanish (Mexico)Spanish (Spain)Arabic (Saudi Arabia)English (United States)English (India)German (Switzerland)English (Hong Kong SAR)German (Germany)English (Canada)English (United Kingdom)English (Ireland). Chinese (Taiwanese Mandarin, Traditional)

Te wielojęzyczne głosy nie obsługują w pełni niektórych elementów SSML, takich jak przerwanie, nacisk, cisza i sub.

Ważne

Głos en-US-JennyMultilingualV2Neural jest udostępniany tymczasowo w publicznej wersji zapoznawczej wyłącznie do celów ewaluacyjnych. Zostanie on usunięty w przyszłości.

Aby mówić w języku innym niż angielski, bieżąca implementacja en-US-JennyMultilingualNeural głosu wymaga ustawienia <lang xml:lang> elementu. Przewidujemy, en-US-JennyMultilingualNeural że w kwartale 2023 r. głos zostanie zaktualizowany, aby mówić w języku tekstu wejściowego bez <lang xml:lang> elementu. Będzie to w równoważności z głosem en-US-JennyMultilingualV2Neural .

Wprowadzenie nowych funkcji w publicznej wersji zapoznawczej dla poniższych głosów:

Dodano dane wejściowe łacińskie dla głosów serbskich sr-latn-RS-SophieNeural (Serbia): sr-RS i sr-latn-RS-NicholasNeural.
Dodano obsługę wymowy w języku angielskim dla albańskich głosów sq-AL-AnilaNeural (Albania): sq-AL i sq-AL-IlirNeural.

Wydanie w maju 2023 r.

Tworzenie zawartości audio

Wszystkie wstępnie utworzone głosy ze stylami mówienia i niestandardowymi głosami w wielu stylach obsługują korektę stopnia stylu.
Teraz możesz naprawić wymowę słowa, mówiąc słowo i rejestrując je. Fonezy mogą być automatycznie rozpoznawane z nagrania. Funkcja Rozpoznawanie przez mówienie jest teraz dostępna w publicznej wersji zapoznawczej.

Wydanie w kwietniu 2023 r.

Wstępnie utworzone neuronowe głosy TTS

Następujące funkcje tych głosów zostały przeniesione z publicznej wersji zapoznawczej do ogólnie dostępnej wersji zapoznawczej:

Styl	Głosy zamiany tekstu na mowę
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural`i `it-IT-IsabellaNeural`
style="wesoły"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, , `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural`i `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` i `fr-FR-HenriNeural`

Ulepszanie wymowy języka angielskiego dla hi-INjęzyka i ta-INte-IN głosów, teraz jest testowanie w regionach publicznej wersji zapoznawczej

Aby uzyskać więcej informacji, zobacz język i listę głosów.

Wydanie z marca 2023 roku

Nowe funkcje

Język SSML (Speech Synthesis Markup Language) jest aktualizowany w celu obsługi elementów procesora efektów dźwiękowych, które optymalizują jakość syntetyzowanych danych wyjściowych mowy dla określonych scenariuszy na urządzeniach. Dowiedz się więcej na temat znaczników syntezy mowy.

Niestandardowy neuronowy głos

Dodano obsługę nl-BE ustawień regionalnych z niestandardowym neuronowym głosem Pro. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Wstępnie utworzone neuronowe głosy TTS

Następujące głosy są teraz ogólnie dostępne. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`en-AU`	Angielski (Australia)	`en-AU-AnnetteNeural` (Kobieta) `en-AU-CarlyNeural` (Kobieta) `en-AU-DarrenNeural` (Mężczyzna) `en-AU-DuncanNeural` (Mężczyzna) `en-AU-ElsieNeural` (Kobieta) `en-AU-FreyaNeural` (Kobieta) `en-AU-JoanneNeural` (Kobieta) `en-AU-KenNeural` (Mężczyzna) `en-AU-KimNeural` (Kobieta) `en-AU-NeilNeural` (Mężczyzna) `en-AU-TimNeural` (Mężczyzna) `en-AU-TinaNeural` (Kobieta) `en-AU-WilliamNeural` (Mężczyzna)
`en-GB`	Angielski (Zjednoczone Królestwo)	`en-GB-RyanNeural` (Mężczyzna) `en-GB-SoniaNeural` (Kobieta)
`es-ES`	Hiszpański (Hiszpania)	`es-ES-AbrilNeural` (Kobieta) `es-ES-ArnauNeural` (Mężczyzna) `es-ES-DarioNeural` (Mężczyzna) `es-ES-EliasNeural` (Mężczyzna) `es-ES-EstrellaNeural` (Kobieta) `es-ES-IreneNeural` (Kobieta) `es-ES-LaiaNeural` (Kobieta) `es-ES-LiaNeural` (Kobieta) `es-ES-NilNeural` (Mężczyzna) `es-ES-SaulNeural` (Mężczyzna) `es-ES-TeoNeural` (Mężczyzna) `es-ES-TrianaNeural` (Kobieta) `es-ES-VeraNeural` (Kobieta)
`es-MX`	Hiszpański (Meksyk)	`es-MX-JorgeNeural` (Mężczyzna)
`fr-FR`	Francuski (Francja)	`fr-FR-HenriNeural` (Mężczyzna)
`it-IT`	Włoski (Włochy)	`it-IT-IsabellaNeural` (Kobieta)
`ja-JP`	Japoński (Japonia)	`ja-JP-AoiNeural` (Kobieta) `ja-JP-DaichiNeural` (Mężczyzna) `ja-JP-MayuNeural` (Kobieta) `ja-JP-NaokiNeural` (Mężczyzna) `ja-JP-ShioriNeural` (Kobieta)

Dodano obsługę cheerful stylu za pomocą de-DE-ConradNeural głosu.

Wydanie z lutego 2023 r.

Wstępnie utworzone neuronowe głosy TTS

Następujące głosy są teraz ogólnie dostępne. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`zh-CN`	Chiński (mandaryński, uproszczony)	`zh-CN-XiaomengNeural` (Kobieta) `zh-CN-XiaoyiNeural` (Kobieta) `zh-CN-XiaozhenNeural` (Kobieta) `zh-CN-YunfengNeural` (Mężczyzna) `zh-CN-YunhaoNeural` (Mężczyzna) `zh-CN-YunjianNeural` (Mężczyzna) `zh-CN-YunxiaNeural` (Mężczyzna) `zh-CN-YunzeNeural` (Mężczyzna)
`zh-CN-henan`	Chiński (Zhongyuan Mandaryński Henan, uproszczony)	`zh-CN-henan-YundengNeural` (Mężczyzna)

Wydanie z grudnia 2022 r.

Interfejs API REST syntezy usługi Batch (wersja zapoznawcza)

Interfejs API syntezy usługi Batch jest obecnie w publicznej wersji zapoznawczej. Po udostępnieniu interfejsu Long Audio API jest przestarzały. Aby uzyskać więcej informacji, zobacz Migrowanie do interfejsu API syntezy wsadowej.

Wydanie z listopada 2022 r.

Wstępnie utworzone neuronowe głosy TTS (GA)

Następujące głosy są teraz ogólnie dostępne. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`es-MX`	Hiszpański (Meksyk)	`es-MX-BeatrizNeural` (Kobieta) `es-MX-CandelaNeural` (Kobieta) `es-MX-CarlotaNeural` (Kobieta) `es-MX-CecilioNeural` (Mężczyzna) `es-MX-GerardoNeural` (Mężczyzna) `es-MX-LarissaNeural` (Kobieta) `es-MX-LibertoNeural` (Mężczyzna) `es-MX-LucianoNeural` (Mężczyzna) `es-MX-MarinaNeural` (Kobieta) `es-MX-NuriaNeural` (Kobieta) `es-MX-PelayoNeural` (Mężczyzna) `es-MX-RenataNeural` (Kobieta) `es-MX-YagoNeural` (Mężczyzna)
`it-IT`	Włoski (Włochy)	`it-IT-BenignoNeural` (Mężczyzna) `it-IT-CalimeroNeural` (Mężczyzna) `it-IT-CataldoNeural` (Mężczyzna) `it-IT-FabiolaNeural` (Kobieta) `it-IT-FiammaNeural` (Kobieta) `it-IT-GianniNeural` (Mężczyzna) `it-IT-ImeldaNeural` (Kobieta) `it-IT-IrmaNeural` (Kobieta) `it-IT-LisandroNeural` (Mężczyzna) `it-IT-PalmiraNeural` (Kobieta) `it-IT-PierinaNeural` (Kobieta) `it-IT-RinaldoNeural` (Mężczyzna)
`pt-BR`	Portugalski (Brazylia)	`pt-BR-BrendaNeural` (Kobieta) `pt-BR-DonatoNeural` (Mężczyzna) `pt-BR-ElzaNeural` (Kobieta) `pt-BR-FabioNeural` (Mężczyzna) `pt-BR-GiovannaNeural` (Kobieta) `pt-BR-HumbertoNeural` (Mężczyzna) `pt-BR-JulioNeural` (Mężczyzna) `pt-BR-LeilaNeural` (Kobieta) `pt-BR-LeticiaNeural` (Kobieta) `pt-BR-ManuelaNeural` (Kobieta) `pt-BR-NicolauNeural` (Mężczyzna) `pt-BR-ValerioNeural` (Mężczyzna) `pt-BR-YaraNeural` (Kobieta)

Niestandardowy neuronowy głos

Następująca obsługa ustawień regionalnych jest dodawana dla niestandardowego neuronowego głosu. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Dodano obsługę fr-BE ustawień regionalnych z niestandardowym neuronowym głosem Pro.
Dodano obsługę es-ES ustawień regionalnych z niestandardowym neuronowym głosem lite.

Wydanie z października 2022 r.

Wstępnie utworzone neuronowe głosy TTS (GA)

Następujące głosy są teraz ogólnie dostępne. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`eu-ES`	Baskijski	`eu-ES-AinhoaNeural` (Kobieta) `eu-ES-AnderNeural` (Mężczyzna)
`hy-AM`	Armeński (Armenia)	`hy-AM-AnahitNeural` (Kobieta) `hy-AM-HaykNeural` (Mężczyzna)

Wstępnie utworzone neuronowe głosy TTS (wersja zapoznawcza)

Następujące głosy są teraz dostępne w publicznej wersji zapoznawczej. Aby uzyskać więcej informacji, zobacz pełną listę języków i głosów.

Ustawienia regionalne (BCP-47)	Język	Głosy zamiany tekstu na mowę
`en-AU`	Angielski (Australia)	`en-AU-AnnetteNeural`(Kobieta) `en-AU-CarlyNeural`(Kobieta) `en-AU-DarrenNeural`(Mężczyzna) `en-AU-DuncanNeural`(Mężczyzna) `en-AU-ElsieNeural`(Kobieta) `en-AU-FreyaNeural`(Kobieta) `en-AU-JoanneNeural`(Kobieta) `en-AU-KenNeural`(Mężczyzna) `en-AU-KimNeural`(Kobieta) `en-AU-NeilNeural`(Mężczyzna) `en-AU-TimNeural`(Mężczyzna) `en-AU-TinaNeural`(Kobieta)
`es-ES`	Hiszpański (Hiszpania)	`es-ES-AbrilNeural`(Kobieta) `es-ES-AlvaroNeural`(Mężczyzna) `es-ES-ArnauNeural`(Mężczyzna) `es-ES-DarioNeural`(Mężczyzna) `es-ES-EliasNeural`(Mężczyzna) `es-ES-EstrellaNeural`(Kobieta) `es-ES-IreneNeural`(Kobieta) `es-ES-LaiaNeural`(Kobieta) `es-ES-LiaNeural`(Kobieta) `es-ES-NilNeural`(Mężczyzna) `es-ES-SaulNeural`(Mężczyzna) `es-ES-TeoNeural`(Mężczyzna) `es-ES-TrianaNeural`(Kobieta) `es-ES-VeraNeural`(Kobieta)
`ja-JP`	Japoński (Japonia)	`ja-JP-AoiNeural`(Kobieta) `ja-JP-DaichiNeural`(Mężczyzna) `ja-JP-MayuNeural`(Kobieta) `ja-JP-NaokiNeural`(Mężczyzna) `ja-JP-ShioriNeural`(Kobieta)
`ko-KR`	Koreański (Korea)	`ko-KR-BongJinNeural`(Mężczyzna) `ko-KR-GookMinNeural`(Mężczyzna) `ko-KR-JiMinNeural`(Kobieta) `ko-KR-SeoHyeonNeural`(Kobieta) `ko-KR-SoonBokNeural`(Kobieta) `ko-KR-YuJinNeural`(Kobieta)
`wuu-CN`	Chiński (Wu, uproszczony)	`wuu-CN-XiaotongNeural` (Kobieta) `wuu-CN-YunzheNeural` (Mężczyzna)
`yue-CN`	Chiński (kantoński, uproszczony)	`yue-CN-XiaoMinNeural` (Kobieta) `yue-CN-YunSongNeural` (Mężczyzna)

Ogólne aktualizacje głosu TTS

Ulepszona jakość głosów fil-PH-AngeloNeural i fil-PH-BlessicaNeural .
Reguły normalizacji tekstu są aktualizowane dla głosów z es-CL hiszpańskich (Chile) i uz-UZ uzbeckich (Uzbekistan) ustawień regionalnych.
Dodano pisownię angielskich liter dla głosów z sq-AL albańskimi (Albańczykami) i az-AZ azerbejdżańskimi (Azerbejdżan) miejscowymi.
Ulepszona wymowa zh-HK-WanLungNeural języka angielskiego dla głosu.
Ulepszony ton pytania dla nl-NL-MaartenNeural głosów i pt-BR-AntonioNeural .
Dodano obsługę tagu <lang ="en-US"> dla lepszej wymowy języka angielskiego przy użyciu następujących głosów: de-DE-ConradNeural, , es-MX-DaliaNeuralfr-CA-SylvieNeurales-ES-AlvaroNeuralde-DE-KatjaNeuralfr-FR-DeniseNeuralfr-FR-HenriNeurales-MX-JorgeNeuralit-IT-DiegoNeurali .it-IT-IsabellaNeural
Dodano obsługę tagu style="chat" z następującymi głosami: en-GB-RyanNeural, es-MX-JorgeNeurali it-IT-IsabellaNeural.
Dodano obsługę tagu style="cheerful" z następującymi głosami: en-GB-RyanNeural, , en-GB-SoniaNeurales-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeurali it-IT-IsabellaNeural.
Dodano obsługę tagu style="sad" z następującymi głosami: en-GB-SoniaNeural, fr-FR-DeniseNeural i fr-FR-HenriNeural.

Wydanie z września 2022 r.

Wstępnie utworzony neuronowy głos TTS

Wszystkie wstępnie utworzone głosy neuronowe zostały uaktualnione do głosów o wysokiej wierności z częstotliwością próbkowania 48kHz.

Wydanie z sierpnia 2022 r.

Wstępnie utworzony neuronowy głos TTS

Wydano nowe głosy w publicznej wersji zapoznawczej:

Głosy dla języka angielskiego (Stany Zjednoczone): en-US-AIGenerate1Neural i en-US-AIGenerate2Neural.
Głosy dla chińskich języków regionalnych: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeurali zh-CN-shandong-YunxiangNeural.

Aby uzyskać więcej informacji, zobacz język i listę głosów.

Wydanie z lipca 2022 r.

Wstępnie utworzony neuronowy głos TTS

Dodano 5 nowych głosów języka chińskiego (mandaryńskiego, uproszczonego zh-CNen-US) i 1 nowy głos języka angielskiego (Stany Zjednoczone) w publicznej wersji zapoznawczej. Zobacz pełny język i listę głosów.

Język	Ustawienia regionalne	Płeć	Nazwa głosu	Obsługa stylów
Chiński (mandaryński, uproszczony)	`zh-CN`	Kobieta	`zh-CN-XiaomengNeural`^New	Ogólne, wiele stylów dostępnych przy użyciu języka SSML
Chiński (mandaryński, uproszczony)	`zh-CN`	Kobieta	`zh-CN-XiaoyiNeural`^New	Ogólne, wiele stylów dostępnych przy użyciu języka SSML
Chiński (mandaryński, uproszczony)	`zh-CN`	Kobieta	`zh-CN-XiaozhenNeural`^New	Ogólne, wiele stylów dostępnych przy użyciu języka SSML
Chiński (mandaryński, uproszczony)	`zh-CN`	Mężczyzna	`zh-CN-YunxiaNeural`^New	Ogólne, wiele stylów dostępnych przy użyciu języka SSML
Chiński (mandaryński, uproszczony)	`zh-CN`	Mężczyzna	`zh-CN-YunzeNeural`^New	Ogólne, wiele stylów dostępnych przy użyciu języka SSML
Angielski (Stany Zjednoczone)	`en-US`	Mężczyzna	`en-US-RogerNeural`^New	Ogólne

Obsługiwane style i role dla dodanych neuronowych głosów.

Głos	Style	Stopień stylu	Role
zh-CN-XiaomengNeural Publiczna ^{wersja zapoznawcza}	`chat`	Obsługiwane
zh-CN-XiaoyiNeural ^{Publiczna wersja zapoznawcza}	`affectionate`, `angry`, , `cheerful`, `embarrasseddisgruntled`, `fearful`, , `sadgentleserious`	Obsługiwane
zh-CN-XiaozhenNeural publiczna ^{wersja zapoznawcza}	`angry`, , `cheerful`, `disgruntled`, `fearful`, , `sadserious`	Obsługiwane
zh-CN-YunxiaNeural Publiczna ^{wersja zapoznawcza}	`angry`, , `calm`, `cheerful`, , `fearfulsad`	Obsługiwane
zh-CN-YunzeNeural Publiczna ^{wersja zapoznawcza}	`angry`, `calm`, , `cheerful`, `disgruntleddepressed`, `documentary-narration`, , `sadfearfulserious`	Obsługiwane	Obsługiwane

Uzyskiwanie pozycji twarzy z viseme

Dodano obsługę kształtów mieszania w celu napędzania ruchów twarzy znaku 3D, który został zaprojektowany. Dowiedz się więcej na temat sposobu uzyskiwania pozycji twarzy z viseme.
Zaktualizowano kod SSML w celu obsługi elementu viseme. Zobacz znaczniki syntezy mowy.

Wersja z czerwca 2022 r.

Wstępnie utworzony neuronowy głos TTS

Dodano 9 nowych języków i wariantów dla tekstu neuronowego do mowy:

Język	Ustawienia regionalne	Płeć	Nazwa głosu	Obsługa stylów
Arabski (Liban)	`ar-LB`	Kobieta	`ar-LB-LaylaNeural`^New	Ogólne
Arabski (Liban)	`ar-LB`	Mężczyzna	`ar-LB-RamiNeural`^New	Ogólne
Arabski (Oman)	`ar-OM`	Kobieta	`ar-OM-AyshaNeural`^New	Ogólne
Arabski (Oman)	`ar-OM`	Mężczyzna	`ar-OM-AbdullahNeural`^New	Ogólne
Azerbejdżan (Azerbejdżan)	`az-AZ`	Kobieta	`az-AZ-BabekNeural`^New	Ogólne
Azerbejdżan (Azerbejdżan)	`az-AZ`	Mężczyzna	`az-AZ-BanuNeural`^New	Ogólne
Bośniacki (Bośnia i Hercegowina)	`bs-BA`	Kobieta	`bs-BA-VesnaNeural`^New	Ogólne
Bośniacki (Bośnia i Hercegowina)	`bs-BA`	Mężczyzna	`bs-BA-GoranNeural`^New	Ogólne
Gruziński (Gruzja)	`ka-GE`	Kobieta	`ka-GE-EkaNeural`^New	Ogólne
Gruziński (Gruzja)	`ka-GE`	Mężczyzna	`ka-GE-GiorgiNeural`^New	Ogólne
Mongolski (Mongolii)	`mn-MN`	Kobieta	`mn-MN-YesuiNeural`^New	Ogólne
Mongolski (Mongolii)	`mn-MN`	Mężczyzna	`mn-MN-BataaNeural`^New	Ogólne
Nepalski (Nepal)	`ne-NP`	Kobieta	`ne-NP-HemkalaNeural`^New	Ogólne
Nepalski (Nepal)	`ne-NP`	Mężczyzna	`ne-NP-SagarNeural`^New	Ogólne
Albański (Albania)	`sq-AL`	Kobieta	`sq-AL-AnilaNeural`^New	Ogólne
Albański (Albania)	`sq-AL`	Mężczyzna	`sq-AL-IlirNeural`^New	Ogólne
Tamil (Malezja)	`ta-MY`	Kobieta	`ta-MY-KaniNeural`^New	Ogólne
Tamil (Malezja)	`ta-MY`	Mężczyzna	`ta-MY-SuryaNeural`^New	Ogólne

Ga 36 głosów z publicznej wersji zapoznawczej dla en-GB języka angielskiego (Wielka Brytania), fr-FR francuski (Francja) i de-DE niemiecki (Niemcy):

Język	Ustawienia regionalne	Płeć	Nazwa głosu	Obsługa stylów
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-AbbiNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-BellaNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-HollieNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-MaisieNeural`	Ogólny, głos dziecka
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-OliviaNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-SoniaNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-AlfieNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-ElliotNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-EthanNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-NoahNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-OliverNeural`	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-ThomasNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-BrigitteNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-CelesteNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-CoralieNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-EloiseNeural`	Ogólny, głos dziecka
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-JacquelineNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-JosephineNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-YvetteNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-AlainNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-ClaudeNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-JeromeNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-MauriceNeural`	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-YvesNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-AmalaNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-ElkeNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-GiselaNeural`	Ogólny, głos dziecka
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-KlarissaNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-LouisaNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-MajaNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-TanjaNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-BerndNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-ChristophNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-KasperNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-KillianNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-KlausNeural`	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-RalfNeural`	Ogólne

Dodano 40 nowych głosów hiszpańskich (Meksyk), it-IT włoski (Włochy), pt-BR portugalski (Brazylia) i 2 akcenty dla zh-CN chińskiego es-MX (mandaryńskiego, uproszczonego) w publicznej wersji zapoznawczej:

Język	Ustawienia regionalne	Płeć	Nazwa głosu	Obsługa stylów
Hiszpański (Meksyk)	`es-MX`	Kobieta	`es-MX-BeatrizNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Kobieta	`es-MX-CarlotaNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Kobieta	`es-MX-NuriaNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Kobieta	`es-MX-RenataNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Kobieta	`es-MX-LarissaNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Kobieta	`es-MX-CandelaNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Kobieta	`es-MX-MarinaNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Kobieta	`it-IT-FiammaNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Kobieta	`it-IT-IrmaNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Kobieta	`it-IT-FabiolaNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Kobieta	`it-IT-PalmiraNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Kobieta	`it-IT-ImeldaNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Kobieta	`it-IT-PierinaNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Kobieta	`pt-BR-ElzaNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Kobieta	`pt-BR-ManuelaNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Kobieta	`pt-BR-BrendaNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Kobieta	`pt-BR-LeilaNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Kobieta	`pt-BR-YaraNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Kobieta	`pt-BR-GiovannaNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Kobieta	`pt-BR-LeticiaNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Mężczyzna	`es-MX-CecilioNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Mężczyzna	`es-MX-LibertoNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Mężczyzna	`es-MX-LucianoNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Mężczyzna	`es-MX-PelayoNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Mężczyzna	`es-MX-YagoNeural`^New	Ogólne
Hiszpański (Meksyk)	`es-MX`	Mężczyzna	`es-MX-GerardoNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Mężczyzna	`it-IT-BenignoNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Mężczyzna	`it-IT-CataldoNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Mężczyzna	`it-IT-LisandroNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Mężczyzna	`it-IT-CalimeroNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Mężczyzna	`it-IT-RinaldoNeural`^New	Ogólne
Włoski (Włochy)	`it-IT`	Mężczyzna	`it-IT-GianniNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Mężczyzna	`pt-BR-DonatoNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Mężczyzna	`pt-BR-HumbertoNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Mężczyzna	`pt-BR-FabioNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Mężczyzna	`pt-BR-JulioNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Mężczyzna	`pt-BR-ValerioNeural`^New	Ogólne
Portugalski (Brazylia)	`pt-BR`	Mężczyzna	`pt-BR-NicolauNeural`^New	Ogólne
Chiński (mandaryński, uproszczony)	`zh-CN-sichuan`	Mężczyzna	`zh-CN-sichuan-YunxiSichuanNeural`^New	Ogólny, akcent syczuan
Chiński (mandaryński, uproszczony)	`zh-CN-liaoning`	Kobieta	`zh-CN-liaoning-XiaobeiNeural`^New	Ogólne, akcent Liaoning

Ulepszona jakość dla i en-SG-LunaNeuralen-SG-WayneNeural
Obsługa danych wyjściowych 48kHz dla publicznej wersji zapoznawczej z en-US-JennyNeural, en-US-AriaNeural i zh-CN-XiaoxiaoNeural

Niestandardowy neuronowy głos

Włączono rozwiązywanie problemów z danymi w trybie online. Dowiedz się więcej na temat rozwiązywania problemów z danymi w usłudze Speech Studio.
Dodano wersję przepisu szkoleniowego. Dowiedz się więcej na temat wybierania wersji przepisu szkoleniowego dla modelu głosowego.

Narzędzie do tworzenia zawartości audio

Obsługiwane stronicowanie.
Włączono sortowanie globalnie według nazwy, typu pliku i czasu aktualizacji na stronie pliku roboczego.

Wydanie z maja 2022 r.

Wstępnie utworzony neuronowy głos TTS

Wydano 5 nowych głosów w publicznej wersji zapoznawczej z wieloma stylami, aby wzbogacić różnorodność w języku angielskim amerykańskim. Zobacz pełny język i listę głosów.
Obsługa tych nowych stylówAngry, , HopefulExcitedShoutingFriendlySad, TerrifiedUnfriendlyi Whispering w publicznej wersji zapoznawczej dla programu .en-US-AriaNeural
Obsługują te nowe styleAngry, , , FriendlySadCheerfulUnfriendlyTerrifiedShoutingExcitedHopefuli Whispering w publicznej wersji zapoznawczej dla systemu en-US-GuyNeural, . en-US-JennyNeural
Obsługują te nowe styleExcited, , Friendly, ShoutingHopeful, UnfriendlyTerrified i Whispering w publicznej wersji zapoznawczej dla programu en-US-SaraNeural. Zobacz style i role głosu.
Wydano nowe głosy zh-CN-YunjianNeural, zh-CN-YunhaoNeurali zh-CN-YunfengNeural w publicznej wersji zapoznawczej. Zobacz pełny język i listę głosów.
Obsługa 2 nowych stylów sports-commentaryw sports-commentary-excited publicznej wersji zapoznawczej dla programu zh-CN-YunjianNeural. Zobacz style i role głosu.
Obsługa 1 nowego stylu advertisement-upbeat w publicznej wersji zapoznawczej dla programu zh-CN-YunhaoNeural. Zobacz style i role głosu.
Style cheerfulfr-FR-DeniseNeural i sad są ogólnie dostępne we wszystkich regionach.
Zaktualizowano kod SSML w celu obsługi elementów MathML dla głosów en-US i en-AU. Dowiedz się więcej na temat znaczników syntezy mowy.

Niestandardowy neuronowy głos

Włączono anulowanie trenowania podczas trenowania modelu głosu. Dowiedz się więcej na temat anulowania szkolenia.
Włączono klonowanie modelu (zmiana nazwy modelu głosowego). Dowiedz się więcej na temat zmieniania nazwy modelu głosu.
Włączono testowanie modelu głosowego przez dodanie własnego skryptu testowego. Dowiedz się więcej na temat przekazywania skryptu testowego.
Włączono aktualizowanie wersji aparatu dla modelu głosowego. Dowiedz się więcej na temat aktualizowania wersji aparatu modelu.
Obsługa większej liczby regionów szkoleniowych. Zobacz obsługa regionów.
Obsługiwane 10 ustawień regionalnych dla niestandardowego neuronowego głosu lite (wersja zapoznawcza). Zobacz Obsługa języka.

Narzędzie do tworzenia zawartości audio

Włączone, aby wypróbować narzędzie do tworzenia zawartości audio bez logowania.
Ulepszony układ dostosowywania dzwonów.
Zwiększona wydajność: określono maksymalną liczbę (200) plików do przekazania jednocześnie.
Zwiększona wydajność: określono maksymalny poziom głębokości katalogu (5 poziomów).

Wydanie z marca 2022 r.

Wstępnie utworzony neuronowy głos TTS

Dodano obsługę w publicznej wersji zapoznawczej dla Cheerful stylów i Sad za pomocą polecenia fr-FR-DeniseNeural. Zobacz style i role głosu.
Wydane odłączone kontenery dla wstępnie utworzonych neuronowych głosów TTS w publicznej wersji zapoznawczej. Zobacz Używanie kontenerów platformy Docker w środowiskach bez połączenia.

Niestandardowy neuronowy głos

Obsługiwana kontrola dostępu oparta na rolach. Dowiedz się więcej na temat kontroli dostępu opartej na rolach platformy Azure w usłudze Speech Studio
Obsługiwane prywatne punkty końcowe i punkty końcowe usługi sieci wirtualnej. Dowiedz się więcej na temat używania prywatnych punktów końcowych z usługą mowy.

Narzędzie do tworzenia zawartości audio

Zaktualizowano rozmiar pliku i limit współbieżności dla zasobów warstwy bezpłatna (F0), aby zapewnić spójność środowiska z zestawem SPEECH SDK i interfejsami API. Zobacz limity przydziału i limity usługi rozpoznawania mowy.

Wydanie z lutego 2022 r.

Niestandardowy neuronowy głos

Wydano niestandardowy neuronowy głos lite w publicznej wersji zapoznawczej. Dowiedz się więcej o tym, co to jest niestandardowy neuronowy głos lite.
Rozszerzona obsługa języków do 49 ustawień regionalnych. Zobacz Obsługa języka.
Obsługa większej liczby regionów/centrów danych. Zobacz obsługa regionów.

Narzędzie do tworzenia zawartości audio

Usunięto limit długości danych wyjściowych pobierania audio.

Wydanie ze stycznia 2022 r.

Nowe języki i głosy

Dodano 10 nowych języków i wariantów dla tekstu neuronowego do mowy:

Język	Ustawienia regionalne	Płeć	Nazwa głosu	Obsługa stylów
Bengalski (Indie)	`bn-IN`	Kobieta	`bn-IN-TanishaaNeural`^New	Ogólne
Bengalski (Indie)	`bn-IN`	Mężczyzna	`bn-IN-BashkarNeural`^New	Ogólne
Islandia (Islandia)	`is-IS`	Kobieta	`is-IS-GudrunNeural`^New	Ogólne
Islandia (Islandia)	`is-IS`	Mężczyzna	`is-IS-GunnarNeural`^New	Ogólne
Kannada (Indie)	`kn-IN`	Kobieta	`kn-IN-SapnaNeural`^New	Ogólne
Kannada (Indie)	`kn-IN`	Mężczyzna	`kn-IN-GaganNeural`^New	Ogólne
Kazachski (Kazachstan)	`kk-KZ`	Kobieta	`kk-KZ-AigulNeural`^New	Ogólne
Kazachski (Kazachstan)	`kk-KZ`	Mężczyzna	`kk-KZ-DauletNeural`^New	Ogólne
Lao (Laos)	`lo-LA`	Kobieta	`lo-LA-KeomanyNeural`^New	Ogólne
Lao (Laos)	`lo-LA`	Mężczyzna	`lo-LA-ChanthavongNeural`^New	Ogólne
Macedoński (Republika Macedonii Północnej)	`mk-MK`	Kobieta	`mk-MK-MarijaNeural`^New	Ogólne
Macedoński (Republika Macedonii Północnej)	`mk-MK`	Mężczyzna	`mk-MK-AleksandarNeural`^New	Ogólne
Malajalam (Indie)	`ml-IN`	Kobieta	`ml-IN-SobhanaNeural`^New	Ogólne
Malajalam (Indie)	`ml-IN`	Mężczyzna	`ml-IN-MidhunNeural`^New	Ogólne
Pashto (Afganistan)	`ps-AF`	Kobieta	`ps-AF-LatifaNeural`^New	Ogólne
Pashto (Afganistan)	`ps-AF`	Mężczyzna	`ps-AF-GulNawazNeural`^New	Ogólne
Serbski (Serbia, cyrylica)	`sr-RS`	Kobieta	`sr-RS-SophieNeural`^New	Ogólne
Serbski (Serbia, cyrylica)	`sr-RS`	Mężczyzna	`sr-RS-NicholasNeural`^New	Ogólne
Sinhala (Sri Lanka)	`si-LK`	Kobieta	`si-LK-ThiliniNeural`^New	Ogólne
Sinhala (Sri Lanka)	`si-LK`	Mężczyzna	`si-LK-SameeraNeural`^New	Ogólne

Aby uzyskać pełną listę dostępnych głosów, zobacz Obsługa języka.

Nowe głosy w wersji zapoznawczej

Dodano nowe głosy dla en-GB, fr-FR i de-DE w wersji zapoznawczej:

Język	Ustawienia regionalne	Płeć	Nazwa głosu	Obsługa stylów
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-AbbiNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-BellaNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-HollieNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Kobieta	`en-GB-OliviaNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Dziewczyna	`en-GB-MaisieNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-AlfieNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-ElliotNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-EthanNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-NoahNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-OliverNeural`^New	Ogólne
Angielski (Zjednoczone Królestwo)	`en-GB`	Mężczyzna	`en-GB-ThomasNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-BrigitteNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-CelesteNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-CoralieNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-JacquelineNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-JosephineNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Kobieta	`fr-FR-YvetteNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Dziewczyna	`fr-FR-EloiseNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-AlainNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-ClaudeNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-JeromeNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-MauriceNeural`^New	Ogólne
Francuski (Francja)	`fr-FR`	Mężczyzna	`fr-FR-YvesNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-AmalaNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-ElkeNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-KlarissaNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-LouisaNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-MajaNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Kobieta	`de-DE-TanjaNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Dziewczyna	`de-DE-GiselaNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-BerndNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-ChristophNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-KasperNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-KillianNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-KlausNeural`^New	Ogólne
Niemiecki (Niemcy)	`de-DE`	Mężczyzna	`de-DE-RalfNeural`^New	Ogólne

Aby uzyskać pełną listę dostępnych głosów, zobacz Obsługa języka.

Dokładność wymowy

Ulepszona wymowa angielskiego wyrazu dla wszystkich he-IL głosów.
Ulepszono dokładność wymowy na poziomie wyrazów dla cs-CZ elementów i da-DK.
Ulepszono obsługę znaków diakrytycznych arabskich i hebrajskiego Nikud.
Ulepszone odczytywanie jednostek dla ja-JP

Speech Studio

Niestandardowy neuronowy głos: włączono dodatkowe testowanie modelu przy użyciu interfejsu API wsadowego (długi interfejs API audio)
Tworzenie zawartości audio: włączono więcej formatów wyjściowych

Wydanie z października 2021 r.

Nowe języki i głosy

Dodano 49 nowych języków i 98 głosów dla tekstu neuronowego do mowy:

Adri in af-ZA Afrikaans (Republika Południowej Afryki), Willem w Afrikaans (Republika Południowej Afryki), Mekdes w am-ET Amharic (Etiopia), Ameha w am-ET Amharic (Etiopia), Fatima w af-ZA języku arabskim (Zjednoczone Emiraty Arabskie), Hamdan w ar-AEar-AE języku arabskim () Zjednoczone Emiraty Arabskie), Laila w ar-BH języku arabskim (Bahrajn), Ali w ar-BH języku arabskim (Bahrajn), Amina w ar-DZ języku arabskim (Algieria), Ismael w ar-DZ języku arabskim (Algieria), Rana w ar-IQ języku arabskim (Irak), Bassel w ar-IQ języku arabskim (Irak), Sana w ar-JO języku arabskim (Jordania), Taim w ar-JO języku arabskim (Jordania), Noura w ar-KW języku arabskim (Kuwejt), Fahed w ar-KW języku arabskim (Kuwejt), Iman w ar-LY języku arabskim (Libia), Omar w ar-LY języku arabskim (Libia), Mouna w ar-MA języku arabskim (Maroko), Jamal ar-MA w języku arabskim (Maroko), Amal w ar-QA języku arabskim (Katar), Moaz w ar-QA języku arabskim (Katar), Amany ar-SY w języku arabskim (Syria), Laith w ar-SY języku arabskim (Syria), Reem ar-TN w języku arabskim (Tunezja), Hedi ar-TN w języku arabskim (Tunezja), Maryam ar-YE w języku arabskim (Jemen), Saleh w ar-YE języku arabskim (Jemen), Nabanita w bn-BD Bangla (Bangladesz), Pradeep w bn-BD Bangla (Bangladesz), Asilia w en-KE języku angielskim (Kenii), Chilemba w en-KE języku angielskim (Kenia), Ezinne w en-NG języku angielskim (Nigeria), Abeo w en-NG języku angielskim (Nigeria), Imani w języku angielskim (Tanzania), Elimu w en-TZen-TZ języku angielskim (Tanzania), Sofii w języku hiszpańskim (Boliwia), Marcelo w języku hiszpańskim (Boliwia), Catalina w języku hiszpańskim (Chile), Catalina w języku hiszpańskim (Chile), Maria w języku angielskim (Chile), Maria w języku angielskim (Tanzania), Sofii w es-BO języku hiszpańskim (Boliwia), Marcelo es-BO w języku hiszpańskim (Boliwia), Catalina es-CL w języku hiszpańskim (Chile), Lorenzo es-CL w języku hiszpańskim (Chile), Maria w es-CR języku angielskim Hiszpański (Kostaryka), Juan w es-CR języku hiszpańskim (Kostaryka), Belkys w es-CU języku hiszpańskim (Kuba), Manuel w es-CU języku hiszpańskim (Kuba), Ramona w es-DO języku hiszpańskim (Dominikana), Emilio es-DO w języku hiszpańskim (Dominikana), Andrea w es-EC języku hiszpańskim (Ekwador), Luis w es-EC języku hiszpańskim (Ekwador), Teresa w es-GQ języku hiszpańskim (Gwinea równikowa), Javier w języku hiszpańskim (Gwinea Równikowa), Marty w es-GQes-GT języku hiszpańskim (Gwatemala), Andres es-GT w języku hiszpańskim (Gwatemala), Karla w es-HN języku hiszpańskim Hiszpański (Honduras), Carlos w es-HN języku hiszpańskim (Honduras), Yolanda w es-NI języku hiszpańskim (Nikaragua), Federico w es-NI języku hiszpańskim (Nikaragua), Margarita w es-PA języku hiszpańskim (Panama), Roberto es-PA w języku hiszpańskim (Panama), Camila w es-PE języku hiszpańskim (Peru), Alex w es-PE języku hiszpańskim (Peru), Karina w es-PR języku hiszpańskim (Portoryko), Victor w es-PR języku hiszpańskim (Portoryko), Tania w es-PY języku hiszpańskim (Paragwaj), Mario es-PY w języku hiszpańskim (Paragwaj), Lorena es-SV w języku hiszpańskim (Salwador), Rodrigo w języku hiszpańskim (El Salvador), Rodrigo w es-SV języku hiszpańskim Hiszpański (Salwador), Valentina w es-UY języku hiszpańskim (Urugwaj), Mateo w języku hiszpańskim (Urugwaj), Paola w es-VEes-UY języku hiszpańskim (Wenezuela), Sebastian w es-VE języku hiszpańskim (Wenezuela), Dilara w fa-IR Perskim (Iran), Farid w fa-IR Perskim (Iranie), Blessica w fil-PH Filipinie (Filipiny), Angelo w fil-PH Filipinie (Filipiny), Sabela w gl-ES Galicji, Roi w Galicji, Roi w gl-ES Galicji, Siti w jv-ID Javanese (Indonezja), Dimas w jv-ID Javanese (Indonezja), Sreymom km-KH w Khmer (Kambodża), Piseth w km-KH Khmer (Kambodża), Nilar w my-MM Birmańczycy (Mjanma), Thiha w Birmie (Birma), Ubax w my-MMso-SO Somalii (Somalia), Muuse w Somalii (Somalia), Tuti w so-SOsu-ID Sundanese (Indonezja), Jajang w su-ID Sundanese (Indonezja), Rehema w sw-TZ Swahili (Tanzania), Daudi w sw-TZ Swahili (Tanzania), Saranya w ta-LK Tamil (Sri Lanka), Kumar w ta-LK Tamil (Sri Lanka), Venba w ta-SG Tamil (Singapur), Anbu w ta-SG Tamil (Singapur), Gul w ur-IN Urdu (Indie), Salman w ur-IN Urdu (Indie), Madina w uz-UZ Uzbek (Uzbekistan), Sardor w uz-UZ Uzbek (Uzbekistan), Thando w zu-ZA Zulu (Republika Południowej Afryki), Themba w zu-ZA Zulu (Republika Południowej Afryki).

Wydanie z września 2021 r.

Nowy głos czatbota w en-US języku angielskim (USA): Sara, reprezentuje młodą dorosłą kobietę, która mówi bardziej niechętnie i pasuje najlepiej do scenariuszy czatbota.
Nowe style dodane do ja-JP japońskiego głosu Nanami: Trzy nowe style są teraz dostępne w Nanami: czat, obsługa klienta i wesoły.
Ogólna poprawa wymowy: Ardi w , id-IDPremwadee w th-TH, Christel w da-DK, HoaiMy i NamMinh w .vi-VN
Dwa nowe głosy w języku chińskim (mandaryński, Chiny) w zh-CN wersji zapoznawczej: Xiaochen & Xiaoyan, zoptymalizowany pod kątem spontanicznych scenariuszy mowy i obsługi klienta.

Wydanie z lipca 2021 r.

Aktualizacje zamiany tekstu neuronowego na mowę

Zmniejszono błędy wymowy w języku hebrajskim o 20%.

Aktualizacje programu Speech Studio

Niestandardowy głos neuronowy: zaktualizowano potok trenowania do uniTTSv3, za pomocą którego jakość modelu została ulepszona, podczas gdy czas trenowania jest skracany o 50% dla modeli akustycznych.
Tworzenie zawartości audio: rozwiązano problem z wydajnością eksportu i usterkę dotyczącą niestandardowego neuronowego wyboru głosu.

Wersja z czerwca 2021 r.

Aktualizacje programu Speech Studio

Niestandardowy głos neuronowy: niestandardowe trenowanie głosu neuronowego rozszerzone w celu obsługi Azji Południowo-Wschodniej. Nowe funkcje wydane w celu obsługi sprawdzania stanu przekazywania danych.
Tworzenie zawartości audio: udostępniono nową funkcję do obsługi niestandardowego leksykonu. Dzięki tej funkcji użytkownicy mogą łatwo tworzyć pliki leksykonowe i definiować dostosowaną wymowę dla danych wyjściowych dźwięku.

Wydanie z maja 2021 r.

Dodano nowe języki i głosy dla neuronowych TTS

Dziesięć nowych języków wprowadzonych - 20 nowych głosów w 10 nowych ustawieniach regionalnych są dodawane do listy neuronowych języków TTS: Yan w en-HK języku angielskim (Hongkong), Sam w en-HK języku angielskim (Hongkong), Molly w en-NZ języku angielskim (Nowa Zelandia), Mitchell w en-NZ języku angielskim (Nowa Zelandia), Luna w języku angielskim (Singapur), Wayne w en-SGen-SG języku angielskim (Singapur), Leah w en-ZA języku angielskim (RPA), Luke en-ZA w języku angielskim (Republika Południowej Afryki), Dhwani w gu-IN Gujarati (Indie), Niranjan w gu-IN Gujarati (Indie), Aarohi in mr-IN Marathi (Indie), Manohar in mr-IN Marathi (Indie), Elena w es-AR języku hiszpańskim (Argentyna), Tomas w es-AR języku hiszpańskim (Argentyna), Salome w es-CO języku hiszpańskim (Kolumbia), Gonzalo w języku hiszpańskim (Kolumbia), Paloma w es-COes-US języku hiszpańskim (USA), Alonso w es-US języku hiszpańskim (USA), Zuri in sw-KE Swahili (Kenia), Rafiki w sw-KE Swahili (Kenia).
Jedenaście nowych głosów en-US w wersji zapoznawczej - 11 nowych głosów en-US w wersji zapoznawczej są dodawane do amerykańskiego języka angielskiego, są Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Pięć zh-CN chińskich (mandaryńskich, uproszczonych) głosów jest ogólnie dostępnych - 5 chińskich (mandaryńskich, uproszczonych) głosów jest zmienianych z wersji zapoznawczej na ogólnie dostępne. Są One Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Teraz te głosy są dostępne we wszystkich regionach. Yunxi jest dodawany z nowym stylem "asystenta", który jest odpowiedni dla czatbota i agenta głosowego. Style głosu Xiaomo są wyrafinowane, aby być bardziej naturalne i opisywane.

Wydanie z kwietnia 2021 r.

Tekst neuronowy do mowy jest dostępny w 21 regionach

Dwanaście nowych regionów dodanych — tekst neuronowy do mowy jest teraz dostępny w tych nowych 12 regionach: Japan East, North EuropeSouth Central USSoutheast AsiaJapan Westwest Central USKorea CentralWest USNorth Central USWest EuropeUK SouthWest US 2. Sprawdź tutaj , aby uzyskać pełną listę 21 obsługiwanych regionów.

Wydanie z marca 2021 r.

Dodano nowe języki i głosy dla neuronowych TTS

Sześć nowych języków wprowadzonych - 12 nowych głosów w 6 nowych ustawieniach regionalnych są dodawane do listy neuronowych języków TTS: Nia w cy-GB walijskim (Wielka Brytania), Aled w cy-GB walijskim (Wielka Brytania), Rosa w en-PH języku angielskim (Filipiny), James w en-PH języku angielskim (Filipiny), Charline we francji (Belgia), Gerard we fr-BEfr-BE francji (Belgia), Dena w nl-BE Holandii (Belgia), Arnaud w nl-BE Holandii (Belgia), Polina uk-UA w języku ukraińskim (Ukraina), Ostap w uk-UA Języku Ukraińskim (Ukraina), Uzma w ur-PK Urdu (Pakistan), Asad w ur-PK Urdu (Pakistan).
Pięć języków z podglądu do GA - 10 głosów w 5 ustawień regionalnych wprowadzonych w listopadzie są teraz GA: Kert w et-EE Estoński (Estonia), Colm w ga-IE Irlandii (Irlandia), Nils na lv-LV Łotewski (Łotewski), Leonas na lt-LT Litewskim (Litwa), Joseph na mt-MT Maltanie (Malta).
Dodano nowy męski głos dla Francuzów (Kanada) - Nowy głos Antoine jest dostępny dla fr-CA Francuzów (Kanada).
Poprawa jakości - Zmniejszenie współczynnika błędów wymowy na hu-HU Węgierski - 48,17%, nb-NO Norweski - 52,76%, nl-NL Holenderski (Holandia) - 22,11%.

W tej wersji obsługujemy teraz łącznie 142 neuronowych głosów w 60 językach/ustawieniach regionalnych. Ponadto ponad 70 standardowych głosów jest dostępnych w 49 językach/ustawieniach regionalnych. Odwiedź stronę Obsługa języka, aby uzyskać pełną listę.

Uzyskiwanie zdarzeń pozy twarzy w celu animowania postaci

Neuronowy tekst do mowy zawiera teraz zdarzenie viseme. Zdarzenia Viseme umożliwiają użytkownikom uzyskanie sekwencji pozy twarzy wraz z syntetyzowanym rozpoznawaniem mowy. Visemes mogą służyć do kontrolowania ruchu modeli awatarów 2D i 3D, pasujących ruchów ust do syntetyzowanej mowy. Zdarzenia Viseme są obecnie dostępne tylko dla en-US-AriaNeural głosu.

Dodawanie elementu zakładki w języku SSML (Speech Synthesis Markup Language)

Element zakładki umożliwia wstawianie niestandardowych znaczników w języku SSML w celu uzyskania przesunięcia każdego znacznika w strumieniu audio. Może służyć do odwoływania się do określonej lokalizacji w sekwencji tekstu lub tagu.

Wydanie z lutego 2021 r.

Niestandardowy neuronowy głos ogólnie dostępny

Niestandardowy neuronowy głos jest ogólnie dostępny w lutym w 13 językach: chiński (mandaryński, uproszczony), angielski (Australia), angielski (Indie), angielski (Wielka Brytania), angielski (Stany Zjednoczone), francuski (Kanada), francuski (Francja), niemiecki (Niemcy), włoski (Włochy), japoński (Japonia), koreański (Korea), portugalski (Brazylia), hiszpański (Meksyk) i hiszpański (Hiszpania). Dowiedz się więcej o tym, co to jest niestandardowy neuronowy głos i jak używać go w odpowiedzialny sposób. Niestandardowa funkcja neuronowego głosu wymaga rejestracji, a firma Microsoft może ograniczyć dostęp na podstawie kryteriów kwalifikowalności firmy Microsoft. Dowiedz się więcej o ograniczonym dostępie.

Wydanie z grudnia 2020 r.

Nowe neuronowe głosy w wersji ogólnie dostępnej i zapoznawczej

Wydano 51 nowych głosów dla łącznie 129 neuronowych głosów w 54 językach/ustawieniach regionalnych:

46 nowych głosów w lokalnych ga: Shakir w języku arabskim (Egipt), Hamed w języku arabskim (Arabia Saudyjska), Borislav w Bułgarskiej (Bułgaria), Joana w ca-ESbg-BG Katalonii, Antonin w cs-CZ Czechach (Czechy), Jeppe w da-DK języku duńskim (Dania), Jonas w de-AT języku niemieckim (Austria), Jan w de-CH języku niemieckim (Szwajcaria), Nestoras w el-GR języku greckim (Grecja), Liam en-CA w języku angielskim (Kanada), Connor en-IE w języku angielskim (Irlandia), Madhur en-IN in Hindi (Indie), Mohan en-IN in Telugu (Indie),ar-EGar-SA Prabhat w en-IN języku angielskim (Indie), Valluvar w Tamil (Indie), Enric in es-ES Katalończyk, Kert w et-EE Estońskiu (Estonia), Harri w fi-FI fińskim (Finlandia), Selma w fi-FI fińskim (Finlandia), Fabrice fr-CH we en-IN Francji (Szwajcaria), Colm in ga-IE Irish (Irlandia), Avri w he-IL języku hebrajskim (Izrael), Srecko w hr-HR Chorwackiu (Chorwacja), Tamas na hu-HU Węgrzech (Węgry), Gadis id-ID indonezyjski (Indonezja), Leonas lt-LT w Litewskim (Litwa), Nils w lv-LV języku hebrajskim Łotewski (Łotewski), Osman in ms-MY Malay (Malezja), Joseph in mt-MT Malta (Malta), Finn in nb-NO Norwegian, Bokmål (Norwegia), Pernille w nb-NO norweskim, Bokmål (Norwegia), Fenna w nl-NL Holandii (Holandia), Maarten w holandii, Maarten w nl-NL Holandii, Magdalena w pl-PL Polsce (Polska), Marek w pl-PL Polsce (Polska), Duarte w pt-BR języku portugalskim (Brazylia), Raquel w pt-PT języku portugalskim (Potugal), Emil w ro-RO Rumunii (Rumunia), Dmitrij ru-RU w Rosji, Svetlana w ru-RU języku portugalskim Rosyjski (Rosja), Lukas na sk-SK Słowacji (Słowacja), Rok w sl-SI Słowenii (Słowenia), Mattias w sv-SE szwecji, Sofie w szwecji,Niwat w th-THsv-SE Tajlandii (Tajlandia), Ahmet w tr-TR języku tureckim (Türkiye), NamMinh in vi-VN Wietnamski (Wietnam), HsiaoChen w zh-TW tajwańskim języku mandaryńskim (Tajwan), YunJhe na zh-TW Tajwanie (Tajwan), HiuMaan w zh-HK chińskich kantońskich (specjalny region administracyjny Hongkongu), WanLung w zh-HK chińskich kantońskich (Hong Kong SAR).
5 nowych głosów w wersji zapoznawczej ustawień regionalnych: Kert w et-EE Estoński (Estonia), Colm w ga-IE Irlandii (Irlandia), Nils na lv-LV Łotewskim (Łotewski), Leonas lt-LT na Litewskim (Litwa), Józef na mt-MT Maltanie (Malta).

W tej wersji obsługujemy łącznie 129 neuronowych głosów w 54 językach/ustawieniach regionalnych. Ponadto ponad 70 standardowych głosów jest dostępnych w 49 językach/ustawieniach regionalnych. Odwiedź stronę Obsługa języka, aby uzyskać pełną listę.

Aktualizacje tworzenia zawartości audio

Ulepszony interfejs użytkownika wyboru głosu z kategoriami głosu i szczegółowymi opisami głosów.
Włączone dostrajanie intonacji dla wszystkich neuronowych głosów w różnych językach.
Zautomatyzować lokalizację interfejsu użytkownika na podstawie języka przeglądarki.
Włączone StyleDegree kontrolki dla wszystkich zh-CN neuronowych głosów. Odwiedź narzędzie do tworzenia zawartości audio, aby zapoznać się z nowymi funkcjami.

Aktualizacje głosów zh-CN

Zaktualizowano wszystkie zh-CN neuronowe głosy do obsługi języka angielskiego.
Włączono wszystkie zh-CN neuronowe głosy, aby obsługiwać korektę intonacji. Narzędzie do tworzenia zawartości SSML lub audio może służyć do dostosowywania w celu uzyskania najlepszej intonacji.
Zaktualizowano wszystkie zh-CN neuronowe głosy w wielu stylach w celu obsługi StyleDegree kontroli. Intensywność emocji (miękka lub silna) jest regulowany.
Zaktualizowano zh-CN-YunyeNeural w celu obsługi wielu stylów, które mogą wykonywać różne emocje.

Wydanie z listopada 2020 r.

Nowe ustawienia regionalne i głosy w wersji zapoznawczej

Pięć nowych głosów i języków jest wprowadzonych do portfolio neuronowego tekstu na mowę. Są to: Grace na Malta (Malta), Ona w Litewskim (Litwa), Anu w Estońskim (Estonia), Orla w Irlandii (Irlandia) i Everita na Łotewskim (Łotewski).
Pięć nowych zh-CN głosów z wieloma stylami i rolami obsługuje: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan i Yunxi.

Te głosy są dostępne w publicznej wersji zapoznawczej w trzech regionach świadczenia usługi Azure: EastUS, SouthEastAsia i WestEurope.

Neuronowy tekst do mowy — ogólna dostępność kontenera

Dzięki neuronowemu tekstowi do kontenera mowy deweloperzy mogą uruchamiać syntezę mowy z najbardziej naturalnymi głosami cyfrowymi we własnym środowisku, aby spełnić określone wymagania dotyczące zabezpieczeń i ładu danych. Sprawdź , jak zainstalować kontenery usługi Mowa.

Nowe funkcje

Niestandardowy głos: umożliwia użytkownikom kopiowanie modelu głosowego z jednego regionu do innego; obsługiwane zawieszenie i wznawianie punktu końcowego. Przejdź tutaj do portalu .
Obsługa tagów ciszy SSML.
Ogólne ulepszenia jakości głosu TTS: ulepszona dokładność wymowy na poziomie słowa w nb-NO. Zmniejszono błąd wymowy 53%.

Przeczytaj więcej na tym blogu dotyczącym technologii.

Wydanie z października 2020 r.

Nowe funkcje

Jenny obsługuje nowy newscast styl. Zobacz , jak używać stylów mówienia w języku SSML.
Głosy neuronowe uaktualnione do vocoder HiFiNet z większą wiernością dźwięku i szybszą szybkością syntezy. Zapewnia to korzyści klientom, których scenariusz opiera się na dźwiękach hi-fi lub długich interakcjach, w tym dubbingu wideo, książkach audio lub materiałów edukacyjnych online. Przeczytaj więcej na temat historii i posłuchaj przykładów głosowych na naszym blogu społeczności technicznej
Niestandardowe środowisko głosowe i audio Content Creation Studio zlokalizowane do 17 ustawień regionalnych. Użytkownicy mogą łatwo przełączyć interfejs użytkownika na język lokalny w celu uzyskania bardziej przyjaznego środowiska.
Tworzenie zawartości audio: dodano kontrolkę stopnia stylu dla XiaoxiaoNeural; Uściślił dostosowaną funkcję przerwania, aby uwzględnić przyrostowe przerwy 50 ms.

Ogólne ulepszenia jakości głosu TTS

Ulepszona dokładność wymowy na poziomie słowa ( pl-PL zmniejszenie współczynnika błędów: 51%) i fi-FI (zmniejszenie współczynnika błędów: 58%)
Ulepszono ja-JP odczytywanie pojedynczego wyrazu dla scenariusza słownika. Zmniejszony błąd wymowy o 80%.
zh-CN-XiaoxiaoNeural: Ulepszona tonacja/CustomerService/Newscast/Wesoły/Zły jakość głosu w stylu.
zh-CN: Ulepszona wymowa Erhua i jasny ton i wyrafinowany prosody kosmiczny, który znacznie poprawia zrozumiałość.

Wydanie z września 2020 r.

Nowe funkcje

Tekst neuronowy na mowę
- Rozszerzono o obsługę 18 nowych języków/ustawień regionalnych. Są to bułgarski, czeski, niemiecki (Austria), niemiecki (Szwajcaria), grecki, angielski (Irlandia), francuski (Szwajcaria), hebrajski, chorwacki, węgierski, indonezyjski, malajski, rumuński, słowacki, słoweński, tamil, telugu i wietnamski.
- Wydano 14 nowych głosów, aby wzbogacić różnorodność w istniejących językach. Zobacz pełny język i listę głosów.
- Nowe style mówienia dla en-US i zh-CN głosów. Jenny, nowy głos w języku angielskim (USA), obsługuje czatbota, obsługę klienta i style asystenta. 10 nowych stylów mówienia jest dostępnych z naszym głosem zh-CN, XiaoXiao. Ponadto neuronowy głos XiaoXiao obsługuje StyleDegree dostrajanie. Zobacz , jak używać stylów mówienia w języku SSML.
Kontenery: neuronowy tekst do mowy Kontener wydany w publicznej wersji zapoznawczej z 16 głosami dostępnymi w 14 językach. Dowiedz się więcej na temat wdrażania kontenerów mowy dla tekstu neuronowego na mowę

Przeczytaj pełne ogłoszenie aktualizacji TTS na konferencji Ignite 2020

Wydanie z sierpnia 2020 r.

Nowe funkcje

Tekst neuronowy do mowy: nowy styl mówienia dla en-US głosu Aria. AriaNeural może brzmieć jak caster wiadomości podczas czytania wiadomości. Styl "newscast-formal" brzmi poważniej, podczas gdy "newscast-casual" styl jest bardziej zrelaksowany i nieformalny. Zobacz , jak używać stylów mówienia w języku SSML.
Niestandardowy głos: nowa funkcja jest udostępniana w celu automatycznego sprawdzania jakości danych treningowych. Podczas przekazywania danych system zbada różne aspekty danych audio i transkrypcji oraz automatycznie rozwiąże lub przefiltruje problemy, aby poprawić jakość modelu głosu. Obejmuje to głośność dźwięku, poziom szumu, dokładność wymowy mowy, wyrównanie mowy z znormalizowanego tekstu, milczenie w dźwięku, oprócz formatu dźwięku i skryptu.
Tworzenie zawartości audio: zestaw nowych funkcji umożliwiających bardziej zaawansowane dostrajanie głosu i zarządzanie dźwiękami.
- Wymowa: funkcja dostrajania wymowy została zaktualizowana do najnowszego zestawu phoneme. Możesz wybrać odpowiedni element phoneme z biblioteki i uściślić wymowę wybranych słów.
- Pobierz: funkcja audio "Download"/"Export" została rozszerzona o obsługę generowania dźwięku według akapitu. Zawartość można edytować w tym samym pliku/SSML podczas generowania wielu danych wyjściowych dźwięku. Struktura plików "Download" jest również udoskonalona. Teraz możesz łatwo pobrać wszystkie pliki audio w jednym folderze.
- Stan zadania: Ulepszono środowisko eksportowania wielu plików. Podczas eksportowania wielu plików w przeszłości, jeśli jeden z plików zakończył się niepowodzeniem, całe zadanie zakończy się niepowodzeniem. Ale teraz wszystkie inne pliki zostaną pomyślnie wyeksportowane. Raport zadania jest wzbogacony o bardziej szczegółowe i ustrukturyzowane informacje. Możesz teraz sprawdzić dzienniki dla wszystkich plików i zdań, które zakończyły się niepowodzeniem, za pomocą raportu.
- Dokumentacja SSML: połączona z dokumentem SSML, aby ułatwić sprawdzenie reguł dotyczących używania wszystkich funkcji dostrajania.
Interfejs API listy głosów jest aktualizowany w celu uwzględnienia przyjaznej dla użytkownika nazwy wyświetlanej i stylów mówienia obsługiwanych dla głosów neuronowych.

Ogólne ulepszenia jakości głosu TTS

Zmniejszona liczba błędów wymowy na poziomie wyrazów dla ru-RU (błędy zmniejszone o 56%) i sv-SE (błędy zmniejszone o 49%)
Ulepszono odczytywanie słów wielofonicznych na en-US głosach neuronowych o 40%. Przykłady wyrazów wielofoniowych to "read", "live", "content", "record", "object" itp.
Poprawiono naturalność tonu pytania w elemecie fr-FR. ZYSK MOS (średni wynik opinii): +0,28
Zaktualizowano narzędzia vocoders dla następujących głosów z ulepszeniami wierności i ogólną szybkością wydajności o 40%.

Ustawienia regionalne Głos

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Ustawienia regionalne	Głos
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Poprawki błędów

Usunięto szereg usterek za pomocą narzędzia do tworzenia zawartości audio
- Rozwiązano problem z automatycznym odświeżaniem.
- Rozwiązano problemy ze stylami głosu w regionie Azja Południowo-Wschodnia w regionie Zh-CN.
- Rozwiązano problem ze stabilnością, w tym błąd eksportu z tagiem "break" i błędami w interpunkcji.

Wersja z czerwca 2024 r.

Ogólna dostępność interfejsu API REST zamiany mowy na tekst w wersji 3.2

Interfejs API REST zamiany mowy na tekst w wersji 3.2 jest teraz ogólnie dostępny. Aby uzyskać więcej informacji na temat interfejsu API REST zamiany mowy na tekst w wersji 3.2, zobacz dokumentację referencyjną interfejsu API REST zamiany mowy na tekst w wersji 3.2 oraz przewodnik interfejsu API REST zamiany mowy na tekst.

Uwaga

Wersje zapoznawcza 3.2-preview.1 i 3.2-preview.2* zostaną usunięte we wrześniu 2024 r.

Interfejs API REST zamiany mowy na tekst w wersji 3.1 zostanie wycofany w dniu ogłoszenia. Interfejs API REST zamiany mowy na tekst w wersji 3.0 zostanie wycofany 1 kwietnia 2026 r. Aby uzyskać więcej informacji na temat uaktualniania, zobacz przewodniki migracji interfejsu API REST zamiany mowy na tekst w wersji 3.0 do wersji 3.1 i 3.1 do wersji 3.2.

Wydanie z maja 2024 r.

Tłumaczenie wideo (wersja zapoznawcza)

Tłumaczenie wideo jest teraz dostępne w publicznej wersji zapoznawczej. Tłumaczenie wideo to funkcja w usłudze Azure AI Speech, która umożliwia bezproblemowe tłumaczenie i generowanie filmów wideo w wielu językach automatycznie. Ta funkcja została zaprojektowana w celu ułatwienia lokalizowania zawartości wideo w celu zaspokojenia różnorodnych odbiorców na całym świecie. Możesz wydajnie tworzyć immersywne, zlokalizowane filmy wideo w różnych przypadkach użycia, takich jak vlogi, edukacja, wiadomości, szkolenia dla przedsiębiorstw, reklama, film, programy telewizyjne i inne. Aby uzyskać więcej informacji, zobacz omówienie tłumaczenia wideo.

Ocena wymowy

Ocena wymowy mowy obsługuje teraz ogólnie dostępne 24 języki (z jednym nowym językiem dodanym) z 7 więcej języków dostępnych w publicznej wersji zapoznawczej. Aby uzyskać więcej informacji, zobacz pełną listę języków oceny wymowy.

Język	Ustawienia regionalne (BCP-47)
Arabski (Egipt)	`ar-EG`¹
Arabski (Arabia Saudyjska)	`ar-SA`
Kataloński	`ca-ES`¹
Chiński (kantoński, tradycyjny)	`zh-HK`¹
Chiński (mandaryński, uproszczony)	`zh-CN`
Chiński (tajwański mandaryński, tradycyjny)	`zh-TW`¹
Holenderski (Holandia)	`nl-NL`
Angielski (Australia)	`en-AU`
Angielski (Kanada)	`en-CA`
Angielski (Indie)	`en-IN`
Angielski (Zjednoczone Królestwo)	`en-GB`
Angielski (Stany Zjednoczone)	`en-US`
Fiński (Finlandia)	`fi-FI`¹
francuski (Kanada)	`fr-CA`
Francuski (Francja)	`fr-FR`
Niemiecki (Niemcy)	`de-DE`
Hindi (Indie)	`hi-IN`
Włoski (Włochy)	`it-IT`
Japoński (Japonia)	`ja-JP`
Koreański (Korea)	`ko-KR`
Malajski (Malezja)	`ms-MY`
Norweski Bokmål (Norwegia)	`nb-NO`
Polski (Polska)	`pl-PL`¹
Portugalski (Brazylia)	`pt-BR`
Portugalski (Portugalia)	`pt-PT`¹
Rosyjski (Rosja)	`ru-RU`
Hiszpański (Meksyk)	`es-MX`
Hiszpański (Hiszpania)	`es-ES`
Szwedzki (Szwecja)	`sv-SE`
Tamilski (Indie)	`ta-IN`
Wietnamski (Wietnam)	`vi-VN`

¹ Język jest w publicznej wersji zapoznawczej do oceny wymowy.

Wydanie z kwietnia 2024 r.

Automatyczne tłumaczenie mowy wielojęzycznej (wersja zapoznawcza)

Automatyczne tłumaczenie mowy wielojęzycznej jest dostępne w publicznej wersji zapoznawczej. Ta innowacyjna funkcja zrewolucjonizuje sposób przezwyciężenia barier językowych, oferując niezrównane możliwości bezproblemowej komunikacji w różnych krajobrazach językowych.

Najważniejsze wyróżnienia

Nieokreślony język wejściowy: tłumaczenie mowy wielojęzycznej może odbierać dźwięk w wielu językach i nie ma potrzeby określania oczekiwanego języka wejściowego. To sprawia, że jest to bezcenna funkcja do zrozumienia i współpracy w kontekstach globalnych bez konieczności wstępnego resetowania.
Przełączanie języka: tłumaczenie mowy wielojęzycznej umożliwia używanie wielu języków podczas tej samej sesji i tłumaczenie ich na ten sam język docelowy. Nie ma potrzeby ponownego uruchamiania sesji, gdy język wejściowy zmieni się lub jakiekolwiek inne akcje.

Jak to działa

Tłumacz podróży: tłumaczenie mowy wielojęzycznej może zwiększyć doświadczenie turystów odwiedzających zagraniczne miejsca, zapewniając im informacje i pomoc w preferowanym języku. Usługi concierge hotelowe, wycieczki z przewodnikiem i ośrodki dla odwiedzających mogą wykorzystać tę technologię do zaspokojenia różnorodnych potrzeb językowych.
Międzynarodowe konferencje: tłumaczenie mowy wielojęzycznej może ułatwić komunikację między uczestnikami z różnych regionów, którzy mogą mówić w różnych językach przy użyciu transkrypcje na żywo. Uczestnicy mogą mówić w swoich językach ojczystych bez konieczności ich określania, zapewniając bezproblemowe zrozumienie i współpracę.
Spotkania edukacyjne: W wielokulturowych klasach lub środowiskach szkoleniowych online tłumaczenie mowy wielojęzycznej może wspierać różnorodność języków wśród uczniów i nauczycieli. Umożliwia bezproblemową komunikację i uczestnictwo bez konieczności określania języka każdego ucznia lub instruktora.

Jak uzyskać dostęp

Aby zapoznać się ze szczegółowym wprowadzeniem, odwiedź stronę Omówienie tłumaczenia mowy. Ponadto możesz zapoznać się z przykładami kodu, aby dowiedzieć się, jak przetłumaczyć mowę. Ta nowa funkcja jest w pełni obsługiwana przez wszystkie wersje zestawu SDK z wersji 1.37.0.

Zamiana mowy w czasie rzeczywistym na tekst z diariazacją (GA)

Zamiana mowy w czasie rzeczywistym na tekst z diariazacją jest teraz ogólnie dostępna.

Możesz utworzyć mowę w aplikacjach tekstowych, które używają diaryzacji, aby odróżnić różne osoby mówiące, które uczestniczą w konwersacji. Aby uzyskać więcej informacji na temat diaryzacji w czasie rzeczywistym, zapoznaj się z przewodnikiem Szybki start dotyczącym diaryzacji w czasie rzeczywistym.

Aktualizacja modelu zamiany mowy na tekst

Zamiana mowy w czasie rzeczywistym na tekst opublikowała nowe modele z funkcjami dwujęzycznymi. Model en-IN obsługuje teraz scenariusze dwujęzyczne w języku angielskim i hindi oraz zapewnia lepszą dokładność. Ustawienia regionalne języka arabskiego (ar-AE, ar-BH, ar-IQar-SYar-PSar-QAar-OMar-SAar-TNar-DZar-KWar-YEar-ILar-LBar-LYar-MA) są teraz wyposażone w obsługę dwujęzyczną dla języka angielskiego, ulepszonej dokładności i obsługi centrum telefonicznego.

Transkrypcja wsadowa udostępnia modele z nową architekturą dla tych ustawień regionalnych: es-ES, , ja-JPes-MXit-ITko-KRfr-FR, pt-BRi .zh-CN Modele te znacznie zwiększają czytelność i rozpoznawanie jednostek.

Wydanie z marca 2024 r.

Szept — ogólna dostępność

Model zamiany mowy szeptu na tekst z usługą Azure AI Speech jest teraz ogólnie dostępny.

Zapoznaj się z tematem Co to jest model Szeptu? aby dowiedzieć się więcej o tym, kiedy używać usługi Azure AI Speech a Azure OpenAI Service.

Wydanie z lutego 2024 r.

Ocena wymowy

Ocena wymowy mowy obsługuje teraz 23 języki ogólnie dostępne (z dodanymi 5 nowymi językami), z 3 więcej języków dostępnych w publicznej wersji zapoznawczej. Aby uzyskać więcej informacji, zobacz pełną listę języków oceny wymowy.

Lista fraz

Dodano obsługę listy fraz dla następujących ustawień regionalnych: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Wydanie z listopada 2023 r.

Wprowadzenie do modelowania mowy dwujęzycznej!

Jesteśmy zachwyceni, aby odsłonić przełomowy dodatek do modelowania mowy w czasie rzeczywistym — Modelowanie mowy dwujęzycznej. To znaczące ulepszenie pozwala naszemu modelowi mowy bezproblemowo obsługiwać pary językowe dwujęzyczne, takie jak angielski i hiszpański, a także angielski i francuski. Ta funkcja umożliwia użytkownikom bezproblemowe przełączanie się między językami podczas interakcji w czasie rzeczywistym, co oznacza kluczowy moment w naszym zaangażowaniu w ulepszanie środowisk komunikacyjnych.

Najważniejsze najważniejsze elementy:

Obsługa dwujęzyczna: dzięki najnowszej wersji użytkownicy mogą bezproblemowo przełączać się między językiem angielskim i hiszpańskim lub między językiem angielskim i francuskim podczas interakcji z mową w czasie rzeczywistym. Ta funkcja jest dostosowana do potrzeb osób mówiących dwujęzycznych, którzy często przechodzą między tymi dwoma językami.
Ulepszone środowisko użytkownika: osoby mówiące dwujęzyczne, zarówno w pracy, domu, jak i w różnych ustawieniach społeczności, znajdą tę funkcję niezwykle korzystne. Zdolność modelu do zrozumienia i reagowania na język angielski i hiszpański w czasie rzeczywistym otwiera nowe możliwości efektywnej i płynnej komunikacji.

Jak używać:

Wybierz es-US (hiszpański i angielski) lub fr-CA (francuski i angielski) podczas wywoływania interfejsu API usługi Mowa lub wypróbuj go w usłudze Speech Studio. Możesz swobodnie mówić w języku lub łączyć je razem — model jest przeznaczony do dynamicznego dostosowywania, zapewniając dokładne i kontekstowe odpowiedzi w obu językach.

Nadszedł czas, aby podnieść poziom twojej gry komunikacyjnej dzięki naszej najnowszej wersji funkcji — bezproblemowej, wielojęzycznej komunikacji na wyciągnięcie ręki!

Aktualizowanie modeli tekstu zamiany mowy na tekst

Cieszymy się, że wprowadzimy znaczącą aktualizację modeli mowy, obiecując zwiększoną dokładność, lepszą czytelność i ulepszone rozpoznawanie jednostek. To uaktualnienie zapewnia niezawodną nową strukturę, wzmocnioną rozbudowanym zestawem danych treningowych, zapewniając znaczący postęp w ogólnej wydajności. Obejmuje ona nowo wydane modele dla en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE i he-IL.

Wyróżnienia:

Lepsza dokładność przy użyciu nowej struktury modelu: zdefiniowana struktura modelu, w połączeniu z bogatszym zestawem danych treningowych, podnosi poziom dokładności, obiecując bardziej precyzyjne dane wyjściowe mowy.
Poprawa czytelności: Nasz najnowszy model zwiększa czytelność, zwiększając spójność i przejrzystość treści mówionych.
Zaawansowane rozpoznawanie jednostek: rozpoznawanie jednostek otrzymuje znaczne uaktualnienie, co powoduje dokładniejsze i zniuansowane wyniki.

Potencjalny wpływ: Pomimo tych postępów ważne jest, aby pamiętać o potencjalnych skutkach:

Funkcja limitu czasu niestandardowej ciszy: użytkownicy korzystający z niestandardowego limitu czasu ciszy, zwłaszcza w przypadku niskich ustawień, mogą napotkać nadmierne segmentację i potencjalne pominięcie fraz jednospoziomowych.
Nowy model może wykazywać problemy ze zgodnością z funkcją prefiksu słowa kluczowego, a użytkownicy powinni ocenić jego wydajność w określonych aplikacjach.
Zmniejszono dysfluencyjność wyrazów lub fraz: Użytkownicy mogą zauważyć zmniejszenie liczby wyrazów lub fraz, takich jak "um" lub "uh" w danych wyjściowych mowy.
Niedokładności w czasie trwania znacznika czasu: Niektóre wyrazy dysfluency mogą wyświetlać niedokładności w czasie trwania znacznika czasu, wymagając uwagi w aplikacjach zależnych od dokładnego chronometrażu.
Wariancja rozkładu wskaźnika ufności: użytkownicy korzystający z wyników ufności i skojarzonych progów powinni mieć świadomość potencjalnych zmian w dystrybucji, co wymaga dostosowania optymalnej wydajności.
Zwiększenie dokładności funkcji listy fraz może mieć wpływ na błędne poznanie niektórych fraz.

Zachęcamy do zapoznania się z tymi ulepszeniami i rozważenia potencjalnych problemów związanych z bezproblemowym przejściem, a jak zawsze twoja opinia odgrywa kluczową rolę w ulepszaniu i ulepszaniu naszych usług.

Ocena wymowy

Ocena wymowy mowy obsługuje teraz 18 języków ogólnie dostępnych, a sześć innych języków jest dostępnych w publicznej wersji zapoznawczej. Aby uzyskać więcej informacji, zobacz pełną listę języków oceny wymowy.
Z przyjemnością ogłaszamy, że ocena wymowy wprowadza nowe funkcje od 1 listopada 2023 r.: Prosody, Gramatyka, Słownictwo i Temat. Te ulepszenia mają na celu zapewnienie jeszcze bardziej kompleksowego środowiska uczenia się języka zarówno do czytania, jak i mówienia. Uaktualnij zestaw SDK do wersji 1.35.0 lub nowszej, aby zapoznać się z dalszymi szczegółami w temacie Jak używać oceny wymowy i oceny wymowy w usłudze Speech Studio.

Wydanie z września 2023 roku

Szepta publiczna wersja zapoznawcza

Usługa Azure AI Speech obsługuje teraz model Szept interfejsu OpenAI za pośrednictwem interfejsu API transkrypcji wsadowej. Aby dowiedzieć się więcej, zapoznaj się z przewodnikiem Tworzenie transkrypcji wsadowej.

Uwaga

Usługa Azure OpenAI Service obsługuje również model szeptu OpenAI na potrzeby zamiany mowy na tekst przy użyciu synchronicznego interfejsu API REST. Aby dowiedzieć się więcej, zapoznaj się z przewodnikiem Szybki start.

Zapoznaj się z tematem Co to jest model Szeptu? aby dowiedzieć się więcej o tym, kiedy używać usługi Azure AI Speech a Azure OpenAI Service.

Publiczna wersja zapoznawcza interfejsu API REST zamiany mowy na tekst w wersji 3.2

Interfejs API REST zamiany mowy na tekst w wersji 3.2 jest dostępny w wersji zapoznawczej. Interfejs API REST zamiany mowy na tekst w wersji 3.1 jest ogólnie dostępny. Interfejs API REST zamiany mowy na tekst w wersji 3.0 zostanie wycofany 1 kwietnia 2026 r. Aby uzyskać więcej informacji, zobacz przewodniki migracji interfejsu API REST zamiany mowy na tekst w wersji 3.0 do wersji 3.1 i 3.1 do wersji 3.2.

Wydanie z sierpnia 2023

Nowa mowa do ustawień regionalnych tekstu:

Zamiana mowy na tekst obsługuje dwa nowe ustawienia regionalne, jak pokazano w poniższej tabeli. Zapoznaj się z pełną listą języków tutaj.

Ustawienia regionalne	Język
`pa-IN`	Pendżabski (Indie)
`ur-IN`	Urdu (Indie)

Ocena wymowy

Ocena wymowy mowy obsługuje teraz 3 dodatkowe języki ogólnie dostępne w języku angielskim (Kanada), angielskim (Indiach) i francuskim (Kanada) z 3 dodatkowymi językami dostępnymi w wersji zapoznawczej. Aby uzyskać więcej informacji, zobacz pełną listę języków oceny wymowy.

Wydanie w maju 2023 r.

Ocena wymowy

Ocena wymowy mowy obsługuje teraz 3 dodatkowe języki ogólnie dostępne w języku niemieckim (Niemcy), japońskim (Japonia) i hiszpańskim (Meksyk) z 4 dodatkowymi językami dostępnymi w wersji zapoznawczej. Aby uzyskać więcej informacji, zobacz pełną listę języków oceny wymowy.
Teraz możesz użyć standardowej warstwy zobowiązania Zamiana mowy na tekst na potrzeby oceny wymowy we wszystkich regionach publicznych. Jeśli zakupisz warstwę zobowiązania dla standardowej mowy na tekst, wydatki na ocenę wymowy idą w kierunku spełnienia zobowiązania. Zobacz cennik warstwy zobowiązania.

Wydanie z lutego 2023 r.

Ocena wymowy

Ocena wymowy mowy obsługuje teraz 5 dodatkowych języków ogólnie dostępnych w języku angielskim (Wielka Brytania), angielskim (Australia), francuskim (Francja), hiszpańskim (Hiszpania) i chińskim (mandaryński, uproszczony) z innymi językami dostępnymi w wersji zapoznawczej.
Dodano przykładowe kody pokazujące, jak używać oceny wymowy w trybie przesyłania strumieniowego we własnej aplikacji.
- C#: Zobacz przykładowy kod.
- C++: Zobacz przykładowy kod.
- java: zobacz przykładowy kod.
- javascript: zobacz przykładowy kod.
- Objective-C: Zobacz przykładowy kod.
- Python: zobacz przykładowy kod.
- Swift: zobacz przykładowy kod.

Mowa niestandardowa

Dodano obsługę transkrypcji audio i transkrypcji oznaczonej de-AT przez człowieka dla ustawień regionalnych.

Wydanie ze stycznia 2023 r.

Mowa niestandardowa

Dodano obsługę transkrypcji audio i transkrypcji oznaczonej przez człowieka dla dodatkowych ustawień regionalnych: ar-BH, , , ar-SAar-DZar-MAar-TNar-EGar-YE, i .ja-JP

Dodano obsługę dostosowania tekstu strukturalnego dla ustawień regionalnych de-AT.

Wydanie z grudnia 2022 r.

Interfejs API REST zamiany mowy na tekst

Interfejs API REST zamiany mowy na tekst w wersji 3.1 jest ogólnie dostępny. Wersja 3.0 interfejsu API REST zamiany mowy na tekst zostanie wycofana. Aby uzyskać więcej informacji na temat migrowania, zobacz przewodnik.

Wydanie z października 2022 r.

Nowe ustawienia regionalne zamiany mowy na tekst

Dodano obsługę malajalamu (Indie) z ustawieniami regionalnymi ml-IN . Zobacz pełną listę języków tutaj.

Wydanie z lipca 2022 r.

Nowa mowa do ustawień regionalnych tekstu:

Dodano 7 nowych ustawień regionalnych, jak pokazano w poniższej tabeli. Zobacz pełną listę języków tutaj.

Ustawienia regionalne	Język
`bs-BA`	Bośniacki (Bośnia i Hercegowina)
`yue-CN`	Chiński (kantoński, uproszczony)
`zh-CN-sichuan`	Chiński (południowo-zachodni mandaryński, uproszczony)
`wuu-CN`	Chiński (Wu, uproszczony)
`ps-AF`	Pashto (Afganistan)
`so-SO`	Somalia (Somalia)
`cy-GB`	Walijski (Wielka Brytania)

Wersja z czerwca 2022 r.

Nowa mowa do ustawień regionalnych tekstu:

Dodano 10 nowych ustawień regionalnych, jak pokazano w poniższej tabeli. Zobacz pełną listę języków tutaj.

Ustawienia regionalne	Język
`sq-AL`	Albański (Albania)
`hy-AM`	Armeński (Armenia)
`az-AZ`	Azerbejdżan (Azerbejdżan)
`eu-ES`	Baskijski
`gl-ES`	Galicyjski
`ka-GE`	Gruziński (Gruzja)
`it-CH`	Włoski (Szwajcaria)
`kk-KZ`	Kazachski (Kazachstan)
`mn-MN`	Mongolski (Mongolii)
`ne-NP`	Nepalski (Nepal)

Wydanie z kwietnia 2022 r.

Nowa mowa do ustawień regionalnych tekstu:

Poniżej znajduje się lista nowych ustawień regionalnych. Zobacz pełną listę języków tutaj.

Ustawienia regionalne	Język
`bn-IN`	Bengalski (Indie)

Wydanie ze stycznia 2022 r.

Nowa mowa do ustawień regionalnych tekstu:

Poniżej znajduje się lista nowych ustawień regionalnych. Zobacz pełną listę języków tutaj.

Ustawienia regionalne	Język
`af-ZA`	Afrikaans (Republika Południowej Afryki)
`am-ET`	Amharic (Etiopia)
`de-CH`	Niemiecki (Szwajcaria)
`fr-BE`	Francuski (Belgia)
`is-IS`	Islandia (Islandia)
`jv-ID`	Javanese (Indonezja)
`km-KH`	Khmer (Kambodża)
`kn-IN`	Kannada (Indie)
`lo-LA`	Lao (Laos)
`mk-MK`	Macedoński (Macedonia Północna)
`my-MM`	Birmańczyk (Birma)
`nl-BE`	Holenderski (Belgia)
`si-LK`	Sinhala (Sri Lanka)
`sr-RS`	Serbski (Serbia)
`sw-TZ`	Swahili (Tanzania)
`uk-UA`	Ukraiński (Ukraina)
`uz-UZ`	Uzbek (Uzbekistan)
`zu-ZA`	Zulu (Republika Południowej Afryki)

Wydanie z lipca 2021 r.

Nowa mowa do ustawień regionalnych tekstu:

Poniżej znajduje się lista nowych ustawień regionalnych. Zobacz pełną listę języków tutaj.

Ustawienia regionalne	Język
`ar-DZ`	Arabski (Algieria)
`ar-LY`	Arabski (Libia)
`ar-MA`	Arabski (Maroko)
`ar-TN`	Arabski (Tunezja)
`ar-YE`	Arabski (Jemen)
`bg-BG`	Bułgarski (Bułgaria)
`el-GR`	Grecki (Grecja)
`et-EE`	Estoński (Estonia)
`fa-IR`	Perski (Iran)
`ga-IE`	Irlandzki (Irlandia)
`hr-HR`	Chorwacki (Chorwacja)
`lt-LT`	Litewski (Litwa)
`lv-LV`	Łotewski (Łotwa)
`mt-MT`	Maltański (Malta)
`ro-RO`	Rumuński (Rumunia)
`sk-SK`	Słowacki (Słowacja)
`sl-SI`	Słowenia (Słowenia)
`sw-KE`	Suahili (Kenia)

Wydanie ze stycznia 2021 r.

Nowa mowa do ustawień regionalnych tekstu:

Poniżej znajduje się lista nowych ustawień regionalnych. Zobacz pełną listę języków tutaj.

Ustawienia regionalne	Język
`ar-AE`	Arabski (Zjednoczone Emiraty Arabskie)
`ar-IL`	Arabski (Izrael)
`ar-IQ`	Arabski (Irak)
`ar-OM`	Arabski (Oman)
`ar-PS`	Arabski (Autonomia Palestyńska)
`de-AT`	Niemiecki (Austria)
`en-GH`	Angielski (Ghanie)
`en-KE`	Angielski (Kenia)
`en-NG`	Angielski (Nigeria)
`en-TZ`	Angielski (Tanzania)
`es-GQ`	Hiszpański (Gwinea Równikowa)
`fil-PH`	Filipino (Filipiny)
`fr-CH`	Francuski (Szwajcaria)
`he-IL`	Hebrajski (Izrael)
`id-ID`	Indonezyjski (Indonezja)
`ms-MY`	Malajski (Malezja)
`vi-VN`	Wietnamski (Wietnam)

Wydanie z sierpnia 2020 r.

Nowe ustawienia regionalne zamiany mowy na tekst:

Zamiana mowy na tekst wydała 26 nowych ustawień regionalnych w sierpniu: 2 języki cs-CZ europejskie i hu-HU5 angielskich ustawień regionalnych i 19 hiszpańskich ustawień regionalnych, które obejmują większość krajów/regionów Ameryki Południowej. Poniżej znajduje się lista nowych ustawień regionalnych. Zobacz pełną listę języków tutaj.

Ustawienia regionalne	Język
`cs-CZ`	Czeski (Czechy)
`en-HK`	Angielski (specjalny region administracyjny w Hongkongu)
`en-IE`	Angielski (Irlandia)
`en-PH`	angielski (Filipiny)
`en-SG`	Angielski (Singapur)
`en-ZA`	Angielski (Republika Południowej Afryki)
`es-AR`	Hiszpański (Argentyna)
`es-BO`	Hiszpański (Boliwia)
`es-CL`	Hiszpański (Chile)
`es-CO`	Hiszpański (Kolumbia)
`es-CR`	Hiszpański (Kostaryka)
`es-CU`	Hiszpański (Kuba)
`es-DO`	Hiszpański (Dominikana)
`es-EC`	Hiszpański (Ekwador)
`es-GT`	Hiszpański (Gwatemala)
`es-HN`	Hiszpański (Honduras)
`es-NI`	Hiszpański (Nikaragua)
`es-PA`	Hiszpański (Panama)
`es-PE`	Hiszpański (Peru)
`es-PR`	Hiszpański (Portoryko)
`es-PY`	Hiszpański (Paragwaj)
`es-SV`	Hiszpański (Salwador)
`es-US`	Hiszpański (USA)
`es-UY`	Hiszpański (Urugwaj)
`es-VE`	Hiszpański (Wenezuela)
`hu-HU`	Węgierski (Węgry)

Wydanie z 2024 r.

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 4.6.0
Zamiana mowy na tekst 4.6.0
Tekst neuronowy do mowy 3.1.0

Uaktualnij mowę do składników tekstowych do najnowszej wersji. Uaktualnij wszystkie es modele ustawień regionalnych do najnowszej wersji. Zwiększ bufor przekształcania multimediów dla mowy w przypadku przypadków użycia tekstu.

Wydanie z 2023 r.

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 4.5.0
Zamiana mowy na tekst 4.5.0
Tekst neuronowy do mowy 2.19.0

Wydanie z 2023 r.

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 4.4.0
Zamiana mowy na tekst 4.4.0
Tekst neuronowy do mowy 2.18.0

Rozwiąż kilka problemów z lukami w zabezpieczeniach wysokiego ryzyka.

Usuń nadmiarowe dzienniki w kontenerach.

Uaktualnij składnik nośników wewnętrznych do najnowszej wersji.

Dodaj obsługę funkcji głosowej en-IN-NeerjaNeural.

Wydanie z 2023 r.

Dodaj obsługę najnowszych wersji modelu:

Identyfikacja języka mowy 1.12.0
Niestandardowa mowa do tekstu 4.3.0
Zamiana mowy na tekst 4.3.0
Tekst neuronowy do mowy 2.17.0

Uaktualnij niestandardową mowę do tekstu i mowy na tekst do najnowszej platformy.

Rozwiązywanie problemów z lukami w zabezpieczeniach.

Dodaj obsługę funkcji głosowej ar-AE-FatimaNeural.

Wydanie z 2023 r.

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 4.1.0
Zamiana mowy na tekst 4.1.0
Tekst neuronowy do mowy 2.15.0

Rozwiązano problem z uruchamianiem kontenera zamiany mowy na tekst za pomocą docker opcji instalacji z lokalnymi plikami modelu niestandardowego.

Rozwiązano problem polegający na tym, że w niektórych przypadkach RECOGNIZING zdarzenie nie jest wyświetlane w odpowiedzi za pośrednictwem zestawu SPEECH SDK.

Rozwiązywanie problemów z lukami w zabezpieczeniach.

Wydanie z 2023 r.

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 4.0.0
Zamiana mowy na tekst 4.0.0
Tekst neuronowy do mowy 2.14.0

Lokalna mowa na obrazach tekstowych jest uaktualniana do platformy .NET 6.0

Uaktualnij modele wyświetlania dla ustawień regionalnych, w tym en-us, ar-eg, ar-bh, ja-jp, ko-kri innych.

Uaktualnij składnik mowy do kontenera tekstu, aby rozwiązać problemy z lukami w zabezpieczeniach.

Dodano obsługę głosów de-DE-AmalaNeuralustawień regionalnych ,de-AT-IngridNeuralde-AT-JonasNeural ien-US-JennyMultilingualNeural

Wydanie z 2023 r.

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 3.14.0
Zamiana mowy na tekst 3.14.0
Tekst neuronowy do mowy 2.13.0

Rozwiązywanie problemu he-IL z interpunkcją

Rozwiązywanie problemów z lukami w zabezpieczeniach

Dodawanie nowego głosu en-US-MichelleNeuralustawień regionalnych i es-MX-CandelaNeural

Wydanie z 2023 r.

Aktualizacje zabezpieczeń

Rozwiązywanie problemów z lukami w zabezpieczeniach

Wydanie z 2023 r.

Dodaj obsługę najnowszych wersji modelu:

Zamiana mowy niestandardowej na tekst 3.12.0
Zamiana mowy na tekst 3.12.0
Identyfikacja języka mowy 1.11.0
Tekst neuronowy do mowy 2.11.0

Rozwiązywanie problemów z lukami w zabezpieczeniach

Rozwiązywanie problemu z tr-TR literą

Uaktualnianie mowy do modeli wyświetlania tekstu en-US

Dodano obsługę wstępnie utworzonego neuronowego tekstu neuronowego do głosu regionalnego mowy ar-AE-HamdanNeural

Wydanie z 2023 r.

Nowe wersje kontenerów

Dodaj obsługę najnowszych wersji modelu:

Zamiana mowy niestandardowej na tekst 3.11.0
Zamiana mowy na tekst 3.11.0
Tekst neuronowy do mowy 2.10.0

Rozwiązywanie problemów z lukami w zabezpieczeniach

Regularne uaktualnianie modeli mowy

Dodaj nowe ustawienia regionalne Abraic:

ar-IL
ar-PS

Uaktualnianie modeli wyświetlania hebrajskiego i tureckiego

Wydanie z 2023 r.

Nowe wersje kontenerów

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 3.10.0
Zamiana mowy na tekst 3.10.0
Tekst neuronowy do mowy 2.9.0

Rozwiązywanie problemu z trybem hipotezy

Rozwiązywanie problemu z serwerem proxy HTTP

Tryb rozłączenia niestandardowej mowy z kontenerem tekstu

Dodawanie obsługi kontenera bez połączenia CNV do frontonu TTS

Dodaj obsługę tych ustawień regionalnych:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Wydanie z 2022 r.

Nowe wersje kontenerów

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 3.9.0
Zamiana mowy na tekst 3.9.0
Tekst neuronowy do mowy 2.8.0

Rozwiązywanie problemu z protokołem ipv4/ipv6

Rozwiązywanie problemu z lukami w zabezpieczeniach

Wydanie z 2022 r.

Nowe wersje kontenerów

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 3.8.0
Zamiana mowy na tekst 3.8.0
Tekst neuronowy do mowy 2.7.0

Wydanie z 2022 r.

Nowe wersje kontenerów

Dodaj obsługę najnowszych wersji modelu:

Niestandardowa mowa do tekstu 3.7.0
Zamiana mowy na tekst 3.7.0
Tekst neuronowy do mowy 2.6.0

Wydanie z 2022 r.

Zamiana mowy na tekst 3.6.0-amd64

Dodaj obsługę najnowszych wersji modelu.

Dodaj obsługę tych ustawień regionalnych:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
tak sobie
kw-al
wuu-cn
yue-cn
zh-cn-sichuan

Regularne comiesięczne aktualizacje, w tym uaktualnienia zabezpieczeń i poprawki luk w zabezpieczeniach.

Niestandardowa mowa do tekstu 3.6.0-amd64

Regularne comiesięczne aktualizacje, w tym uaktualnienia zabezpieczeń i poprawki luk w zabezpieczeniach.

Neuronowy tekst neuronowy do mowy w wersji 2.5.0

Dodaj obsługę tych wstępnie utworzonych neuronowych głosów:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Regularne comiesięczne aktualizacje, w tym uaktualnienia zabezpieczeń i poprawki luk w zabezpieczeniach.

Wydanie z 2022 r.

Speech-language-detection Container v1.9.0-amd64-preview

Poprawki błędów wykrywania mowy.

Wydanie z 2022 r.

Niestandardowa mowa do tekstu Container v3.1.0

Dodaj obsługę pobierania modeli wyświetlania.

Wydanie z 2022 r.

Zamiana mowy na tekst Container v3.0.0

Dodano obsługę używania kontenerów w środowiskach bez połączenia.

Zamiana mowy na tekst Container v2.18.0

Regularne comiesięczne aktualizacje, w tym uaktualnienia zabezpieczeń i poprawki luk w zabezpieczeniach.

Neuronowy tekst do mowy Container v1.12.0

Dodaj obsługę tych wstępnie utworzonych głosów neuronowych: am-et-amehaneural, am-et-mekdesneuralso-so-muuseneural i so-so-ubaxneural.

Regularne comiesięczne aktualizacje, w tym uaktualnienia zabezpieczeń i poprawki luk w zabezpieczeniach.

Udostępnij za pośrednictwem

Co nowego w usłudze Azure AI Speech?

Ostatnie najważniejsze informacje

Informacje o wersji

Nadchodzące plany dla użytkowników systemów Linux i Android:

Zestaw Speech SDK 1.38.0: wersja z czerwca 2024 r.

Nowe funkcje

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.37.0: wydanie z kwietnia 2024 r.

Nowe funkcje

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.36.0: wersja z marca 2024 r.

Nowe funkcje

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.35.0: wersja z lutego 2024 r.

Nowe funkcje

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.34.1: wydanie ze stycznia 2024 r.

Zmiany powodujące niezgodność

Nowe funkcje

Poprawki błędów

Zestaw Speech SDK 1.34.0: wydanie z listopada 2023 r.

Zmiany powodujące niezgodność

Nowe funkcje

Poprawki błędów

Przykłady

Interfejs wiersza polecenia usługi Mowa w wersji 1.34.0: wydanie z listopada 2023 r.

Nowe funkcje

Poprawki błędów

Zestaw Speech SDK 1.33.0: wydanie z października 2023 r.

Powiadomienie o zmianach powodujących niezgodność

Nowe funkcje

Poprawki błędów

Przykłady

Interfejs wiersza polecenia usługi Mowa w wersji 1.33.0: wydanie z października 2023 r.

Nowe funkcje

Poprawki błędów

Zestaw Speech SDK 1.32.1: wersja z września 2023 r.

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.31.0: wersja z sierpnia 2023 r.

Nowe funkcje

Zmiany powodujące niezgodność

Poprawki błędów

Przykłady

Zestaw SPEECH SDK 1.30.0: wersja z lipca 2023 r.

Nowe funkcje

Poprawki błędów

Dodatkowe uwagi

Przykłady

Zestaw Speech SDK 1.29.0: wersja z czerwca 2023 r.

Nowe funkcje

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.28.0: wydanie z maja 2023 r.

Zmiana powodująca niezgodność

Nowe funkcje

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.27.0: wersja z kwietnia 2023 r.

Powiadomienie o nadchodzących zmianach

Nowe funkcje

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.26.0: wersja z marca 2023 r.

Zmiany powodujące niezgodność

Nowe funkcje

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.25.0: wydanie ze stycznia 2023 r.

Zmiany powodujące niezgodność

Nowe funkcje

Poprawki błędów

Przykłady

Zestaw Speech SDK 1.24.2: wydanie z listopada 2022 r.

Nowe funkcje