Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Funkcja Voice Live oferuje wiele opcji optymalizacji wydajności i jakości przy użyciu modeli niestandardowych. Dostępne są obecnie następujące opcje dostosowywania:
- Dostosowywanie danych wejściowych mowy:
- Lista fraz: uproszczone dostosowywanie just in time oparte na liście wyrazów lub fraz udostępnianych w ramach konfiguracji sesji w celu poprawy jakości rozpoznawania. Aby dowiedzieć się więcej, zobacz Zwiększanie dokładności rozpoznawania za pomocą listy fraz.
- Custom Speech: dzięki usłudze Custom Speech możesz ocenić i poprawić dokładność rozpoznawania mowy dla aplikacji i produktów oraz dostosować jakość rozpoznawania do potrzeb biznesowych. Aby dowiedzieć się więcej, zobacz Co to jest mowa niestandardowa?
- Dostosowywanie danych wyjściowych mowy:
- Niestandardowy leksykon: niestandardowy leksykon umożliwia łatwe dostosowywanie wymowy zarówno głosów standardowych w usłudze Azure Text to Speech, jak i głosów niestandardowych w celu zwiększenia dokładności syntezy mowy w przypadku użycia. Zobacz leksykon dostosowany dla zamiany tekstu na mowę, aby dowiedzieć się więcej.
- Niestandardowy głos: niestandardowy głos jest dostępny w dwóch typach. Profesjonalny niestandardowy głos umożliwia tworzenie wysoce naturalnie brzmiącego głosu dla marki lub znaków, dostarczając przykłady mowy ludzkiej jako dane dostrajania. Funkcja osobistego głosu umożliwia użytkownikom uzyskanie replik AI ich własnych głosów przy użyciu krótkiej próbki mowy. Aby dowiedzieć się więcej, zobacz Co to jest niestandardowy głos? i Co to jest osobisty głos.
- Niestandardowy awatar: Niestandardowy awatar z funkcją zamiany tekstu na mowę umożliwia utworzenie niepowtarzalnego syntetycznego awatara mówiącego do stworzenia dla twojej aplikacji. Za pomocą niestandardowego awatara tekstu na mowę możesz utworzyć unikatowy i naturalnie wyglądający awatar dla swojego produktu lub marki, dostarczając dane nagrań wideo wybranych aktorów. Zobacz Co to jest niestandardowy awatar tekstu na mowę?, aby dowiedzieć się więcej.
Dostosowywanie danych wejściowych mowy
Lista fraz
Użyj listy fraz do lekkiego i dynamicznego dostosowywania danych wejściowych audio. Aby skonfigurować listę fraz, możesz ustawić phrase_list w session.update komunikacie.
{
"session": {
"input_audio_transcription": {
"model": "azure-speech",
"phrase_list": ["Neo QLED TV", "TUF Gaming", "AutoQuote Explorer"]
}
}
}
Uwaga
Lista fraz obecnie nie obsługuje funkcji gpt-realtime, gpt-4o-mini-realtime i phi4-mm-realtime. Aby dowiedzieć się więcej na temat listy fraz, zobacz lista fraz do zamiany mowy na tekst.
Niestandardowa konfiguracja mowy
Możesz użyć pola custom_speech, aby określić niestandardowe modele mowy. To pole jest definiowane jako słownik, w którym każdy klucz reprezentuje kod ustawień regionalnych, a każda wartość odpowiada Model ID niestandardowemu modelowi mowy. Aby uzyskać więcej informacji na temat mowy niestandardowej, zobacz Co to jest mowa niestandardowa?.
Funkcja Voice Live obsługuje używanie kombinacji modeli podstawowych i modeli niestandardowych, o ile każdy typ jest unikatowy dla ustawień regionalnych z maksymalnie 10 językami określonymi w sumie.
Przykładowa konfiguracja sesji z niestandardowymi modelami mowy. W tym przykładzie, gdy wykryty język to angielski, używany jest model podstawowy, a gdy wykryty język to Chiński, używany jest niestandardowy model mowy.
{
"session": {
"input_audio_transcription": {
"model": "azure-speech",
"language": "en",
"custom_speech": {
"zh-CN": "847cb03d-7f22-4b11-444-e1be1d77bf17"
}
}
}
}
Uwaga
Aby można było używać niestandardowego modelu mowy z interfejsem API voice live, model musi być dostępny w tym samym zasobie Microsoft Foundry używanym do wywoływania interfejsu API voice live. Jeśli wytrenujesz model na innym zasobie Microsoft Foundry lub Azure Speech in Foundry Tools, musisz skopiować model do zasobu, którego używasz do wywoływania interfejsu API Voice Live. Płacisz oddzielnie za trenowanie mowy niestandardowej i hosting modelu.
Model MAI-Transcribe-1 (wersja zapoznawcza)
Możesz użyć modelu MAI-Transcribe-1 do transkrypcji audio wejściowej w usłudze Voice Live. MAI-Transcribe-1 to model rozpoznawania mowy opracowany przez zespół Microsoft AI (MAI) z naciskiem na wysoką dokładność i wysoką wydajność. Aby uzyskać więcej informacji na temat modelu, zobacz MAI-Transcribe-1 w Azure Speech.
Aby użyć MAI-Transcribe-1, ustaw model pole na mai-transcribe-1 w input_audio_transcription konfiguracji.
{
"session": {
"input_audio_transcription": {
"model": "mai-transcribe-1"
}
}
}
Uwaga
W przypadku korzystania z modelu MAI-Transcribe-1 niektóre funkcje transkrypcji nie są obsługiwane. Zobacz tabelę dostępność funkcji .
Dostosowywanie danych wyjściowych mowy
Niestandardowy leksykon
Użyj właściwości ciągu custom_lexicon_url, aby dostosować wymowę zarówno dla standardowych głosów w usłudze Azure tekst-do-mowy, jak i dla niestandardowych głosów. Aby dowiedzieć się więcej na temat formatowania niestandardowego leksykonu (takiego samego jak w Języku Znaczników Syntezy Mowy (SSML)), zobacz niestandardowy leksykon dla zamiany tekstu na mowę.
{
"voice": {
"name": "en-US-Ava:DragonHDLatestNeural",
"type": "azure-standard",
"temperature": 0.8, // optional
"custom_lexicon_url": "<custom lexicon url>"
}
}
Niestandardowe głosy w Azure
Możesz użyć niestandardowego głosu do odtwarzania dźwięku. Niestandardowy głos jest dostępny w dwóch typach: profesjonalny niestandardowy głos, wyszkolony na nagraniach studyjnych dla Twojej marki lub postaci oraz osobisty głos, który odtwarza własny głos użytkownika z krótkiej próbki mowy.
Ważne
Niestandardowy dostęp głosowy jest ograniczony na podstawie kryteriów uprawnień i użycia. Poproś o dostęp w formularzu zgłoszeniowym.
Uwaga
Aby używać niestandardowego modelu głosu z interfejsem API voice Live, model musi być dostępny w tym samym zasobie Microsoft Foundry używanym do wywoływania interfejsu API voice live. Jeśli wytrenujesz model na innym zasobie Microsoft Foundry lub Azure Speech, musisz skopiować model do zasobu, którego używasz do wywoływania interfejsu API Voice Live. Płacisz oddzielnie za niestandardowy trening głosu i hosting modelu. Aby uzyskać więcej informacji na temat obsługiwanych regionów, zobacz Regiony obsługiwane przez usługę Mowa.
Profesjonalny spersonalizowany głos
Profesjonalny głos syntetyczny umożliwia stworzenie unikalnego, dostosowanego głosu dla aplikacji poprzez użycie próbek mowy ludzkiej jako danych do dostrajania. Aby uzyskać informacje na temat tworzenia niestandardowego głosu, zobacz Co to jest niestandardowy głos.
{
"voice": {
"type": "azure-custom",
"name": "en-US-CustomNeural",
"endpoint_id": "your-endpoint-id", // a guid string
"temperature": 0.8 // optional, value range 0.0-1.0, only take effect when using HD voices
}
}
Osobisty głos
Funkcja osobistego głosu umożliwia użytkownikom uzyskanie replik AI ich własnych głosów przy użyciu krótkiej próbki mowy. Aby uzyskać informacje na temat tworzenia głosu osobistego, zobacz Co to jest osobisty głos.
{
"voice": {
"type": "azure-personal",
"model": "DragonLatestNeural", // required, specify the base model for personal voice
"name": "your-personal-voice-name", // the name of the personal voice
"temperature": 0.8 // optional, value range 0.0-1.0
}
}
Właściwość model określa nazwę głosu modelu podstawowego. Obsługiwane nazwy modeli bazowych to DragonLatestNeural, DragonHDOmniLatestNeural i MAI-Voice-1. Aby uzyskać więcej informacji na temat różnic w modelu podstawowym, zobacz Używanie głosu osobistego w aplikacji. Pełny schemat można znaleźć w temacie RealtimeAzurePersonalVoice.
Azure awatar niestandardowy
Awatar przekształcający tekst na mowę konwertuje tekst na cyfrowy film z fotorealistycznym człowiekiem (standardowy awatar lub niestandardowy awatar zamiany tekstu na mowę), mówiący naturalnie brzmiącym głosem.
Konfiguracja niestandardowego awatara nie różni się od konfiguracji standardowego awatara. Zobacz Jak użyć interfejsu API Voice Live — Azure tekst do awatara mowy aby zapoznać się ze szczegółowym przykładem.
Ważne
Dostęp do niestandardowej funkcji przekształcania tekstu na mowę dla awatara jest ograniczony na podstawie kryteriów kwalifikacji i użytkowania. Poproś o dostęp w formularzu zgłoszeniowym.
Uwaga
Aby używać niestandardowego modelu głosu z interfejsem API voice Live, model musi być dostępny w tym samym zasobie Microsoft Foundry używanym do wywoływania interfejsu API voice live. Jeśli wytrenujesz model na innym zasobie Microsoft Foundry lub Azure Speech, musisz skopiować model do zasobu, którego używasz do wywoływania interfejsu API Voice Live. Płacisz oddzielnie za szkolenie awatara na zamówienie i hosting modelu. Aby uzyskać więcej informacji na temat obsługiwanych regionów, zobacz Regiony obsługiwane przez usługę Mowa.
Uwaga
Szkolenie niestandardowego awatara zdjęć (WERSJA ZAPOZNAWCZA) nie jest jeszcze dostępne jako opcja samoobsługowa i obecnie wymaga ręcznego procesu offline.
Powiązana zawartość
- Wypróbuj Szybki start dotyczący interfejsu Voice Live API
- Dowiedz się więcej o sposobie korzystania z interfejsu API voice live