Głos niestandardowy w wersji lekkiej

2025-06-02

Custom voice lite to typ projektu, w którym można pokazować i oceniać niestandardowy głos przed zainwestowaniem w profesjonalne nagrania w celu utworzenia głosu o wyższej jakości. Do celów demonstracyjnych i ewaluacyjnych nie jest wymagana żadna aplikacja. Jednak firma Microsoft ogranicza i wybiera próbki nagrywania i testowania do użycia z niestandardowym głosem lite. Musisz ubiegać się o pełny dostęp do profesjonalnego dostrajania głosu w celu wdrożenia niestandardowego modelu głosowego lite i używania go do celów biznesowych. W takim przypadku zażądaj dostępu w formularzu do wprowadzania.

Uwaga

Niestandardowy głos lite jest dostępny tylko w programie Speech Studio. Nie jest ona dostępna za pośrednictwem portalu usługi Azure AI Foundry, interfejsu API REST ani zestawów SDK.

Dzięki niestandardowemu projektowi voice lite rejestrujesz swój głos w trybie online, czytając 20-50 wstępnie zdefiniowanych skryptów dostarczonych przez firmę Microsoft. Po zarejestrowaniu co najmniej 20 próbek możesz zacząć trenować model. Po pomyślnym przeszkoleniu modelu możesz przejrzeć model i sprawdzić 20 przykładów wyjściowych utworzonych przy użyciu innego zestawu wstępnie zdefiniowanych skryptów.

Zobacz obsługiwane języki dla niestandardowego głosu.

Porównywanie typów projektów

W poniższej tabeli podsumowano kluczowe różnice między niestandardowym dostrajaniem głosu w wersji lite i profesjonalnej.

Elementy	Uproszczone	Profesjonalny
Scenariusze docelowego	Pokaz lub ocena	Profesjonalne scenariusze, takie jak głosy marki i znaków dla czatbotów lub odczytywanie zawartości audio.
Dane szkoleniowe	Rejestrowanie w trybie online przy użyciu usługi Speech Studio	Przynieś własne dane. Nagrywanie w profesjonalnym studio jest zalecane.
Skrypty do nagrywania	Udostępnione w usłudze Speech Studio	Użyj własnych skryptów, które pasują do scenariusza przypadku użycia. Firma Microsoft udostępnia przykładowe skrypty do celów referencyjnych .
Wymagany rozmiar danych	20–50 wypowiedzi	300–2000 wypowiedzi
Czas trenowania	Mniej niż jedna godzina obliczeniowa	Około 20–40 godzin obliczeniowych
Jakość głosu	Umiarkowana jakość	Wysoka jakość
Dostępność	Każdy może rejestrować próbki w trybie online i trenować model na potrzeby pokazu i oceny. Pełny dostęp do niestandardowego głosu jest wymagany, jeśli chcesz wdrożyć niestandardowy model voice lite do użytku biznesowego.	Przekazywanie danych nie jest ograniczone, ale profesjonalny głos można dopasować tylko po zatwierdzeniu dostępu. Profesjonalne dostrajanie głosu jest ograniczone na podstawie kryteriów kwalifikowalności i użycia. Zażądaj dostępu w formularzu do wprowadzania.
Cennik	Ceny za jednostkę dotyczą w równym stopniu zarówno niestandardowego głosu w wersji podstawowej, jak i profesjonalnego dostrajania głosu. Sprawdź szczegóły cennika tutaj.	Ceny jednostkowe mają zastosowanie w równym stopniu zarówno w przypadku dostosowanego głosu w wersji lite, jak i profesjonalnego dostrajania głosu. Sprawdź szczegóły cennika tutaj.

Tworzenie niestandardowego projektu voice lite

Aby utworzyć niestandardowy projekt voice lite, wykonaj następujące kroki:

Zaloguj się do programu Speech Studio.
Wybierz subskrypcję i zasób usługi Mowa do pracy.
Wybierz pozycję Niestandardowy głos>Utwórz projekt.
Wybierz pozycję Niestandardowy neuronowy głos lite>Dalej. Aby utworzyć projekt profesjonalnego niestandardowego głosu, zapoznaj się z dokumentacją dotyczącą dostrajania głosów profesjonalnych.
Postępuj zgodnie z instrukcjami podanymi przez kreatora, aby utworzyć projekt.

Ważne

Niestandardowy projekt voice lite wygasa po 90 dniach, chyba że zostanie przesłane ustne oświadczenie zarejestrowane przez talent głosowy.
Wybierz nowy projekt według nazwy lub wybierz pozycję Przejdź do projektu. Te elementy menu są widoczne w panelu po lewej stronie: Rejestrowanie i kompilowanie, Przeglądanie modelu i Wdrażanie modelu.

Rejestrowanie i tworzenie niestandardowego modelu voice lite

Zarejestruj co najmniej 20 próbek głosowych (do 50) z udostępnionymi skryptami w trybie online. Próbki głosu zarejestrowane w tym miejscu są używane do tworzenia syntetycznej wersji głosu.

Uwaga

Personalizowane szkolenie głosowe jest obecnie dostępne tylko w niektórych regionach. Aby uzyskać więcej informacji, zobacz przypisy dolne w tabeli regionów .

Oto kilka wskazówek, które ułatwiają rejestrowanie próbek głosowych:

Użyj dobrego mikrofonu. Zwiększ przejrzystość próbek przy użyciu wysokiej jakości mikrofonu. Mówić o 8 cali od mikrofonu, aby uniknąć szumów ust.
Unikaj szumu tła. Rejestruj w cichym pomieszczeniu bez szumu tła lub echa.
Zrelaksować się i mówić naturalnie. Pozwól sobie wyrażać emocje podczas odczytywania zdań.
Zarejestruj w jednym z nich. Aby zachować spójny poziom energii, zapisz wszystkie zdania w jednej sesji.
Wymawiaj każde słowo poprawnie i wyraźnie mów.

Aby zarejestrować i utworzyć niestandardowy model głosowy w wersji lite, wykonaj następujące kroki w usłudze Speech Studio:

Wybierz pozycję Niestandardowy głos> Nazwa >projektu Rekord i kompilacja.
Wybierz Rozpocznij.
Uważnie przeczytaj warunki użytkowania talentu Voice. Zaznacz pole wyboru, aby potwierdzić warunki użytkowania.
Wybierz pozycję Akceptuj
Naciśnij ikonę mikrofonu, aby uruchomić sprawdzanie szumu. Ten sprawdzanie szumu trwa tylko kilka sekund i nie musisz mówić podczas niego.
Jeśli wykryto szum, możesz wybrać pozycję Sprawdź ponownie , aby powtórzyć sprawdzanie szumu. Jeśli nie wykryto szumu, możesz wybrać pozycję Gotowe , aby przejść do następnego kroku.
Przejrzyj porady dotyczące nagrywania i wybierz pozycję Got it (Got it). Aby uzyskać najlepsze wyniki, przejdź do cichego obszaru bez szumu tła przed zarejestrowaniem próbek głosowych.
Naciśnij ikonę mikrofonu, aby rozpocząć nagrywanie.
Naciśnij ikonę zatrzymania, aby zatrzymać nagrywanie.
Przejrzyj metryki jakości. Po zarejestrowaniu każdej próbki sprawdź jego metryki jakości, zanim przejdziesz do następnego.
Zarejestruj więcej przykładów. Mimo że można utworzyć model z zaledwie 20 próbkami, zaleca się zarejestrowanie do 50, aby uzyskać lepszą jakość.
Wybierz pozycję Train model (Trenowanie modelu ), aby rozpocząć proces trenowania.

Proces trenowania trwa około jednej godziny obliczeniowej. Postęp procesu trenowania można sprawdzić na stronie Przeglądanie modelu .

Przeglądanie modelu

Aby przejrzeć niestandardowy model voice lite i słuchać własnego syntetycznego głosu, wykonaj następujące kroki:

Wybierz pozycję Niestandardowy głos> Nazwa >projektu Przejrzyj model. W tym miejscu możesz przejrzeć nazwę modelu głosowego, język modelu, rozmiar przykładowych danych i postęp trenowania. Nazwa głosu składa się ze słowa "Neuronowe" dołączonego do nazwy projektu.
Wybierz nazwę modelu głosowego, aby przejrzeć szczegóły modelu i nasłuchiwać przykładowego tekstu w wynikach mowy.
Wybierz ikonę odtwarzania, aby usłyszeć głos każdego skryptu.

Prześlij oświadczenie słowne

Przed wdrożeniem modelu do użytku biznesowego wymagana jest ustna instrukcja zarejestrowana przez talent głosowy.

Aby przesłać werbalne oświadczenie talentu głosowego, wykonaj następujące kroki w Speech Studio:

Wybierz pozycję Niestandardowy głos> Nazwa >> głosowymi.
Wybierz model.
Wprowadź nazwę talentu głosowego i nazwę firmy.
Odczytywanie i rejestrowanie instrukcji. Wybierz ikonę mikrofonu, aby rozpocząć nagrywanie. Wybierz ikonę zatrzymania, aby zatrzymać nagrywanie.
Wybierz pozycję Prześlij , aby przesłać instrukcję.
Sprawdź stan przetwarzania w tabeli skryptów w dolnej części pulpitu nawigacyjnego. Gdy stan to Powodzenie, możesz wdrożyć model.

Wdrażanie modelu

Aby wdrożyć niestandardowy model voice lite i używać go w aplikacjach, musisz uzyskać pełny dostęp do niestandardowego głosu. Zażądaj dostępu w formularzu do wprowadzania. W ciągu około 10 dni roboczych otrzymasz wiadomość e-mail ze stanem zatwierdzenia. Przed wdrożeniem modelu do użytku biznesowego wymagana jest również ustna instrukcja zarejestrowana przez talent głosowy.

Aby wdrożyć niestandardowy model voice lite, wykonaj następujące kroki w usłudze Speech Studio:

Wybierz pozycję Niestandardowy głos> Nazwa >>
Wybierz nazwę modelu głosowego, a następnie wybierz pozycję Dalej.
Wprowadź nazwę i opis punktu końcowego, a następnie wybierz pozycję Dalej.
Zaznacz pole wyboru, aby wyrazić zgodę na warunki użytkowania, a następnie wybierz pozycję Dalej.
Wybierz pozycję Wdróż , aby wdrożyć model.

W tym miejscu możesz użyć niestandardowego modelu głosowego lite, podobnie jak w przypadku korzystania z profesjonalnego modelu głosu. Można na przykład wstrzymać lub wznowić punkt końcowy po jego utworzeniu, aby ograniczyć wydatki i oszczędzać zasoby, które nie są używane. Możesz również uzyskać dostęp do głosu w narzędziu do tworzenia zawartości audio w programie Speech Studio.

Udostępnij za pośrednictwem