Dane szkoleniowe dla niestandardowego neuronowego głosu

Artykuł
01/22/2024

Gdy wszystko będzie gotowe do utworzenia niestandardowego tekstu na głos mowy dla aplikacji, pierwszym krokiem jest zebranie nagrań audio i skojarzonych skryptów w celu rozpoczęcia trenowania modelu głosu. Usługa mowa używa tych danych do tworzenia unikatowego głosu dostrojonego w celu dopasowania głosu do nagrań. Po wytrenowaniu głosu możesz rozpocząć synchronizowanie mowy w aplikacjach.

Napiwek

Aby utworzyć głos do użytku produkcyjnego, zalecamy użycie profesjonalnego studia nagraniowego i talentów głosowych. Aby uzyskać więcej informacji, zobacz rejestrowanie przykładów głosowych w celu utworzenia niestandardowego neuronowego głosu.

Typy danych treningowych

Zestaw danych trenowania głosu zawiera nagrania audio i plik tekstowy ze skojarzonymi transkrypcjami. Każdy plik dźwiękowy powinien zawierać jedną wypowiedź (jedno zdanie lub pojedynczy zwrot w systemie dialogowym) i mieć długość mniej niż 15 sekund.

W niektórych przypadkach być może nie masz odpowiedniego zestawu danych gotowego. Możesz przetestować niestandardowe trenowanie neuronowego głosu z dostępnymi plikami audio, krótkimi lub długimi, z transkrypcjami lub bez.

W tej tabeli wymieniono typy danych i sposób ich użycia do utworzenia niestandardowego modelu zamiany tekstu na mowę.

Typ danych	opis	Kiedy używać	Wymagane dodatkowe przetwarzanie
Poszczególne wypowiedzi i pasujące transkrypcje	Kolekcja (.zip) plików audio (.wav) jako poszczególnych wypowiedzi. Każdy plik dźwiękowy powinien mieć długość co najmniej 15 sekund w połączeniu z sformatowaną transkrypcją (.txt).	Profesjonalne nagrania z pasującymi transkrypcjami	Gotowe do szkolenia.
Długi dźwięk i transkrypcja	Kolekcja (.zip) długich, niesegmentowanych plików audio (.wav lub .mp3, dłuższych niż 20 sekund, co najwyżej 1000 plików audio), w połączeniu z kolekcją (.zip) transkrypcji zawierających wszystkie słowa mówione.	Masz pliki audio i pasujące transkrypcje, ale nie są podzielone na wypowiedzi.	Segmentacja (przy użyciu transkrypcji wsadowej). Przekształcanie formatu audio wszędzie tam, gdzie jest to wymagane.
Tylko dźwięk (wersja zapoznawcza)	Kolekcja (.zip) plików audio (.wav lub .mp3, w większości 1000 plików audio) bez transkrypcji.	Dostępne są tylko pliki audio bez transkrypcji.	Segmentacja i generowanie transkrypcji (przy użyciu transkrypcji wsadowej). Przekształcanie formatu audio wszędzie tam, gdzie jest to wymagane.

Pliki powinny być pogrupowane według typu w zestawie danych i przekazywane jako plik zip. Każdy zestaw danych może zawierać tylko jeden typ danych.

Uwaga

Maksymalna liczba zestawów danych, które mogą być importowane na subskrypcję, to 500 plików zip dla użytkowników standardowej subskrypcji (S0).

Poszczególne wypowiedzi i pasujące transkrypcje

Możesz przygotować nagrania poszczególnych wypowiedzi i pasującej transkrypcji na dwa sposoby. Napisz skrypt i przeczytaj go przez talent głosowy lub użyj publicznie dostępnego dźwięku i transkrybuj go do tekstu. Jeśli to zrobisz, zmodyfikuj dysproporcje z plików dźwiękowych, takich jak "um" i inne dźwięki wypełniacza, zacinanie, wyciszone słowa lub błędy.

Aby utworzyć dobry model głosu, utwórz nagrania w cichym pomieszczeniu z wysokiej jakości mikrofonem. Spójna głośność, szybkość mówienia, ton wypowiedzi i wyraziste maniery mowy są niezbędne.

Przykłady formatów danych można znaleźć w przykładowym zestawie szkoleniowym w usłudze GitHub. Przykładowy zestaw szkoleniowy zawiera przykładowy skrypt i skojarzony dźwięk.

Dane audio dla poszczególnych wypowiedzi i pasujące transkrypcji

Każdy plik dźwiękowy powinien zawierać jedną wypowiedź (jedno zdanie lub pojedynczy obrót systemu dialogowego), mniej niż 15 sekund. Wszystkie pliki muszą być w tym samym języku mówionym. Wielojęzyczne niestandardowe głosy zamiany tekstu na mowę nie są obsługiwane, z wyjątkiem języka chińskiego i angielskiego bi-lingual. Każdy plik dźwiękowy musi mieć unikatową nazwę pliku z rozszerzeniem nazwy pliku .wav.

Postępuj zgodnie z tymi wytycznymi podczas przygotowywania dźwięku.

Właściwości	Wartość
File format	RIFF (.wav) pogrupowane w plik .zip
Nazwa pliku	Znaki nazwy pliku obsługiwane przez system operacyjny Windows z rozszerzeniem .wav. Znaki `\ / : * ? " < > \\|` nie są dozwolone. Nie może zaczynać się ani kończyć spacją i nie może zaczynać się kropką. Nie są dozwolone zduplikowane nazwy plików.
Częstotliwość próbkowania	Podczas tworzenia niestandardowego neuronowego głosu wymagane jest 24 000 Hz.
Format próbki	PCM, co najmniej 16-bitowy
Długość dźwięku	Krótszy niż 15 sekund
Format archiwum	.zip
Maksymalny rozmiar archiwum	2048 MB

Uwaga

Domyślna częstotliwość próbkowania niestandardowego neuronowego głosu wynosi 24 000 Hz. Pliki audio o częstotliwości próbkowania niższej niż 16 000 Hz zostaną odrzucone. Jeśli plik .zip zawiera pliki .wav z różnymi częstotliwościami próbkowania, importowane będą tylko te równe lub wyższe niż 16 000 Hz. Pliki audio z częstotliwością próbkowania wyższe niż 16 000 Hz i niższe niż 24 000 Hz będą próbkowane do 24 000 Hz w celu wytrenowania głosu neuronowego. Zaleca się użycie częstotliwości próbkowania wynoszącej 24 000 Hz dla danych treningowych.

Dane transkrypcji dla poszczególnych wypowiedzi i pasującej transkrypcji

Plik transkrypcji jest plikiem zwykłego tekstu. Skorzystaj z tych wytycznych, aby przygotować transkrypcje.

Właściwości	Wartość
File format	Zwykły tekst (.txt)
Format kodowania	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE lub UTF-16-BE. W przypadku kodowania zh-CN kodowanie ANSI i ASCII nie są obsługiwane.
Liczba wypowiedzi w wierszu	Jeden — każdy wiersz pliku transkrypcji powinien zawierać nazwę jednego z plików audio, po którym następuje odpowiedni transkrypcja. Aby oddzielić nazwę pliku i transkrypcję, należy użyć karty (\t).
Maksymalna wielkość pliku	2048 MB

Oto przykład sposobu organizowania transkrypcji wypowiedzi według wypowiedzi w jednym pliku .txt:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Ważne jest, aby transkrypcje były w 100% dokładne transkrypcje odpowiedniego dźwięku. Błędy w transkrypcjach powodują utratę jakości podczas trenowania.

Długi dźwięk i transkrypcja (wersja zapoznawcza)

Uwaga

W przypadku długiego audio i transkrypcji (wersja zapoznawcza) obsługiwane są tylko następujące języki: chiński (mandaryński, uproszczony), angielski (Indie), angielski (Wielka Brytania), angielski (Stany Zjednoczone), francuski (Francja), niemiecki (Niemcy), włoski (Włochy), japoński (Japonia), portugalski (Brazylia) i hiszpański (Meksyk).

W niektórych przypadkach być może nie masz dostępnego segmentowanego dźwięku. Program Speech Studio ułatwia segmentowanie długich plików audio i tworzenie transkrypcji. Usługa segmentacji long-audio używa funkcji interfejsu API transkrypcji usługi Batch mowy do tekstu.

Podczas przetwarzania segmentacji pliki audio i transkrypcje są również wysyłane do niestandardowej usługi rozpoznawania mowy w celu uściślinia modelu rozpoznawania, aby można było poprawić dokładność danych. W trakcie tego procesu żadne dane nie są zachowywane. Po zakończeniu segmentacji tylko wypowiedzi podzielone na segmenty, a ich transkrypcje mapowania będą przechowywane na potrzeby pobierania i trenowania.

Uwaga

Ta usługa zostanie obciążona opłatą za użycie mowy w subskrypcji tekstowej. Usługa segmentacji long-audio jest obsługiwana tylko w przypadku standardowych (S0) zasobów mowy.

Dane audio dla długiego dźwięku i transkrypcji

Postępuj zgodnie z tymi wytycznymi podczas przygotowywania dźwięku do segmentacji.

Właściwości	Wartość
File format	RIFF (.wav) lub .mp3 pogrupowane w plik .zip
Nazwa pliku	Znaki nazwy pliku obsługiwane przez system operacyjny Windows z rozszerzeniem .wav. Znaki `\ / : * ? " < > \\|` nie są dozwolone. Nie może zaczynać się ani kończyć spacją i nie może zaczynać się kropką. Nie są dozwolone zduplikowane nazwy plików.
Częstotliwość próbkowania	Podczas tworzenia niestandardowego neuronowego głosu wymagane jest 24 000 Hz.
Format próbki	RIFF(.wav): PCM, co najmniej 16-bitowy. mp3: Co najmniej 256 KBps szybkości bitów.
Długość dźwięku	Dłużej niż 20 sekund
Format archiwum	.zip
Maksymalny rozmiar archiwum	2048 MB, co najwyżej 1000 plików audio

Uwaga

Domyślna częstotliwość próbkowania niestandardowego neuronowego głosu wynosi 24 000 Hz. Pliki audio o częstotliwości próbkowania niższej niż 16 000 Hz zostaną odrzucone. Pliki audio z częstotliwością próbkowania wyższe niż 16 000 Hz i niższe niż 24 000 Hz będą próbkowane do 24 000 Hz w celu wytrenowania głosu neuronowego. Zaleca się użycie częstotliwości próbkowania wynoszącej 24 000 Hz dla danych treningowych.

Wszystkie pliki dźwiękowe powinny być pogrupowane w plik zip. Możesz umieścić pliki .wav i pliki .mp3 w tym samym pliku zip. Na przykład możesz przekazać 45-sekundowy plik audio o nazwie "kingstory.wav" i 200-sekundowy plik audio o nazwie "queenstory.mp3" w tym samym pliku zip. Wszystkie pliki .mp3 zostaną przekształcone w format .wav po przetworzeniu.

Dane transkrypcji dla długiego dźwięku i transkrypcji

Transkrypcje muszą być przygotowane do specyfikacji wymienionych w tej tabeli. Każdy plik dźwiękowy musi być zgodny z transkrypcją.

Właściwości	Wartość
File format	Zwykły tekst (.txt) pogrupowany w .zip
Nazwa pliku	Użyj tej samej nazwy co pasujący plik audio
Format kodowania	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE lub UTF-16-BE. W przypadku kodowania zh-CN kodowanie ANSI i ASCII nie są obsługiwane.
Liczba wypowiedzi w wierszu	Brak ograniczeń
Maksymalna wielkość pliku	2048 MB

Wszystkie pliki transkrypcji w tym typie danych powinny być pogrupowane w plik zip. Na przykład możesz przekazać 45-sekundowy plik audio o nazwie "kingstory.wav" i 200-sekundowy plik audio o nazwie "queenstory.mp3" w tym samym pliku zip. Musisz przekazać inny plik zip zawierający odpowiednie dwa transkrypcje — jeden o nazwie "kingstory.txt" i drugi o nazwie "queenstory.txt". W każdym pliku zwykłego tekstu należy podać pełną poprawną transkrypcję pasującego dźwięku.

Po pomyślnym przekazaniu zestawu danych pomożemy podzielić plik audio na wypowiedzi na podstawie podanej transkrypcji. Możesz sprawdzić segmentowane wypowiedzi i pasujące transkrypcje, pobierając zestaw danych. Unikatowe identyfikatory są przypisywane automatycznie do segmentowanych wypowiedzi. Ważne jest, aby upewnić się, że podane transkrypcje są w 100% dokładne. Błędy w transkrypcjach mogą zmniejszyć dokładność podczas segmentacji dźwięku i dodatkowo wprowadzić utratę jakości w fazie trenowania, która nastąpi później.

Tylko dźwięk (wersja zapoznawcza)

Uwaga

W przypadku tylko audio (wersja zapoznawcza) obsługiwane są tylko następujące języki: chiński (mandaryński, uproszczony), angielski (Indie), angielski (Wielka Brytania), angielski (Stany Zjednoczone), francuski (Francja), niemiecki (Niemcy), włoski (Włochy), japoński (Japonia), portugalski (Brazylia) i hiszpański (Meksyk).

Jeśli nie masz transkrypcji nagrań audio, użyj opcji Tylko dźwięk, aby przekazać dane. Nasz system może pomóc w segmentacjach i transkrypcji plików audio. Należy pamiętać, że ta usługa jest obciążana opłatą za użycie mowy na subskrypcję tekstową.

Postępuj zgodnie z tymi wytycznymi podczas przygotowywania dźwięku.

Uwaga

Usługa segmentacji long-audio będzie korzystać z funkcji transkrypcji wsadowej mowy na tekst, która obsługuje tylko użytkowników standardowej subskrypcji (S0).

Właściwości	Wartość
File format	RIFF (.wav) lub .mp3 pogrupowane w plik .zip
Nazwa pliku	Znaki nazwy pliku obsługiwane przez system operacyjny Windows z rozszerzeniem .wav. Znaki `\ / : * ? " < > \\|` nie są dozwolone. Nie może zaczynać się ani kończyć spacją i nie może zaczynać się kropką. Nie są dozwolone zduplikowane nazwy plików.
Częstotliwość próbkowania	Podczas tworzenia niestandardowego neuronowego głosu wymagane jest 24 000 Hz.
Format próbki	RIFF(.wav): PCM, co najmniej 16-bitowy mp3: Co najmniej 256 KBps szybkości bitów.
Długość dźwięku	Brak ograniczeń
Format archiwum	.zip
Maksymalny rozmiar archiwum	2048 MB, co najwyżej 1000 plików audio

Uwaga

Domyślna częstotliwość próbkowania niestandardowego neuronowego głosu wynosi 24 000 Hz. Pliki audio z częstotliwością próbkowania wyższe niż 16 000 Hz i niższe niż 24 000 Hz będą próbkowane do 24 000 Hz w celu wytrenowania głosu neuronowego. Zaleca się użycie częstotliwości próbkowania wynoszącej 24 000 Hz dla danych treningowych.

Wszystkie pliki dźwiękowe powinny być pogrupowane w plik zip. Po pomyślnym przekazaniu zestawu danych usługa rozpoznawania mowy pomaga podzielić plik audio na wypowiedzi na podstawie naszej usługi transkrypcji wsadowej mowy. Unikatowe identyfikatory są przypisywane automatycznie do segmentowanych wypowiedzi. Pasujące transkrypcje są generowane za pomocą rozpoznawania mowy. Wszystkie pliki .mp3 zostaną przekształcone w format .wav po przetworzeniu. Możesz sprawdzić segmentowane wypowiedzi i pasujące transkrypcje, pobierając zestaw danych.

Dane szkoleniowe dla niestandardowego neuronowego głosu

Typy danych treningowych

Poszczególne wypowiedzi i pasujące transkrypcje

Dane audio dla poszczególnych wypowiedzi i pasujące transkrypcji

Dane transkrypcji dla poszczególnych wypowiedzi i pasującej transkrypcji

Długi dźwięk i transkrypcja (wersja zapoznawcza)

Dane audio dla długiego dźwięku i transkrypcji

Dane transkrypcji dla długiego dźwięku i transkrypcji

Tylko dźwięk (wersja zapoznawcza)

Następne kroki

Dodatkowe zasoby