Jak tworzyć transkrypcje oznaczone przez człowieka

Artykuł
10/16/2024

Transkrypcje oznaczone przez człowieka to transkrypcje wyrazów w pliku audio. Transkrypcje oznaczone przez człowieka służą do oceniania dokładności modelu i zwiększania dokładności rozpoznawania, zwłaszcza gdy wyrazy są usuwane lub niepoprawnie zastępowane. Ten przewodnik może pomóc w tworzeniu transkrypcji wysokiej jakości.

Reprezentatywna próbka danych transkrypcji jest zalecana do oceny dokładności modelu. Dane powinny obejmować różne osoby mówiące i wypowiedzi, które są reprezentatywne dla tego, co użytkownicy mówią do aplikacji. W przypadku danych testowych maksymalny czas trwania każdego pojedynczego pliku audio wynosi 2 godziny.

Do poprawy rozpoznawania jest wymagana duża próbka danych transkrypcji. Zalecamy udostępnienie danych audio z zakresu od 1 do 100 godzin. Usługa mowa używa do 100 godzin dźwięku na potrzeby trenowania (do 20 godzin dla starszych modeli, które nie pobierają opłat za szkolenie). Każdy pojedynczy plik dźwiękowy nie powinien być dłuższy niż 40 sekund (do 30 sekund w przypadku dostosowywania szeptu).

Ten przewodnik zawiera sekcje dotyczące ustawień regionalnych języka angielskiego, mandaryńskiego i niemieckiego.

Transkrypcje dla wszystkich plików WAV znajdują się w jednym pliku zwykłego tekstu (.txt lub tsv). Każdy wiersz pliku transkrypcji zawiera nazwę jednego z plików audio, po którym następuje odpowiedni transkrypcja. Nazwa pliku i transkrypcja są oddzielone kartą (\t).

Na przykład:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Transkrypcje są znormalizowane tekstowo, dzięki czemu system może je przetworzyć. Jednak przed przekazaniem zestawu danych należy wykonać pewne ważne normalizacje.

Transkrypcje oznaczone przez człowieka dla języków innych niż angielski i mandaryński muszą być zakodowane w formacie UTF-8 ze znacznikiem kolejności bajtów. Inne wymagania dotyczące transkrypcji ustawień regionalnych można znaleźć w poniższych sekcjach.

en-US

Transkrypcje oznaczone przez człowieka dla angielskiego dźwięku muszą być podane jako zwykły tekst, tylko przy użyciu znaków ASCII. Unikaj używania znaków interpunkcyjnych Latin-1 lub Unicode. Te znaki są często przypadkowo dodawane podczas kopiowania tekstu z aplikacji do przetwarzania wyrazów lub złomowania danych ze stron internetowych. Jeśli te znaki są obecne, pamiętaj, aby zaktualizować je przy użyciu odpowiedniego podstawienia ASCII.

Oto kilka przykładów:

Znaki, których należy unikać	Zastąpienie	Uwagi
„Hello world”	„Hello world”	Znaki cudzysłowów otwierających i zamykających są zastępowane odpowiednimi znakami ASCII.
Dzień Jana	Dzień Jana	Apostrof jest zastępowany odpowiednim znakiem ASCII.
To było dobre — nie, to było wspaniałe!	to było dobre - nie, to było wspaniałe!	Kreska em jest zastępowana dwoma łącznikami.

Normalizacja tekstu dla języka angielskiego USA

Normalizacja tekstu to przekształcanie wyrazów w spójny format używany podczas trenowania modelu. Niektóre reguły normalizacji są stosowane do tekstu automatycznie, jednak zalecamy użycie tych wytycznych podczas przygotowywania danych transkrypcji oznaczonych przez człowieka:

Zapisuj skróty w wyrazach.
Zapisz niestandardowe ciągi liczbowe w słowach (na przykład terminy księgowe).
Znaki niefabetyczne lub mieszane znaki alfanumeryczne powinny być transkrybowane jako wymawiane.
Skróty, które są wymawiane jako wyrazy, nie powinny być edytowane (takie jak "radar", "laser", "RAM" lub "NATO").
Zapisuj skróty, które są wymawiane jako oddzielne litery z każdą literą oddzieloną spacją.
Jeśli używasz dźwięku, transkrypcji liczb jako wyrazów pasujących do dźwięku (na przykład "101" można wymawiać jako "jeden oh one" lub "sto i jeden").
Unikaj powtarzania znaków, wyrazów lub grup wyrazów więcej niż trzy razy, takich jak "tak tak tak". Usługa rozpoznawania mowy może usuwać wiersze z takim powtórzeniem.

Poniżej przedstawiono kilka przykładów normalizacji, które należy wykonać w transkrypcji:

Original text	Tekst po normalizacji (człowiek)
Dr Bruce Banner	Doktor Bruce Banner
James Bond, 007	James Bond, dwukrotnie o siedem
Ke$ha	Kesha
Jak długo jest 2x4	Jak długo są dwa o cztery
Spotkanie trwa od 1:33	Spotkanie trwa od jednego do trzech pm
Mój typ krwi to O+	Mój typ krwi jest dodatni
Woda jest H20	Woda jest H 2 O
Odtwarzanie OU812 przez Van Halen	Odtwórz O U 8 1 2 przez Van Halen
UTF-8 z BOM	U T F 8 z BOM
Kosztuje 3,14 USD	Kosztuje trzy czternaście

Następujące reguły normalizacji są automatycznie stosowane do transkrypcji:

Użyj małych liter.
Usuń wszystkie znaki interpunkcyjne z wyjątkiem apostrofów w wyrazach.
Rozwiń liczby w postaci wyrazów/wypowiedzi, takich jak kwoty w dolarach.

Oto kilka przykładów normalizacji wykonywanej automatycznie na transkrypcji:

Original text	Tekst po normalizacji (automatyczny)
"Święta krowa!" – powiedział Batman.	święta krowa powiedziała batman
"Co?" powiedział sidekick Batmana, Robin.	co powiedział batman's sidekick robin
Przejdź do -em!	przejdź do pobrania em
Jestem podwójnie połączony	Jestem dwukrotnie połączony
104 Elm Street	jedna o cztery ulicy wiążu
Dostrajanie do wersji 102.7	dostrojenie do jednego o dwa punkty siedem
Pi wynosi około 3,14	pi jest około trzech punktów jeden cztery

de-DE

Transkrypcje oznaczone przez człowieka dla niemieckiego dźwięku muszą być zakodowane w formacie UTF-8 ze znacznikiem kolejności bajtów.

Normalizacja tekstu dla języka niemieckiego

Zapisz punkty dziesiętne jako "", a nie ".".
Zapisuj separatory czasu jako ":", a nie "." (na przykład: 12:00 Uhr).
Skróty, takie jak "ca"., nie są zastępowane. Zalecamy używanie pełnej formy mówionej.
Cztery główne operatory matematyczne (+, -, *i /) są usuwane. Zalecamy zastąpienie ich zapisanym formularzem: "plus", "minus", "mal" i "geteilt".
Operatory porównania są usuwane (=, <, i >). Zalecamy zastąpienie ich "gleich", "kleiner als" i "grösser als".
Zapisuj ułamki, takie jak 3/4, w postaci pisemnej (na przykład: "drei viertel" zamiast 3/4).
Zastąp symbol "€" zapisanym formularzem "Euro".

Poniżej przedstawiono kilka przykładów normalizacji, które należy wykonać w transkrypcji:

Original text	Tekst po normalizacji użytkownika	Tekst po normalizacji systemu
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwani uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

Następujące reguły normalizacji są automatycznie stosowane do transkrypcji:

Użyj małych liter dla całego tekstu.
Usuń wszystkie znaki interpunkcyjne, w tym różne typy cudzysłowów ("test", "test", "test" i «test» są OK).
Odrzuć wiersze z dowolnymi znakami specjalnymi z tego zestawu: ¢ ¢ • • § © ́ ¬ ® ° ± ² μ × ÿ Ø¬¬.
Rozwiń liczbę do formy mówionej, w tym kwot w dolarach lub euro.
Zaakceptuj tylko umlauts tylko dla a, o, i ty. Inne są zastępowane przez "th" lub odrzucane.

Oto kilka przykładów normalizacji wykonywanej automatycznie na transkrypcji:

Original text	Tekst po normalizacji
Pierścień Frankfurter	pierścień frankfurterowy
{Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

W języku japońskim (ja-JP) maksymalna długość każdego zdania wynosi 90 znaków. Wiersze z dłuższymi zdaniami są odrzucane. Aby dodać dłuższy tekst, wstaw kropkę między.

zh-CN

Transkrypcje oznaczone przez człowieka dla chińskiego dźwięku mandaryńskiego muszą być zakodowane w formacie UTF-8 ze znacznikiem kolejności bajtów. Unikaj używania znaków interpunkcyjnych o połowie szerokości. Te znaki można dołączać przypadkowo podczas przygotowywania danych w programie do przetwarzania wyrazów lub złomowania danych ze stron internetowych. Jeśli te znaki są obecne, pamiętaj, aby zaktualizować je przy użyciu odpowiedniego podstawianie pełnej szerokości.

Oto kilka przykładów:

Znaki, których należy unikać	Zastąpienie	Uwagi
"你好"	"你好"	Znaki cudzysłowów otwierających i zamykających są zastępowane odpowiednimi znakami.
需要什么帮助?	需要什么帮助？	Znak zapytania jest zastępowany odpowiednim znakiem.

Normalizacja tekstu dla chińskiego mandaryńskiego

Zapisuj skróty w wyrazach.
Zapisz ciągi liczbowe w postaci mówionej.

Poniżej przedstawiono kilka przykładów normalizacji, które należy wykonać w transkrypcji:

Original text	Tekst po normalizacji
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Następujące reguły normalizacji są automatycznie stosowane do transkrypcji:

Usuń wszystkie znaki interpunkcyjne.
Rozwiń liczbę do postaci mówionej.
Konwertuj litery o pełnej szerokości na litery o szerokości pół szerokości.
Używanie wielkich liter dla wszystkich wyrazów w języku angielskim.

Oto kilka przykładów automatycznej normalizacji transkrypcji:

Original text	Tekst po normalizacji
3.1415	三点一四一五
¬ 3,5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Udostępnij za pośrednictwem

Jak tworzyć transkrypcje oznaczone przez człowieka

en-US

Normalizacja tekstu dla języka angielskiego USA

de-DE

Normalizacja tekstu dla języka niemieckiego

ja-JP

zh-CN

Normalizacja tekstu dla chińskiego mandaryńskiego

Następne kroki

Opinia

Dodatkowe zasoby