Jak tworzyć transkrypcje oznaczone przez człowieka
Transkrypcje oznaczone przez człowieka to transkrypcje wyrazów w pliku audio. Transkrypcje oznaczone przez człowieka służą do oceniania dokładności modelu i zwiększania dokładności rozpoznawania, zwłaszcza gdy wyrazy są usuwane lub niepoprawnie zastępowane. Ten przewodnik może pomóc w tworzeniu transkrypcji wysokiej jakości.
Reprezentatywna próbka danych transkrypcji jest zalecana do oceny dokładności modelu. Dane powinny obejmować różne osoby mówiące i wypowiedzi, które są reprezentatywne dla tego, co użytkownicy mówią do aplikacji. W przypadku danych testowych maksymalny czas trwania każdego pojedynczego pliku audio wynosi 2 godziny.
Do poprawy rozpoznawania jest wymagana duża próbka danych transkrypcji. Zalecamy udostępnienie danych audio z zakresu od 1 do 100 godzin. Usługa mowa używa do 100 godzin dźwięku na potrzeby trenowania (do 20 godzin dla starszych modeli, które nie pobierają opłat za szkolenie). Każdy pojedynczy plik dźwiękowy nie powinien być dłuższy niż 40 sekund (do 30 sekund w przypadku dostosowywania szeptu).
Ten przewodnik zawiera sekcje dotyczące ustawień regionalnych języka angielskiego, mandaryńskiego i niemieckiego.
Transkrypcje dla wszystkich plików WAV znajdują się w jednym pliku zwykłego tekstu (.txt lub tsv). Każdy wiersz pliku transkrypcji zawiera nazwę jednego z plików audio, po którym następuje odpowiedni transkrypcja. Nazwa pliku i transkrypcja są oddzielone kartą (\t
).
Na przykład:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
Transkrypcje są znormalizowane tekstowo, dzięki czemu system może je przetworzyć. Jednak przed przekazaniem zestawu danych należy wykonać pewne ważne normalizacje.
Transkrypcje oznaczone przez człowieka dla języków innych niż angielski i mandaryński muszą być zakodowane w formacie UTF-8 ze znacznikiem kolejności bajtów. Inne wymagania dotyczące transkrypcji ustawień regionalnych można znaleźć w poniższych sekcjach.
en-US
Transkrypcje oznaczone przez człowieka dla angielskiego dźwięku muszą być podane jako zwykły tekst, tylko przy użyciu znaków ASCII. Unikaj używania znaków interpunkcyjnych Latin-1 lub Unicode. Te znaki są często przypadkowo dodawane podczas kopiowania tekstu z aplikacji do przetwarzania wyrazów lub złomowania danych ze stron internetowych. Jeśli te znaki są obecne, pamiętaj, aby zaktualizować je przy użyciu odpowiedniego podstawienia ASCII.
Oto kilka przykładów:
Znaki, których należy unikać | Zastąpienie | Uwagi |
---|---|---|
„Hello world” | „Hello world” | Znaki cudzysłowów otwierających i zamykających są zastępowane odpowiednimi znakami ASCII. |
Dzień Jana | Dzień Jana | Apostrof jest zastępowany odpowiednim znakiem ASCII. |
To było dobre — nie, to było wspaniałe! | to było dobre - nie, to było wspaniałe! | Kreska em jest zastępowana dwoma łącznikami. |
Normalizacja tekstu dla języka angielskiego USA
Normalizacja tekstu to przekształcanie wyrazów w spójny format używany podczas trenowania modelu. Niektóre reguły normalizacji są stosowane do tekstu automatycznie, jednak zalecamy użycie tych wytycznych podczas przygotowywania danych transkrypcji oznaczonych przez człowieka:
- Zapisuj skróty w wyrazach.
- Zapisz niestandardowe ciągi liczbowe w słowach (na przykład terminy księgowe).
- Znaki niefabetyczne lub mieszane znaki alfanumeryczne powinny być transkrybowane jako wymawiane.
- Skróty, które są wymawiane jako wyrazy, nie powinny być edytowane (takie jak "radar", "laser", "RAM" lub "NATO").
- Zapisuj skróty, które są wymawiane jako oddzielne litery z każdą literą oddzieloną spacją.
- Jeśli używasz dźwięku, transkrypcji liczb jako wyrazów pasujących do dźwięku (na przykład "101" można wymawiać jako "jeden oh one" lub "sto i jeden").
- Unikaj powtarzania znaków, wyrazów lub grup wyrazów więcej niż trzy razy, takich jak "tak tak tak". Usługa rozpoznawania mowy może usuwać wiersze z takim powtórzeniem.
Poniżej przedstawiono kilka przykładów normalizacji, które należy wykonać w transkrypcji:
Original text | Tekst po normalizacji (człowiek) |
---|---|
Dr Bruce Banner | Doktor Bruce Banner |
James Bond, 007 | James Bond, dwukrotnie o siedem |
Ke$ha | Kesha |
Jak długo jest 2x4 | Jak długo są dwa o cztery |
Spotkanie trwa od 1:33 | Spotkanie trwa od jednego do trzech pm |
Mój typ krwi to O+ | Mój typ krwi jest dodatni |
Woda jest H20 | Woda jest H 2 O |
Odtwarzanie OU812 przez Van Halen | Odtwórz O U 8 1 2 przez Van Halen |
UTF-8 z BOM | U T F 8 z BOM |
Kosztuje 3,14 USD | Kosztuje trzy czternaście |
Następujące reguły normalizacji są automatycznie stosowane do transkrypcji:
- Użyj małych liter.
- Usuń wszystkie znaki interpunkcyjne z wyjątkiem apostrofów w wyrazach.
- Rozwiń liczby w postaci wyrazów/wypowiedzi, takich jak kwoty w dolarach.
Oto kilka przykładów normalizacji wykonywanej automatycznie na transkrypcji:
Original text | Tekst po normalizacji (automatyczny) |
---|---|
"Święta krowa!" – powiedział Batman. | święta krowa powiedziała batman |
"Co?" powiedział sidekick Batmana, Robin. | co powiedział batman's sidekick robin |
Przejdź do -em! | przejdź do pobrania em |
Jestem podwójnie połączony | Jestem dwukrotnie połączony |
104 Elm Street | jedna o cztery ulicy wiążu |
Dostrajanie do wersji 102.7 | dostrojenie do jednego o dwa punkty siedem |
Pi wynosi około 3,14 | pi jest około trzech punktów jeden cztery |
de-DE
Transkrypcje oznaczone przez człowieka dla niemieckiego dźwięku muszą być zakodowane w formacie UTF-8 ze znacznikiem kolejności bajtów.
Normalizacja tekstu dla języka niemieckiego
Normalizacja tekstu to przekształcanie wyrazów w spójny format używany podczas trenowania modelu. Niektóre reguły normalizacji są stosowane do tekstu automatycznie, jednak zalecamy użycie tych wytycznych podczas przygotowywania danych transkrypcji oznaczonych przez człowieka:
- Zapisz punkty dziesiętne jako "", a nie ".".
- Zapisuj separatory czasu jako ":", a nie "." (na przykład: 12:00 Uhr).
- Skróty, takie jak "ca"., nie są zastępowane. Zalecamy używanie pełnej formy mówionej.
- Cztery główne operatory matematyczne (+, -, *i /) są usuwane. Zalecamy zastąpienie ich zapisanym formularzem: "plus", "minus", "mal" i "geteilt".
- Operatory porównania są usuwane (=, <, i >). Zalecamy zastąpienie ich "gleich", "kleiner als" i "grösser als".
- Zapisuj ułamki, takie jak 3/4, w postaci pisemnej (na przykład: "drei viertel" zamiast 3/4).
- Zastąp symbol "€" zapisanym formularzem "Euro".
Poniżej przedstawiono kilka przykładów normalizacji, które należy wykonać w transkrypcji:
Original text | Tekst po normalizacji użytkownika | Tekst po normalizacji systemu |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwani uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
Następujące reguły normalizacji są automatycznie stosowane do transkrypcji:
- Użyj małych liter dla całego tekstu.
- Usuń wszystkie znaki interpunkcyjne, w tym różne typy cudzysłowów ("test", "test", "test" i «test» są OK).
- Odrzuć wiersze z dowolnymi znakami specjalnymi z tego zestawu: ¢ ¢ • • § © ́ ¬ ® ° ± ² μ × ÿ ج¬.
- Rozwiń liczbę do formy mówionej, w tym kwot w dolarach lub euro.
- Zaakceptuj tylko umlauts tylko dla a, o, i ty. Inne są zastępowane przez "th" lub odrzucane.
Oto kilka przykładów normalizacji wykonywanej automatycznie na transkrypcji:
Original text | Tekst po normalizacji |
---|---|
Pierścień Frankfurter | pierścień frankfurterowy |
{Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
W języku japońskim (ja-JP) maksymalna długość każdego zdania wynosi 90 znaków. Wiersze z dłuższymi zdaniami są odrzucane. Aby dodać dłuższy tekst, wstaw kropkę między.
zh-CN
Transkrypcje oznaczone przez człowieka dla chińskiego dźwięku mandaryńskiego muszą być zakodowane w formacie UTF-8 ze znacznikiem kolejności bajtów. Unikaj używania znaków interpunkcyjnych o połowie szerokości. Te znaki można dołączać przypadkowo podczas przygotowywania danych w programie do przetwarzania wyrazów lub złomowania danych ze stron internetowych. Jeśli te znaki są obecne, pamiętaj, aby zaktualizować je przy użyciu odpowiedniego podstawianie pełnej szerokości.
Oto kilka przykładów:
Znaki, których należy unikać | Zastąpienie | Uwagi |
---|---|---|
"你好" | "你好" | Znaki cudzysłowów otwierających i zamykających są zastępowane odpowiednimi znakami. |
需要什么帮助? | 需要什么帮助? | Znak zapytania jest zastępowany odpowiednim znakiem. |
Normalizacja tekstu dla chińskiego mandaryńskiego
Normalizacja tekstu to przekształcanie wyrazów w spójny format używany podczas trenowania modelu. Niektóre reguły normalizacji są stosowane do tekstu automatycznie, jednak zalecamy użycie tych wytycznych podczas przygotowywania danych transkrypcji oznaczonych przez człowieka:
- Zapisuj skróty w wyrazach.
- Zapisz ciągi liczbowe w postaci mówionej.
Poniżej przedstawiono kilka przykładów normalizacji, które należy wykonać w transkrypcji:
Original text | Tekst po normalizacji |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
Następujące reguły normalizacji są automatycznie stosowane do transkrypcji:
- Usuń wszystkie znaki interpunkcyjne.
- Rozwiń liczbę do postaci mówionej.
- Konwertuj litery o pełnej szerokości na litery o szerokości pół szerokości.
- Używanie wielkich liter dla wszystkich wyrazów w języku angielskim.
Oto kilka przykładów automatycznej normalizacji transkrypcji:
Original text | Tekst po normalizacji |
---|---|
3.1415 | 三 点 一 四 一 五 |
¬ 3,5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |