İnsan etiketli transkripsiyonlar oluşturma
İnsan etiketli transkripsiyonlar, bir ses dosyasının tek tek transkripsiyonlarıdır. Özellikle sözcükler silindiğinde veya yanlış değiştirildiğinde model doğruluğunu değerlendirmek ve tanıma doğruluğunu geliştirmek için insan etiketli transkripsiyonlar kullanırsınız. Bu kılavuz, yüksek kaliteli transkripsiyonlar oluşturmanıza yardımcı olabilir.
Model doğruluğunu değerlendirmek için transkripsiyon verilerinin temsili bir örneği önerilir. Veriler, kullanıcıların uygulamaya söylediklerini temsil eden çeşitli konuşmacıları ve konuşmaları kapsamalıdır. Test verileri için her bir ses dosyasının maksimum süresi 2 saattir.
Tanımayı geliştirmek için büyük bir transkripsiyon verileri örneği gereklidir. 1 ile 100 saat arasında ses verileri sağlamanızı öneririz. Konuşma tanıma hizmeti, eğitim için 100 saate kadar ses kullanır (eğitim için ücret ödemeyen eski modeller için 20 saate kadar). Her ses dosyası 40 saniyeden uzun olmamalıdır (Fısıltı özelleştirmesi için 30 saniyeye kadar).
Bu kılavuzda ABD İngilizcesi, Mandarin Çincesi ve Almanca yerel ayarlar için bölümler bulunur.
Tüm WAV dosyalarının transkripsiyonları tek bir düz metin dosyasında (.txt veya .tsv) bulunur. Transkripsiyon dosyasının her satırı, ses dosyalarından birinin adını ve ardından ilgili transkripsiyonu içerir. Dosya adı ve transkripsiyon bir sekme (\t
) ile ayrılır.
Örneğin:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
Transkripsiyonlar, sistemin bunları işleyebilmesi için metin normalleştirilmiştir. Ancak, veri kümesini karşıya yüklemeden önce bazı önemli normalleştirmeler yapmanız gerekir.
İngilizce ve Mandarin Çincesi dışındaki diller için insan etiketli transkripsiyonlar, bayt sırası işaretçisi ile kodlanmış UTF-8 olmalıdır. Diğer yerel ayarlar transkripsiyon gereksinimleri için aşağıdaki bölümlere bakın.
en-US
İngilizce ses için insan etiketli transkripsiyonlar yalnızca ASCII karakterleri kullanılarak düz metin olarak sağlanmalıdır. Latin-1 veya Unicode noktalama karakterleri kullanmaktan kaçının. Bu karakterler genellikle bir sözcük işleme uygulamasından metin kopyalarken veya web sayfalarından veri kazırken yanlışlıkla eklenir. Bu karakterler varsa, bunları uygun ASCII değiştirmesiyle güncelleştirin.
İşte birkaç örnek:
Kaçınılması gereken karakterler | Değiştirme | Notlar |
---|---|---|
“Merhaba dünya” | “Merhaba dünya” | Açma ve kapatma tırnak işaretlerinin yerine uygun ASCII karakterleri kullanılır. |
John günü | John günü | Kesme işareti, uygun ASCII karakteriyle değiştirilir. |
İyiydi, hayır, harikaydı! | İyiydi, hayır, harikaydı! | Uzun tire iki kısa çizgiyle değiştirilir. |
ABD İngilizcesi için metin normalleştirmesi
Metin normalleştirme, sözcüklerin modeli eğitirken kullanılan tutarlı bir biçime dönüştürülmesidir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır, ancak insan etiketli transkripsiyon verilerinizi hazırlarken bu yönergeleri kullanmanızı öneririz:
- Kısaltmaları sözcüklerle yazın.
- Standart olmayan sayısal dizeleri sözcüklerle (muhasebe terimleri gibi) yazın.
- Nonalphabetic karakterlerin veya karma alfasayısal karakterlerin okunduğu şekilde dökümü alınmalıdır.
- Sözcük olarak telaffuz edilen kısaltmalar ("radar", "lazer", "RAM" veya "NATO" gibi) düzenlenmemelidir.
- Her harfi boşlukla ayırarak ayrı harfler olarak telaffuz edilen kısaltmaları yazın.
- Ses kullanıyorsanız, sayıları sesle eşleşen sözcükler olarak yazın (örneğin, "101" "bir oh bir" veya "yüz bir" olarak telaffuz edilebilir).
- Karakterleri, sözcükleri veya sözcük gruplarını "evet evet evet evet" gibi üç kereden fazla yinelemekten kaçının. Konuşma hizmeti böyle bir yineleme içeren satırları bırakabilir.
Transkripsiyonda gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:
Özgün metin | Normalleştirmeden sonraki metin (insan) |
---|---|
Dr. Bruce Banner | Doktor Bruce Banner |
James Bond, 007 | James Bond, çift oh yedi |
Ke$ha | Kesha |
2x4 ne kadardır? | İkiye dört ne kadar süre |
Toplantı 1-3 arası | Toplantı bir ile 15:00 arasında |
Kan grubum O+ | Kan grubum O pozitif |
Su H20 | Su H 2 O |
Play OU812 by Van Halen | Play O U 8 1 2 by Van Halen |
BOM ile UTF-8 | BOM ile U T F 8 |
Maliyeti 3,14 ABD dolarıdır | Maliyeti 144. |
Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:
- Küçük harfler kullanın.
- Sözcüklerdeki kesme işaretleri dışında tüm noktalama işaretlerini kaldırın.
- Sayıları dolar tutarları gibi sözcüklere/konuşulan biçime genişletin.
Transkripsiyonda otomatik olarak gerçekleştirilen normalleştirmenin birkaç örneği aşağıda verilmiştir:
Özgün metin | Normalleştirmeden sonraki metin (otomatik) |
---|---|
"Kutsal!" dedi Batman. | kutsal batman dedi |
"Ne?" dedi Batman'in yardımcısı Robin. | batman'in yardımcı robin'i ne dedi |
Git onları al! | git al |
Çifte eklemlendim. | Çifte eklemlendim |
104 Elm Caddesi | bir oh dört Elm caddesi |
102.7'ye ayarlama | bir oh iki nokta yediye ayarlama |
Pi yaklaşık 3.14 | pi yaklaşık üç nokta bir dört |
de-DE
Almanca ses için insan etiketli transkripsiyonlar utf-8 bayt sırası işaretçisi ile kodlanmış olmalıdır.
Almanca için metin normalleştirmesi
Metin normalleştirme, sözcüklerin modeli eğitirken kullanılan tutarlı bir biçime dönüştürülmesidir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır, ancak insan etiketli transkripsiyon verilerinizi hazırlarken bu yönergeleri kullanmanızı öneririz:
- Ondalık noktaları "." olarak değil", "" olarak yazın.
- Zaman ayırıcılarını ":" olarak yazma ve "". (örneğin: 12:00 Uhr).
- "ca" gibi kısaltmalar değiştirilmez. Tam uçlu formu kullanmanızı öneririz.
- Dört ana matematik işleci (+, -, *ve /) kaldırılır. Bunları yazılı formla değiştirmenizi öneririz: "artı", "eksi", "mal" ve "geteilt."
- Karşılaştırma işleçleri kaldırılır (=, <ve >). Bunları "gleich", "kleiner als" ve "grösser als" ile değiştirmenizi öneririz.
- 3/4 gibi kesirleri yazılı biçimde yazın (örneğin: 3/4 yerine "drei viertel").
- "€" simgesini yazılı "Euro" formuyla değiştirin.
Transkripsiyonda gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:
Özgün metin | Kullanıcı normalleştirmeden sonraki metin | Sistem normalleştirmeden sonraki metin |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 artı 3 eksi 4 | zwei artı drei eksi vier |
Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:
- Tüm metinler için küçük harfler kullanın.
- Çeşitli tırnak işaretleri de dahil olmak üzere tüm noktalama işaretlerini kaldırın ("test", 'test', "test" ve «test» tamamdır).
- Bu kümeden özel karakterler içeren satırları at: ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² μ × ÿ ج¬.
- Sayıları dolar veya Euro tutarları dahil olmak üzere konuşulan forma genişletin.
- Umlautları yalnızca a, o ve sen için kabul et. Diğerleri "th" ile değiştirilir veya atılır.
Transkripsiyonda otomatik olarak gerçekleştirilen normalleştirmenin birkaç örneği aşağıda verilmiştir:
Özgün metin | Normalleştirmeden sonraki metin |
---|---|
Frankfurter Ring | frankfurter halkası |
"Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
Japonca (ja-JP) dilinde her cümle için en fazla 90 karakter uzunluğundadır. Daha uzun cümleleri olan satırlar atılır. Daha uzun metin eklemek için arasına nokta ekleyin.
zh-CN
Mandarin Çincesi ses için insan etiketli transkripsiyonlar utf-8 bayt sırası işaretçisi ile kodlanmış olmalıdır. Yarım genişlikli noktalama işaretleri kullanmaktan kaçının. Bu karakterler, verileri bir sözcük işleme programına hazırladığınızda veya web sayfalarından verileri kazıdığınızda yanlışlıkla eklenebilir. Bu karakterler varsa, bunları uygun tam genişlikli değiştirmeyle güncelleştirin.
İşte birkaç örnek:
Kaçınılması gereken karakterler | Değiştirme | Notlar |
---|---|---|
"你好" | "你好" | Açma ve kapatma tırnak işaretlerinin yerine uygun karakterler kullanılır. |
需要什么帮助? | 需要什么帮助? | Soru işareti, uygun karakterle değiştirilir. |
Mandarin Çincesi için metin normalleştirme
Metin normalleştirme, sözcüklerin modeli eğitirken kullanılan tutarlı bir biçime dönüştürülmesidir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır, ancak insan etiketli transkripsiyon verilerinizi hazırlarken bu yönergeleri kullanmanızı öneririz:
- Kısaltmaları sözcüklerle yazın.
- Sayısal dizeleri konuşulan biçimde yazın.
Transkripsiyonda gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:
Özgün metin | Normalleştirmeden sonraki metin |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:
- Tüm noktalama işaretlerini kaldırın.
- Sayıları konuşulan forma genişletin.
- Tam genişlikli harfleri yarım genişlikli harflere dönüştürün.
- Tüm İngilizce sözcükler için büyük harfler kullanma.
Aşağıda, otomatik transkripsiyon normalleştirmesinin bazı örnekleri verilmiştir:
Özgün metin | Normalleştirmeden sonraki metin |
---|---|
3.1415 | 三 点 一 四 一 五 |
¥ 3,5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |