Aracılığıyla paylaş


İnsan etiketli transkripsiyonlar oluşturma

İnsan etiketli transkripsiyonlar, bir ses dosyasının tek tek transkripsiyonlarıdır. Özellikle sözcükler silindiğinde veya yanlış değiştirildiğinde model doğruluğunu değerlendirmek ve tanıma doğruluğunu geliştirmek için insan etiketli transkripsiyonlar kullanırsınız. Bu kılavuz, yüksek kaliteli transkripsiyonlar oluşturmanıza yardımcı olabilir.

Model doğruluğunu değerlendirmek için transkripsiyon verilerinin temsili bir örneği önerilir. Veriler, kullanıcıların uygulamaya söylediklerini temsil eden çeşitli konuşmacıları ve konuşmaları kapsamalıdır. Test verileri için her bir ses dosyasının maksimum süresi 2 saattir.

Tanımayı geliştirmek için büyük bir transkripsiyon verileri örneği gereklidir. 1 ile 100 saat arasında ses verileri sağlamanızı öneririz. Konuşma tanıma hizmeti, eğitim için 100 saate kadar ses kullanır (eğitim için ücret ödemeyen eski modeller için 20 saate kadar). Her ses dosyası 40 saniyeden uzun olmamalıdır (Fısıltı özelleştirmesi için 30 saniyeye kadar).

Bu kılavuzda ABD İngilizcesi, Mandarin Çincesi ve Almanca yerel ayarlar için bölümler bulunur.

Tüm WAV dosyalarının transkripsiyonları tek bir düz metin dosyasında (.txt veya .tsv) bulunur. Transkripsiyon dosyasının her satırı, ses dosyalarından birinin adını ve ardından ilgili transkripsiyonu içerir. Dosya adı ve transkripsiyon bir sekme (\t) ile ayrılır.

Örneğin:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Transkripsiyonlar, sistemin bunları işleyebilmesi için metin normalleştirilmiştir. Ancak, veri kümesini karşıya yüklemeden önce bazı önemli normalleştirmeler yapmanız gerekir.

İngilizce ve Mandarin Çincesi dışındaki diller için insan etiketli transkripsiyonlar, bayt sırası işaretçisi ile kodlanmış UTF-8 olmalıdır. Diğer yerel ayarlar transkripsiyon gereksinimleri için aşağıdaki bölümlere bakın.

en-US

İngilizce ses için insan etiketli transkripsiyonlar yalnızca ASCII karakterleri kullanılarak düz metin olarak sağlanmalıdır. Latin-1 veya Unicode noktalama karakterleri kullanmaktan kaçının. Bu karakterler genellikle bir sözcük işleme uygulamasından metin kopyalarken veya web sayfalarından veri kazırken yanlışlıkla eklenir. Bu karakterler varsa, bunları uygun ASCII değiştirmesiyle güncelleştirin.

İşte birkaç örnek:

Kaçınılması gereken karakterler Değiştirme Notlar
“Merhaba dünya” “Merhaba dünya” Açma ve kapatma tırnak işaretlerinin yerine uygun ASCII karakterleri kullanılır.
John günü John günü Kesme işareti, uygun ASCII karakteriyle değiştirilir.
İyiydi, hayır, harikaydı! İyiydi, hayır, harikaydı! Uzun tire iki kısa çizgiyle değiştirilir.

ABD İngilizcesi için metin normalleştirmesi

Metin normalleştirme, sözcüklerin modeli eğitirken kullanılan tutarlı bir biçime dönüştürülmesidir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır, ancak insan etiketli transkripsiyon verilerinizi hazırlarken bu yönergeleri kullanmanızı öneririz:

 • Kısaltmaları sözcüklerle yazın.
 • Standart olmayan sayısal dizeleri sözcüklerle (muhasebe terimleri gibi) yazın.
 • Nonalphabetic karakterlerin veya karma alfasayısal karakterlerin okunduğu şekilde dökümü alınmalıdır.
 • Sözcük olarak telaffuz edilen kısaltmalar ("radar", "lazer", "RAM" veya "NATO" gibi) düzenlenmemelidir.
 • Her harfi boşlukla ayırarak ayrı harfler olarak telaffuz edilen kısaltmaları yazın.
 • Ses kullanıyorsanız, sayıları sesle eşleşen sözcükler olarak yazın (örneğin, "101" "bir oh bir" veya "yüz bir" olarak telaffuz edilebilir).
 • Karakterleri, sözcükleri veya sözcük gruplarını "evet evet evet evet" gibi üç kereden fazla yinelemekten kaçının. Konuşma hizmeti böyle bir yineleme içeren satırları bırakabilir.

Transkripsiyonda gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:

Özgün metin Normalleştirmeden sonraki metin (insan)
Dr. Bruce Banner Doktor Bruce Banner
James Bond, 007 James Bond, çift oh yedi
Ke$ha Kesha
2x4 ne kadardır? İkiye dört ne kadar süre
Toplantı 1-3 arası Toplantı bir ile 15:00 arasında
Kan grubum O+ Kan grubum O pozitif
Su H20 Su H 2 O
Play OU812 by Van Halen Play O U 8 1 2 by Van Halen
BOM ile UTF-8 BOM ile U T F 8
Maliyeti 3,14 ABD dolarıdır Maliyeti 144.

Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:

 • Küçük harfler kullanın.
 • Sözcüklerdeki kesme işaretleri dışında tüm noktalama işaretlerini kaldırın.
 • Sayıları dolar tutarları gibi sözcüklere/konuşulan biçime genişletin.

Transkripsiyonda otomatik olarak gerçekleştirilen normalleştirmenin birkaç örneği aşağıda verilmiştir:

Özgün metin Normalleştirmeden sonraki metin (otomatik)
"Kutsal!" dedi Batman. kutsal batman dedi
"Ne?" dedi Batman'in yardımcısı Robin. batman'in yardımcı robin'i ne dedi
Git onları al! git al
Çifte eklemlendim. Çifte eklemlendim
104 Elm Caddesi bir oh dört Elm caddesi
102.7'ye ayarlama bir oh iki nokta yediye ayarlama
Pi yaklaşık 3.14 pi yaklaşık üç nokta bir dört

de-DE

Almanca ses için insan etiketli transkripsiyonlar utf-8 bayt sırası işaretçisi ile kodlanmış olmalıdır.

Almanca için metin normalleştirmesi

Metin normalleştirme, sözcüklerin modeli eğitirken kullanılan tutarlı bir biçime dönüştürülmesidir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır, ancak insan etiketli transkripsiyon verilerinizi hazırlarken bu yönergeleri kullanmanızı öneririz:

 • Ondalık noktaları "." olarak değil", "" olarak yazın.
 • Zaman ayırıcılarını ":" olarak yazma ve "". (örneğin: 12:00 Uhr).
 • "ca" gibi kısaltmalar değiştirilmez. Tam uçlu formu kullanmanızı öneririz.
 • Dört ana matematik işleci (+, -, *ve /) kaldırılır. Bunları yazılı formla değiştirmenizi öneririz: "artı", "eksi", "mal" ve "geteilt."
 • Karşılaştırma işleçleri kaldırılır (=, <ve >). Bunları "gleich", "kleiner als" ve "grösser als" ile değiştirmenizi öneririz.
 • 3/4 gibi kesirleri yazılı biçimde yazın (örneğin: 3/4 yerine "drei viertel").
 • "€" simgesini yazılı "Euro" formuyla değiştirin.

Transkripsiyonda gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:

Özgün metin Kullanıcı normalleştirmeden sonraki metin Sistem normalleştirmeden sonraki metin
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr drei und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 artı 3 eksi 4 zwei artı drei eksi vier

Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:

 • Tüm metinler için küçük harfler kullanın.
 • Çeşitli tırnak işaretleri de dahil olmak üzere tüm noktalama işaretlerini kaldırın ("test", 'test', "test" ve «test» tamamdır).
 • Bu kümeden özel karakterler içeren satırları at: ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² μ × ÿ ج¬.
 • Sayıları dolar veya Euro tutarları dahil olmak üzere konuşulan forma genişletin.
 • Umlautları yalnızca a, o ve sen için kabul et. Diğerleri "th" ile değiştirilir veya atılır.

Transkripsiyonda otomatik olarak gerçekleştirilen normalleştirmenin birkaç örneği aşağıda verilmiştir:

Özgün metin Normalleştirmeden sonraki metin
Frankfurter Ring frankfurter halkası
"Eine Frage! eine frage
Wir, haben wir haben

ja-JP

Japonca (ja-JP) dilinde her cümle için en fazla 90 karakter uzunluğundadır. Daha uzun cümleleri olan satırlar atılır. Daha uzun metin eklemek için arasına nokta ekleyin.

zh-CN

Mandarin Çincesi ses için insan etiketli transkripsiyonlar utf-8 bayt sırası işaretçisi ile kodlanmış olmalıdır. Yarım genişlikli noktalama işaretleri kullanmaktan kaçının. Bu karakterler, verileri bir sözcük işleme programına hazırladığınızda veya web sayfalarından verileri kazıdığınızda yanlışlıkla eklenebilir. Bu karakterler varsa, bunları uygun tam genişlikli değiştirmeyle güncelleştirin.

İşte birkaç örnek:

Kaçınılması gereken karakterler Değiştirme Notlar
"你好" "你好" Açma ve kapatma tırnak işaretlerinin yerine uygun karakterler kullanılır.
需要什么帮助? 需要什么帮助? Soru işareti, uygun karakterle değiştirilir.

Mandarin Çincesi için metin normalleştirme

Metin normalleştirme, sözcüklerin modeli eğitirken kullanılan tutarlı bir biçime dönüştürülmesidir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır, ancak insan etiketli transkripsiyon verilerinizi hazırlarken bu yönergeleri kullanmanızı öneririz:

 • Kısaltmaları sözcüklerle yazın.
 • Sayısal dizeleri konuşulan biçimde yazın.

Transkripsiyonda gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:

Özgün metin Normalleştirmeden sonraki metin
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:

 • Tüm noktalama işaretlerini kaldırın.
 • Sayıları konuşulan forma genişletin.
 • Tam genişlikli harfleri yarım genişlikli harflere dönüştürün.
 • Tüm İngilizce sözcükler için büyük harfler kullanma.

Aşağıda, otomatik transkripsiyon normalleştirmesinin bazı örnekleri verilmiştir:

Özgün metin Normalleştirmeden sonraki metin
3.1415 三 点 一 四 一 五
¥ 3,5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

Sonraki Adımlar