Özel sinir sesi için eğitim verileri

Makale
01/22/2024

Uygulamanız için özel bir Metin okuma sesi oluşturmaya hazır olduğunuzda, ilk adım ses modelini eğitmeye başlamak için ses kayıtlarını ve ilişkili betikleri toplamaktır. Konuşma hizmeti, kayıtlardaki sesle eşleşecek şekilde ayarlanmış benzersiz bir ses oluşturmak için bu verileri kullanır. Sesi eğittikten sonra uygulamalarınızda konuşmayı sentezlemeye başlayabilirsiniz.

İpucu

Üretim kullanımı için ses oluşturmak için profesyonel bir kayıt stüdyosu ve ses yeteneği kullanmanızı öneririz. Daha fazla bilgi için bkz . Özel bir sinir sesi oluşturmak için ses örneklerini kaydetme.

Eğitim verileri türleri

Ses eğitimi veri kümesi, ses kayıtlarını ve ilişkili transkripsiyonları içeren bir metin dosyası içerir. Her ses dosyası tek bir konuşma (bir iletişim kutusu sistemi için tek bir cümle veya tek dönüş) içermeli ve 15 saniyeden kısa olmalıdır.

Bazı durumlarda doğru veri kümesi hazır olmayabilir. Özel nöral ses eğitimini kullanılabilir ses dosyalarıyla (kısa veya uzun) transkriptlerle veya transkriptler olmadan test edebilirsiniz.

Bu tabloda veri türleri ve her birinin özel metin okuma ses modeli oluşturmak için nasıl kullanıldığı listelenmiştir.

Veri türü	Açıklama	ne zaman kullanılmalı	Ek işlem gerekiyor
Tek tek konuşmalar + eşleşen transkript	Tek tek konuşmalar olarak ses dosyalarının (.wav) koleksiyonu (.zip). Her ses dosyasının uzunluğu 15 saniye veya daha kısa olmalıdır ve biçimlendirilmiş bir transkript (.txt) ile eşlenmelidir.	Eşleşen transkriptler içeren profesyonel kayıtlar	Eğitim için hazır.
Uzun ses + transkript	Uzun, ayrıştırılmamış ses dosyalarının (.wav veya .mp3, 20 saniyeden uzun, en fazla 1000 ses dosyası) koleksiyonu (.zip), tüm söylenen sözcükleri içeren transkriptleri içeren bir koleksiyon (.zip) ile eşleştirilir.	Ses dosyalarınız ve eşleşen transkriptleriniz var, ancak bunlar konuşmalara bölünemez.	Segmentasyon (toplu transkripsiyon kullanarak). Gerektiğinde ses biçimi dönüştürme.
Yalnızca ses (Önizleme)	Transkript içermeyen ses dosyalarının (.wav veya .mp3, en fazla 1000 ses dosyası) koleksiyonu (.zip).	Transkriptler olmadan yalnızca ses dosyalarınız kullanılabilir.	Segmentasyon + transkript oluşturma (toplu transkripsiyon kullanarak). Gerektiğinde ses biçimi dönüştürme.

Dosyalar türe göre bir veri kümesinde gruplandırılmalı ve zip dosyası olarak karşıya yüklenmelidir. Her veri kümesi yalnızca tek bir veri türü içerebilir.

Not

Abonelik başına içeri aktarılmasına izin verilen en fazla veri kümesi sayısı, standart abonelik (S0) kullanıcıları için 500 zip dosyasıdır.

Tek tek konuşmalar + eşleşen transkript

Tek tek konuşmaların kayıtlarını ve eşleşen transkripti iki şekilde hazırlayabilirsiniz. Bir betik yazıp bir ses yeteneği tarafından okunmasını sağlayın ya da herkese açık ses kullanıp metne dönüştürerek yazın. İkincisini yaparsanız, ses dosyalarındaki "um" ve diğer dolgu sesleri, kekelemeler, mırıldanmış sözcükler veya yanlış telaffuzlar gibi uyumsuzlukları düzenleyin.

İyi bir ses modeli oluşturmak için kayıtları yüksek kaliteli mikrofonlu sessiz bir odada oluşturun. Tutarlı ses düzeyi, konuşma hızı, konuşma perdesi ve ifade edici konuşma davranışları önemlidir.

Veri biçimi örnekleri için GitHub'da örnek eğitim kümesine bakın. Örnek eğitim kümesi örnek betiği ve ilişkili sesi içerir.

Tek tek konuşmalar ve eşleşen transkript için ses verileri

Her ses dosyası, 15 saniyeden kısa bir süre boyunca tek bir konuşma (tek bir cümle veya bir iletişim kutusunun tek dönüşü) içermelidir. Tüm dosyalar aynı konuşulan dilde olmalıdır. Çok dilli özel Konuşmayı metne dönüştürme sesleri, Çince-İngilizce çift dilli hariç desteklenmez. Her ses dosyasının dosya adı uzantısı .wav benzersiz bir dosya adı olmalıdır.

Ses hazırlarken bu yönergeleri izleyin.

Özellik	Değer
Dosya biçimi	RIFF (.wav), .zip dosyası halinde gruplandırılır
Dosya adı	.wav uzantılı Windows işletim sistemi tarafından desteklenen dosya adı karakterleri. Karakterlere `\ / : * ? " < > \\|` izin verilmez. Boşlukla başlayamaz veya bitemez ve noktayla başlayamaz. Yinelenen dosya adlara izin verilmez.
Örnekleme oranı	Özel bir sinir sesi oluşturduğunuzda 24.000 Hz gerekir.
Örnek biçimi	PCM, en az 16 bit
Ses uzunluğu	15 saniyeden kısa
Arşiv biçimi	.zip
En büyük arşiv boyutu	2048 MB

Not

Özel sinir sesi için varsayılan örnekleme hızı 24.000 Hz'dir. Örnekleme hızı 16.000 Hz'den düşük olan ses dosyaları reddedilir. .zip dosyası farklı örnek hızlarına sahip .wav dosya içeriyorsa, yalnızca 16.000 Hz'e eşit veya daha yüksek olanlar içeri aktarılır. Örnekleme hızı 16.000 Hz'den yüksek ve 24.000 Hz'den düşük olan ses dosyalarınız, sinir sesini eğitmek için 24.000 Hz'e kadar örneklenir. Eğitim verileriniz için 24.000 Hz örnek hızı kullanmanız önerilir.

Tek tek konuşmalar ve eşleşen transkript için transkripsiyon verileri

Transkripsiyon dosyası düz metin dosyasıdır. Transkripsiyonlarınızı hazırlamak için bu yönergeleri kullanın.

Özellik	Değer
Dosya biçimi	Düz metin (.txt)
Kodlama biçimi	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE veya UTF-16-BE. zh-CN için ANSI ve ASCII kodlaması desteklenmez.
Satır başına konuşma sayısı	Bir - Transkripsiyon dosyasının her satırı, ses dosyalarından birinin adını ve ardından ilgili transkripsiyonu içermelidir. Dosya adını ve transkripsiyonu ayırmak için bir sekme (\t) kullanmanız gerekir.
En büyük dosya boyutu	2048 MB

Aşağıda, transkriptlerin tek bir .txt dosyasında konuşmalara göre nasıl düzenlediğine ilişkin bir örnek verilmiştir:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Transkriptlerin ilgili sesin %100 doğru transkripsiyonları olması önemlidir. Transkriptlerdeki hatalar eğitim sırasında kalite kaybına neden oldu.

Uzun ses + transkript (Önizleme)

Not

Uzun ses + transkript (Önizleme) için yalnızca şu diller desteklenir: Çince (Mandarin, Basitleştirilmiş), İngilizce (Hindistan), İngilizce (Birleşik Krallık), İngilizce (Birleşik Devletler), Fransızca (Fransa), Almanca (Almanya), İtalyanca (İtalya), Japonca (Japonya), Portekizce (Brezilya) ve İspanyolca (Meksika).

Bazı durumlarda, sesi segmentlere ayırmamış olabilirsiniz. Speech Studio, uzun ses dosyalarını segmentlere ayırmanıza ve transkripsiyonlar oluşturmanıza yardımcı olabilir. Uzun ses segmentasyonu hizmeti, konuşmayı metne dönüştürmenin Batch Transkripsiyon API'sini kullanır.

Segmentasyonun işlenmesi sırasında ses dosyalarınız ve transkriptler de tanıma modelini geliştirmek üzere özel konuşma hizmetine gönderilir ve böylece verileriniz için doğruluk artırılabilir. Bu işlem sırasında hiçbir veri saklanmaz. Segmentasyon tamamlandıktan sonra, indirme ve eğitim için yalnızca segmentlere ayrılmış konuşmalar ve bunların eşleme transkriptleri depolanır.

Not

Bu hizmet, konuşmayı metne dönüştürme aboneliği kullanımınız için ücretlendirilir. Uzun ses segmentasyonu hizmeti yalnızca standart (S0) Konuşma kaynaklarıyla desteklenir.

Uzun ses + transkript için ses verileri

Segmentlere ayırma için ses hazırlarken bu yönergeleri izleyin.

Özellik	Değer
Dosya biçimi	RIFF (.wav) veya .mp3, .zip dosyası halinde gruplandırılmış
Dosya adı	.wav uzantılı Windows işletim sistemi tarafından desteklenen dosya adı karakterleri. Karakterlere `\ / : * ? " < > \\|` izin verilmez. Boşlukla başlayamaz veya bitemez ve noktayla başlayamaz. Yinelenen dosya adlara izin verilmez.
Örnekleme oranı	Özel bir sinir sesi oluşturduğunuzda 24.000 Hz gerekir.
Örnek biçimi	RIFF(.wav): PCM, en az 16 bit. mp3: En az 256 KBps bit hızı.
Ses uzunluğu	20 saniyeden uzun
Arşiv biçimi	.zip
En büyük arşiv boyutu	2048 MB, en fazla 1000 ses dosyası dahildir

Not

Özel sinir sesi için varsayılan örnekleme hızı 24.000 Hz'dir. Örnekleme hızı 16.000 Hz'den düşük olan ses dosyaları reddedilir. Örnekleme hızı 16.000 Hz'den yüksek ve 24.000 Hz'den düşük olan ses dosyalarınız, sinir sesini eğitmek için 24.000 Hz'e kadar örneklenir. Eğitim verileriniz için 24.000 Hz örnek hızı kullanmanız önerilir.

Tüm ses dosyaları bir zip dosyası halinde gruplandırılmalıdır. .wav dosyaları ve .mp3 dosyaları aynı zip dosyasına koymak normaldir. Örneğin, 'kingstory.wav' adlı 45 saniyelik bir ses dosyasını ve 'queenstory.mp3' adlı 200 saniyelik bir ses dosyasını aynı zip dosyasına yükleyebilirsiniz. tüm .mp3 dosyaları işlendikten sonra .wav biçimine dönüştürülür.

Uzun ses ve transkript için transkripsiyon verileri

Transkriptler bu tabloda listelenen belirtimlere hazır olmalıdır. Her ses dosyası bir transkriptle eşleştirilmelidir.

Özellik	Değer
Dosya biçimi	Düz metin (.txt), .zip
Dosya adı	Eşleşen ses dosyasıyla aynı adı kullanın
Kodlama biçimi	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE veya UTF-16-BE. zh-CN için ANSI ve ASCII kodlaması desteklenmez.
Satır başına konuşma sayısı	Sınırsız
En büyük dosya boyutu	2048 MB

Bu veri türündeki tüm transkript dosyaları bir zip dosyasında gruplandırılmalıdır. Örneğin, aynı zip dosyasına 'kingstory.wav' adlı 45 saniyelik bir ses dosyası ve 'queenstory.mp3' adlı 200 saniyelik bir ses dosyası yükleyebilirsiniz. Biri 'kingstory.txt' ve diğeri 'queenstory.txt' adlı olmak üzere ilgili iki transkripti içeren başka bir zip dosyasını karşıya yüklemeniz gerekir. Her düz metin dosyasında eşleşen ses için tam doğru transkripsiyonu sağlarsınız.

Veri kümeniz başarıyla karşıya yüklendikten sonra, ses dosyasını sağlanan transkript temelinde konuşmalar halinde segmentlere ayırmanıza yardımcı olacağız. Veri kümesini indirerek segmentlere ayrılmış konuşmaları ve eşleşen transkriptleri de kontrol edebilirsiniz. Benzersiz kimlikler, kesimli ifadelere otomatik olarak atanır. Sağladığınız transkriptlerin %100 doğru olduğundan emin olmanız önemlidir. Transkriptlerdeki hatalar, ses segmentasyonu sırasında doğruluğu azaltabilir ve daha sonra gelecek eğitim aşamasında kalite kaybına neden olabilir.

Yalnızca ses (Önizleme)

Not

Yalnızca Ses (Önizleme) için yalnızca şu diller desteklenir: Çince (Mandarin, Basitleştirilmiş), İngilizce (Hindistan), İngilizce (Birleşik Krallık), İngilizce (Birleşik Devletler), Fransızca (Fransa), Almanca (Almanya), İtalyanca (İtalya), Japonca (Japonya), Portekizce (Brezilya) ve İspanyolca (Meksika).

Ses kayıtlarınızın transkripsiyonları yoksa verilerinizi karşıya yüklemek için Yalnızca Ses seçeneğini kullanın. Sistemimiz ses dosyalarınızı segmentlere ayırmanıza ve dökümünü oluşturmanıza yardımcı olabilir. Bu hizmetin konuşmayı metne dönüştürme aboneliği kullanımınız için ücretlendiriltiğini unutmayın.

Ses hazırlarken bu yönergeleri izleyin.

Not

Uzun ses segmentasyonu hizmeti, yalnızca standart abonelik (S0) kullanıcılarını destekleyen konuşmayı metne dönüştürme işleminin toplu transkripsiyon özelliğinden yararlanacaktır.

Özellik	Değer
Dosya biçimi	RIFF (.wav) veya .mp3, .zip dosyası halinde gruplandırılmış
Dosya adı	.wav uzantılı Windows işletim sistemi tarafından desteklenen dosya adı karakterleri. Karakterlere `\ / : * ? " < > \\|` izin verilmez. Boşlukla başlayamaz veya bitemez ve noktayla başlayamaz. Yinelenen dosya adlara izin verilmez.
Örnekleme oranı	Özel bir sinir sesi oluşturduğunuzda 24.000 Hz gerekir.
Örnek biçimi	RIFF(.wav): PCM, en az 16 bit mp3: En az 256 KBps bit hızı.
Ses uzunluğu	Sınırsız
Arşiv biçimi	.zip
En büyük arşiv boyutu	2048 MB, en fazla 1000 ses dosyası dahildir

Not

Özel sinir sesi için varsayılan örnekleme hızı 24.000 Hz'dir. Örnekleme hızı 16.000 Hz'den yüksek ve 24.000 Hz'den düşük olan ses dosyalarınız, sinir sesini eğitmek için 24.000 Hz'e kadar örneklenir. Eğitim verileriniz için 24.000 Hz örnek hızı kullanmanız önerilir.

Tüm ses dosyaları bir zip dosyası halinde gruplandırılmalıdır. Veri kümeniz başarıyla karşıya yüklendikten sonra Konuşma hizmeti, konuşma toplu transkripsiyon hizmetimize göre ses dosyasını konuşmalar halinde segmentlere ayırmanıza yardımcı olur. Benzersiz kimlikler, kesimli ifadelere otomatik olarak atanır. Eşleşen transkriptler konuşma tanıma aracılığıyla oluşturulur. tüm .mp3 dosyaları işlendikten sonra .wav biçimine dönüştürülür. Veri kümesini indirerek segmentlere ayrılmış konuşmaları ve eşleşen transkriptleri de kontrol edebilirsiniz.

Özel sinir sesi için eğitim verileri

Eğitim verileri türleri

Tek tek konuşmalar + eşleşen transkript

Tek tek konuşmalar ve eşleşen transkript için ses verileri

Tek tek konuşmalar ve eşleşen transkript için transkripsiyon verileri

Uzun ses + transkript (Önizleme)

Uzun ses + transkript için ses verileri

Uzun ses ve transkript için transkripsiyon verileri

Yalnızca ses (Önizleme)

Sonraki adımlar

Ek kaynaklar