Özel nöral ses için ses örneklerini kaydetme

Bu makale, özel sinir sesi Pro projesini kullanarak profesyonel bir ses modeli oluşturmak için yüksek kaliteli ses örnekleri hazırlama yönergeleri sağlar.

Sıfırdan yüksek kaliteli bir üretim özel sinir sesi oluşturmak sıradan bir girişim değildir. Özel bir sinir sesinin merkezi bileşeni, insan konuşmalarının ses örneklerinin büyük bir koleksiyonudur. Bu ses kayıtlarının yüksek kalitede olması çok önemlidir. Bu tür kayıtları yapma deneyimine sahip bir ses yeteneği seçin ve profesyonel ekipman kullanarak bir kayıt mühendisi tarafından kaydedilmesini sağlayın.

Ancak bu kayıtları yapabilmeniz için bir betik gerekir: Sözcükler ses örneklerini oluşturmak için ses yeteneğiniz tarafından konuşulur.

Birçok küçük ama önemli ayrıntı profesyonel bir ses kaydı oluşturmaya gider. Bu kılavuz, iyi ve tutarlı sonuçlar almanıza yardımcı olacak bir sürecin yol haritasıdır.

Yüksek kaliteli bir ses için veri hazırlamaya yönelik İpuçları

Son derece doğal bir özel sinir sesi, eğitim verilerinizin kalitesi ve boyutu gibi çeşitli faktörlere bağlıdır.

Eğitim verilerinizin kalitesi birincil faktördür. Örneğin, aynı eğitim kümesinde yüksek kaliteli özel sinir sesi oluşturmak için tutarlı ses düzeyi, konuşma hızı, konuşma perdesi ve konuşma stili temel öneme sahip. Ayrıca kayıtta arka plan gürültüsünden kaçınmalı ve betik ile kaydın eşleştiğinden emin olmalısınız. Verilerinizin kalitesinden emin olmak için betik seçimi ölçütlerine ve kayıt gereksinimlerine uymanız gerekir.

Eğitim verilerinin boyutuyla ilgili olarak, çoğu durumda 500 konuşma ile makul bir özel sinir sesi oluşturabilirsiniz. Testlerimize göre, çoğu dilde daha fazla eğitim verisi eklemek sesin doğallığını geliştirmek zorunda değildir (MOS puanı kullanılarak test edilmiştir), ancak daha fazla sözcük örneğini kapsayan daha fazla eğitim verisiyle, ses için yetersiz konuşma bölümlerinin oranını azaltma olasılığınız daha yüksektir, örneğin aksaklıklar. Konuşmanın yetersiz bölümlerinin nasıl göründüğünü duymak için GitHub örneklerine bakın.

Bazı durumlarda, benzersiz özelliklere sahip bir ses kişisi isteyebilirsiniz. Örneğin, çizgi film kişisinin özel konuşma stiline sahip bir sese veya tonlamada dinamik bir sese ihtiyacı vardır. Bu gibi durumlarda en az 1000 (tercihen 2000) konuşma hazırlamanızı ve bunları profesyonel bir kayıt stüdyosunda kaydetmenizi öneririz. Ses modelinizin kalitesini artırma hakkında daha fazla bilgi edinmek için bkz . Özel sinir sesi kullanma özellikleri ve sınırlamaları.

Ses kayıt rolleri

Özel nöral ses kaydı projesinde dört temel rol vardır:

Role Purpose
Ses yeteneği Bu kişinin sesi özel sinir sesinin temelini oluşturur.
Kayıt mühendisi Kaydın teknik yönlerini denetler ve kayıt ekipmanını çalıştırır.
Yönetmen Senaryoyu hazırlar ve ses yeteneğinin performansına koçluk eder.
Düzenleyici Ses dosyalarını son haline getirerek Speech Studio'ya yüklemeye hazırlar

Bir kişi birden fazla rol doldurabilir. Bu kılavuzda, yönetmen rolünü doldurduğunuz ve hem ses yeteneğini hem de kayıt mühendisini işe aldığınız varsayılır. Kayıtları kendiniz yapmak istiyorsanız, bu makale kayıt mühendisi rolü hakkında bazı bilgiler içerir. Düzenleyici rolü, kayıt oturumundan sonraya kadar gerekli değildir. Bu arada, yönetmen veya kayıt mühendisi bu rolü doldurabilir.

Ses yeteneğinizi seçin

Seslendirme, ses karakteri çalışması, duyuru veya haber okuma deneyimi olan oyuncular iyi bir ses yeteneğine sahip olur. Doğal sesini beğendiğiniz ses yeteneğini seçin. Benzersiz "karakter" sesleri oluşturmak mümkündür, ancak çoğu yeteneğin bunları tutarlı bir şekilde gerçekleştirmesi daha zordur ve bu çaba ses yorgunluğuna neden olabilir. Ses yeteneğini seçmek için en önemli tek faktör tutarlılıktır. Aynı ses stilindeki kayıtlarınız aynı gün aynı odada yapılmış gibi ses çıkarmalıdır. bu ideale iyi kayıt uygulamaları ve mühendislik aracılığıyla yaklaşabilirsiniz.

Ses yeteneğinizin net dikte ile tutarlı hız, ses düzeyi, perde ve ton ile konuşabilmesi gerekir. Ayrıca konuşma varyasyonlarını, duygusal etkilerini ve konuşma tavırlarını da kontrol edebilmeleri gerekir. Ses örneklerini kaydetmek, diğer ses çalışmalarından daha şişman olabilir, bu nedenle çoğu ses yeteneği günde yalnızca iki veya üç saat kayıt yapabilir. Oturumları haftada üç veya dört günle sınırlayın ve mümkünse bir gün izin alın.

Özel sinir sesinin genel sesini ve duygusal tonunu tanımlayan bir kişi geliştirmek için ses yeteneğinizle birlikte çalışın ve bu kişi için "nötr" sözcüğün nasıl göründüğünü tam olarak belirttiğinizden emin olun. Kişinizin konuşma stillerini tanımlar ve ses yeteneğinizden betiği istediğiniz stiller ile yankı bulayacak şekilde okumasını istersiniz.

Örneğin, doğal olarak iyimser bir kişiliğe sahip bir kişi, nötr konuşsa bile iyimserlik notunu taşır. Ancak, bu kişilik özelliği ince ve tutarlı olmalıdır. Neyi hedeflediğiniz hakkında bir fikir edinmek için mevcut seslerden gelen okumaları dinleyin.

İpucu

Genellikle, yaptığınız ses kayıtlarının sahibi olmak istersiniz. Ses yeteneğiniz, proje için kiralanacak bir sözleşmeye uygun olmalıdır.

Betik oluşturma

Herhangi bir özel sinirsel ses kaydı oturumunun başlangıç noktası, ses yeteneğiniz tarafından konuşulacak konuşmaları içeren betiktir. "İfadeler" terimi hem tam cümleleri hem de daha kısa tümcecikleri kapsar. Özel bir sinir sesi oluşturmak için eğitim verileri olarak en az 300 kaydedilmiş konuşma gerekir.

Betiğinizdeki konuşmalar her yerden gelebilir: kurgusal, kurgusal olmayan, konuşmaların transkriptleri, haber raporları ve basılı biçimdeki diğer her şey. Olası yasal sorunlar hakkında kısa bir tartışma için "Yasallıklar" bölümüne bakın. Kendi metninizi de yazabilirsiniz.

Konuşmalarınızın aynı kaynaktan, aynı kaynaktan gelmesi veya birbiriyle bir ilgisi olması gerekmez. Ancak konuşma uygulamanızda küme tümcecikleri (örneğin, "Başarıyla oturum açtınız") kullanıyorsanız bunları betiğinize eklediğinizden emin olun. Özel sinir sesinize bu ifadeleri iyi duyurma şansı verir.

Kayıt betiklerinin hem genel cümleleri hem de etki alanına özgü tümceleri içermesini öneririz. Örneğin, 2.000 cümle kaydetmeyi planlıyorsanız, bunların 1.000'i genel cümleler, diğer 1.000'i ise hedef etki alanınızdan veya uygulamanızın kullanım örneğinden gelen cümleler olabilir.

Kayıt betiklerinizi hazırlamanıza yardımcı olmak için her dil için 'Genel', 'Sohbet' ve 'Müşteri Hizmetleri' etki alanlarında örnek betikler sağlıyoruz. Bu Microsoft paylaşılan betiklerini doğrudan kayıtlarınız için kullanabilir veya kendi kayıtlarınızı oluşturmak için referans olarak kullanabilirsiniz.

Betik seçim ölçütleri

Aşağıda, özel nöral ses eğitimi için iyi bir corpus (kayıtlı ses örnekleri) oluşturmak için izleyebileceğiniz bazı genel yönergeler yer almaktadır.

  • Betiğinizi, etki alanınızdaki deyimler, sorular, ünlemler, uzun cümleler ve kısa cümleler gibi farklı cümle türlerini kapsayacak şekilde dengeleyin.

    Her tümce dört sözcük ile 30 sözcük arasında olmalıdır ve betiğinize yinelenen tümceler eklenmemelidir.
    Farklı tümce türlerini dengelemek için aşağıdaki tabloya bakın:

    Tümce türleri Kapsam
    Deyim cümleleri Deyim cümleleri betiğin %70-80'i olmalıdır.
    Soru cümleleri Soru cümleleri, %5-10'unun yükselmesi ve düşen tonların %5-10'unun dahil olduğu etki alanı betiğinizin yaklaşık %10-20'si olmalıdır.
    Ünlem cümleleri Ünlem cümleleri, betiğinizin yaklaşık %10-%20'sinde olmalıdır.
    Kısa sözcük/tümcecik Kısa sözcük/tümcecik betikleri toplam konuşmaların yaklaşık %10'unun olması ve her durumda 5 ila 7 sözcük olması gerekir.

    Not

    Kısa sözcükler/tümcecikler virgülle ayrılmalıdır. Ses yeteneğinizi okurken kısa bir süre duraklamanızı anımsatmaya yardımcı olur.

    En iyi yöntemler şunlardır:

    • Fiiller, isimler, sıfatlar vb. gibi Konuşma Bölümleri için dengeli kapsam.
    • Söylenişler için dengeli kapsam. A'dan Z'ye tüm harfleri dahil edin, böylece Metin okuma altyapısı her harfi kendi stilinizde nasıl telaffuz etmeyi öğrenir.
    • Konuşmacının okuması için okunabilir, anlaşılır, sağduyunun olduğu betikler.
    • Sözcükler/tümcecikler için "kolay" ve "kolay" gibi çok fazla benzer desen kullanmaktan kaçının.
    • Tüm tümce türlerinde farklı sayı biçimleri ekleyin: adres, birim, telefon, miktar, tarih vb.
    • Özel sinir sesinizin okuyacağı bir şeyse yazım cümleleri ekleyin. Örneğin, "Apple'ın yazım denetimi A P P L E'dir".
  • Birden çok cümleyi tek satıra/tek bir ifadeye koymayın. Her satırı ifadeye göre ayırın.

  • Cümlenin temiz olduğundan emin olun. Genel olarak, okunması zor olduğundan sayı veya kısaltma gibi çok fazla standart olmayan sözcük eklemeyin. Bazı uygulamalar birçok sayının veya kısaltmanın okunmasını gerektirebilir. Bu gibi durumlarda, bu sözcükleri ekleyebilir, ancak konuşulan biçimlerinde normalleştirebilirsiniz.

    Aşağıda, örneğin bazı en iyi yöntemler verilmiştir:

    • "BTW" yerine kısaltma içeren satırlar için "bu arada" yazın.
    • Basamak içeren satırlar için "911" yerine "dokuz bir bir" yazın.
    • Kısaltmaları olan satırlar için "ABC" yerine "A B C" yazın.

    Bununla, ses yeteneğinizin bu sözcükleri beklenen şekilde telaffuzdiğinden emin olun. Eğitim işlemi sırasında betiğinizi ve kayıtlarınızı eşleştirin.

  • Betiğinizde farklı türde cümle uzunlukları, yapıları ve ruh halleri olan birçok farklı sözcük ve cümle bulunmalıdır.

  • Betiği hatalara karşı dikkatli bir şekilde denetleyin. Mümkünse, başka birinin de denetlemesini sağlayın. Ses yeteneğinizle betiğin üzerinden geçtiğinizde daha fazla hata yakalayabilirsiniz.

Ses yeteneği betiği ile eğitim betiği arasındaki fark

Eğitim betiği, özellikle basamaklar, simgeler, kısaltmalar, tarih ve saat içeren betikler için ses yeteneği betiğinden farklı olabilir. Ses yeteneği için hazırlanan betiklerin %50 ve $45 gibi yerel okuma kurallarına uyması gerekir. Eğitim için kullanılan betikler, yüzde elli ve kırk beş dolar gibi ses kaydıyla eşleşecek şekilde normalleştirilmelidir.

Not

GitHub'da ses yeteneği için bazı örnek betikler sunuyoruz. Eğitim için örnek betikleri kullanmak için, dosyayı karşıya yüklemeden önce bunları ses yeteneğinizin kayıtlarına göre normalleştirmeniz gerekir.

Aşağıdaki tabloda ses yeteneği betikleri ile eğitim için normalleştirilmiş betik arasındaki fark gösterilmektedir.

Kategori Ses yeteneği betiği örneği Eğitim betiği örneği (normalleştirilmiş)
Rakamlar 123 yüz yirmi üç
Simgeler %50 yüzde elli
Kısaltma ASAP En Erken
Tarih ve saat 3 Mart saat 17:00'de Mart 17:00'de

Bir betiğin tipik hataları

Betiğin düşük kalitesi eğitim sonuçlarını olumsuz etkileyebilir. Yüksek kaliteli eğitim sonuçları elde etmek için hatalardan kaçınmak çok önemlidir.

Betik hataları genellikle aşağıdaki kategorilere ayrılır:

Kategori Örnek
Anlamsız içerik. "Renksiz yeşil fikirler öfkeyle uyuyor."
Tamamlanmamış cümleler. - "Bu benim son arifemdi" (konu yok, belirli bir anlamı yok)
- "Zaten komikler (sonunda tırnak işareti yok, tam bir cümle değil)
Cümlelerde yazım hatası. - Küçük harfle başlayın
- Gerekirse bitiş noktalama işaretleri yoktur
-Yazım hatası
- Noktalama işareti olmaması: sonunda nokta yok (haber başlığı hariç)
- Virgül, soru, ünlem dışında sembollerle bitir
- Yanlış biçim, örneğin:
 - 45$ (45 ABD doları olmalıdır)
 - Sözcük/noktalama işaretleri arasında boşluk veya fazla boşluk yok
Benzer biçimde çoğaltma, her desen için bir tane yeterlidir. - "Şimdi New York'ta 13:00"
- "New York'ta şimdi 14:00"
- "Şimdi New York'ta 15:00"
- "Şimdi Seattle'da 13:00"
- "Washington D.C.'de şu an 13:00"
Yaygın olmayan yabancı sözcükler: Betikte yalnızca yaygın olarak kullanılan yabancı sözcükler kabul edilebilir. İngilizcede ortak konuşmada Fransızca "sahte" sözcüğünü kullanabilirsiniz, ancak "coincer la bulle" gibi bir Fransızca ifadesi nadir olacaktır.
Emoji veya diğer yaygın olmayan simgeler

Betik biçimi

Betik, kayıt oturumları sırasında kullanım içindir, böylece kolayca çalışabileceğiniz herhangi bir şekilde ayarlayabilirsiniz. Speech Studio'nun gerektirdiği metin dosyasını ayrı olarak oluşturun.

Temel betik biçimi üç sütun içerir:

  • 1'den başlayarak konuşmanın sayısı. Numaralandırma, stüdyodaki herkesin belirli bir ifadeye başvurmasını kolaylaştırır ("356 numarayı yeniden deneyelim"). Tablonun satırlarını otomatik olarak numaralandırmak için Microsoft Word paragraf numaralandırma özelliğini kullanabilirsiniz.
  • Tamamlanan kayıtta bulmanıza yardımcı olmak için her konuşmanın alma numarası veya zaman kodunu yazdığınız boş bir sütun.
  • Konuşmanın metni.

Sample script

Not

Stüdyoların çoğu "takes" olarak bilinen kısa segmentlerde kayıt oluşturur. Her bir öğe genellikle 10 ile 24 arasında konuşma içerir. Alma numarasını not almak, daha sonra bir konuşma bulmak için yeterlidir. Daha uzun kayıtlar yapmayı tercih eden bir stüdyoda kayıt yapıyorsanız, bunun yerine zaman kodunu not almak istersiniz. Stüdyoda öne çıkan bir zaman ekranı olacaktır.

Her satırdan sonra not yazmak için yeterli alan bırakın. Hiçbir konuşmanın sayfalar arasında bölündüğüne emin olun. Sayfaları numaralar ve betiğinizi kağıdın bir tarafına yazdırın.

Senaryonun üç kopyasını yazdırın: biri ses yeteneği için, biri kayıt mühendisi için, biri de yönetmen için (siz). Zımba yerine ataş kullanın: Deneyimli bir ses sanatçısı, sayfalar çevrildikçe gürültü yapmamak için sayfaları ayırır.

Ses yeteneği deyimi

Bir sinir sesini eğitmek için, özel bir ses modelini eğitmek için konuşma verilerinin kullanımını onaylayan ses yeteneği tarafından kaydedilen bir ses dosyasıyla bir ses yeteneği profili oluşturmanız gerekir. Kayıt betiğinizi hazırlarken deyim cümlesini eklediğinizden emin olun.

Legalities

Telif hakkı yasasına göre, bir aktörün telif hakkıyla korunan metni okuması, çalışmanın yazarının telafi edilmesi gereken bir performans olabilir. Bu performans, özel sinir sesi olan son üründe tanınamaz. Yine de, bu amaç için telif hakkıyla korunan bir çalışma kullanmanın yasallığı iyi belirlenmiyor. Microsoft bu sorunla ilgili yasal tavsiyede bulunamaz; kendi hukuk danışmanınıza başvurun.

Neyse ki bu sorunlardan tamamen kaçınmak mümkündür. İzin veya lisans olmadan kullanabileceğiniz birçok metin kaynağı vardır.

Metin kaynağı Açıklama
CMU Arctic corpus Özellikle konuşma sentezi projelerinde kullanılmak üzere telif hakkı dışında çalışmalardan seçilen yaklaşık 1100 cümle. Mükemmel bir başlangıç noktası.
Artık çalışmıyor
telif hakkı kapsamında
Genellikle 1923'e kadar yayımlanan çalışmalar. Project Gutenberg, İngilizce için on binlerce çalışma sunmaktadır. Dil modern İngilizceye daha yakın olduğundan daha yeni çalışmalara odaklanmak isteyebilirsiniz.
Kamu işleri Birleşik Devletler hükümeti tarafından oluşturulan çalışmalar Birleşik Devletler telif hakkına sahip değildir, ancak hükümet diğer ülkelerde/bölgelerde telif hakkı talep edebilir.
Genel etki alanı Telif hakkının açıkça bağımsız olduğu veya genel etki alanına adanmış olduğu çalışmalar. Bazı yargı bölgelerinde telif hakkından tamamen feragat etmek mümkün olmayabilir.
İzin verilen lisanslı çalışmalar Creative Commons veya GNU Ücretsiz Belge Lisansı (GFDL) gibi bir lisans altında dağıtılan çalışmalar. Wikipedia, GFDL'yi kullanır. Ancak bazı lisanslar, lisanslı içeriğin performansına özel bir sinir sesi modelinin oluşturulmasını etkileyebilecek kısıtlamalar uygulayabilir, bu nedenle lisansı dikkatlice okuyun.

Betiğinizi kaydetme

Sesli çalışma konusunda uzmanlaşmış profesyonel bir kayıt stüdyosunda betiğinizi kaydedin. Kayıt kabinleri, doğru donanımlar ve onu çalıştırmak için doğru insanlar var. Kayıtta dikkat edilmemesi önerilir.

Projenizi stüdyonun kayıt mühendisiyle tartışın ve önerilerini dinleyin. Kayıtta çok az dinamik aralık sıkıştırması (en fazla 4:1) olmalıdır. Sesin tutarlı ses düzeyine ve yüksek sinyal-gürültü oranına sahip olması ve istenmeyen seslerden arınması kritik önem taşır.

Kayıt gereksinimleri

Yüksek kaliteli eğitim sonuçları elde etmek için kayıt veya veri hazırlama sırasında aşağıdaki gereksinimleri izleyin:

  • Net ve iyi telaffuz edilir

  • Doğal hız: ses dosyaları arasında çok yavaş veya çok hızlı değil.

  • Uygun hacim, prosody ve kesme: aynı cümle içinde veya cümleler arasında kararlı, noktalama işaretleri için doğru kesme.

  • Kayıt sırasında gürültü yok

  • Kişilik tasarımınızı sığdırma

  • Yanlış vurgu yok: Hedef tasarıma sığdır

  • Yanlış telaffuz yok

En iyi yöntem olarak ses örneklerine hazırlanmak için aşağıdaki belirtimlere başvurabilirsiniz.

Özellik Değer
Dosya biçimi *.wav, Mono
Örnekleme oranı 24 KHz
Örnek biçimi 16 bit, PCM
En yüksek ses düzeyi -3 dB - -6 dB
SNR > 35 dB
Sessiz -lik - Başında ve sonunda biraz sessizlik (tavsiye 100 ms) olmalıdır, ancak 200 ms'den uzun olmamalıdır
- Sözcükler veya tümcecikler < arasındaki sessizlik -30 dB
- Son söz okunduktan <sonra dalgadaki sessizlik -60 dB
Ortam gürültüsü veya yankı - Konuşmadan < önce dalganın başlangıcındaki gürültü seviyesi -70 dB

Not

Örneğin 48 KHz 24 bit PCM biçiminde daha yüksek örnekleme hızı ve bit derinliğinde kayıt yapabilirsiniz. Özel nöral ses eğitimi sırasında bunu otomatik olarak 24 KHz 16 bit PCM'ye indireceğiz.

Daha yüksek sinyal-gürültü oranı (SNR) sesinizde daha düşük gürültü olduğunu gösterir. Profesyonel stüdyolarda kayıt yaparak genellikle 35+SNR'ye ulaşabilirsiniz. SNR'nin 20'nin altında olduğu ses, oluşturulan sesinizde belirgin bir gürültüye neden olabilir.

Düşük telaffuz puanlarına veya düşük sinyal-gürültü oranlarına sahip konuşmaları yeniden kaydetmeyi göz önünde bulundurun. Yeniden kaydedemiyorsanız, bu konuşmaları verilerinizden hariç tutabilirsiniz.

Tipik ses hataları

Yüksek kaliteli eğitim sonuçları için ses hatalarından kaçınmak kesinlikle önerilir. Ses hataları genellikle aşağıdaki kategorilerdedir:

  • Ses dosyası adı betik kimliğiyle eşleşmiyor.

  • WAR dosyasının biçimi geçersiz ve okunamıyor.

  • Ses örnekleme hızı 16 KHz'den düşük. Yüksek kaliteli sinir sesi için .wav dosya örnekleme hızının 24 KHz'e eşit veya daha yüksek olması önerilir.

  • Birim zirvesi -3 dB (maksimum hacmin %70'i) ile -6 dB (%50) arasında değildir.

  • Dalga biçimi taşması: Dalga biçimi en yüksek değerinde kesilir ve bu nedenle tamamlanmaz.

    waveform overflow

  • Kaydın sessiz bölümleri temiz değildir; ortam gürültüsü, ağız gürültüsü ve yankı gibi sesleri duyabilirsiniz.

    Örneğin, aşağıdaki ses konuşmalar arasındaki ortam gürültüsünü içerir.

    environment noise

    Aşağıdaki örnek DC uzaklığı veya yankı işaretlerini içerir.

    DC offset or echo

  • Genel birim çok düşük. Birim -18 dB'den (maksimum birimin %10'undan) düşükse verileriniz sorun olarak etiketlenmiş olur. Tüm ses dosyalarının aynı ses düzeyinde tutarlı olması gerekir.

    overall volume

  • İlk kelimeden önce veya son kelimeden sonra sessizlik yok. Ayrıca, başlangıç veya bitiş sessizliği 200 ms'den uzun veya 100 ms'den kısa olmamalıdır.

    No silence

Kendiniz yapın

Kayıt stüdyosuna gitmek yerine kaydı kendiniz yapmak istiyorsanız, işte kısa bir asal. Ev kaydı ve pod yayınının yükselişi sayesinde, çevrimiçi olarak iyi kayıt önerileri ve kaynakları bulmak her zamankinden daha kolay.

"Kayıt kabininiz" belirgin yankı veya "oda tonu" olmayan küçük bir oda olmalıdır. Mümkün olduğunca sessiz ve ses geçirmez olmalıdır. Duvarlardaki perdeler, yankıyı azaltmak ve odanın sesini nötralize etmek veya "ölüleştirmek" için kullanılabilir.

Ses kaydı için tasarlanmış yüksek kaliteli bir stüdyo kondenser mikrofonu ("kısaca mikrofon") kullanın. Sennheiser, AKG ve daha yeni Zoom mikrofonları iyi sonuçlar verebilir. Bir mikrofon satın alabilir veya yerel bir görsel-işitsel kiralama firmasından bir mikrofon kiralayabilirsiniz. USB arabirimine sahip bir tane arayın. Bu mikrofon türü mikrofon elemanını, ön örneklemeyi ve analogdan dijitale dönüştürücüleri tek bir pakette kolayca birleştirerek bağlanmayı basitleştirir.

Analog mikrofon da kullanabilirsiniz. Birçok kiralık ev, ses karakterleriyle bilinen "vintage" mikrofonlar sunar. Profesyonel analog dişli, tüketici ekipmanlarında kullanılan 1/4 inç fiş yerine dengeli XLR bağlayıcıları kullanır. Analoga giderseniz, bu bağlayıcılara sahip bir önörnek ve bilgisayar ses arabirimine de ihtiyacınız olacaktır.

Mikrofonu standa veya boma takın ve "p" ve "b" gibi "plosive" ünsüzlerden gelen gürültüyü ortadan kaldırmak için mikrofonun önüne bir pop filtresi takın. Bazı mikrofonlar, standdaki titreşimlerden yalıtan bir süspansiyon montajı ile birlikte gelir ve bu da yararlı olur.

Ses yeteneği mikrofondan tutarlı bir mesafede kalmalıdır. Durmaları gereken yeri işaretlemek için yerdeki bandı kullanın. Yetenek oturmayı tercih ederse, mikrofon mesafesini izlemek ve sandalye gürültüsünü önlemek için özel dikkat edin.

Betiği tutmak için stand kullanın. Sesi mikrofona yansıtabilmesi için standı üçgene sokmaktan kaçının.

Kayıt ekipmanını (kayıt mühendisi) işleten kişi, kayıt kabinindeki yetenekle (talkback devresi) konuşmanın bir yolu ile yetenekten ayrı bir odada olmalıdır.

Kayıt, -80 dB hedefiyle mümkün olduğunca az gürültü içermelidir.

"Standınızdaki" sessizliğin kaydını yakından dinleyin, gürültülerin nereden geldiğini bulun ve nedeni ortadan kaldırın. Yaygın gürültü kaynakları hava delikleri, floresan ışık balastları, yakındaki yollardaki trafik ve ekipman fanlarıdır (not defteri bilgisayarlarının bile fanları olabilir). Mikrofonlar ve kablolar, genellikle bir uğultu veya vızıltı olmak üzere yakındaki AC kablolarından elektrik gürültüsü alabilir. Bir vızıltı, birden fazla elektrik devresine takılı ekipmana sahip olmanın neden olduğu bir zemin döngüsünden de kaynaklanabilir.

İpucu

Bazı durumlarda, kayıtlarınızdan gelen gürültüyü gidermeye yardımcı olmak için bir dengeleyici veya gürültü azaltma yazılımı eklentisi kullanabilirsiniz, ancak her zaman kaynağında durdurmak en iyisidir.

Düzeyleri, kullanılabilir dinamik dijital kayıt aralığının büyük bir kısmının aşırı dağıtılmadan kullanılması için ayarlayın. Bu, sesi yüksek sesle ayarlamak, ancak bozuk hale gelmesi için o kadar yüksek olmadığı anlamına gelir. Aşağıdaki görüntüde iyi bir kaydın dalga biçimi örneği gösterilmiştir:

A good recording waveform

Burada aralığın (yükseklik) çoğu kullanılır, ancak sinyalin en yüksek zirveleri pencerenin en üstüne veya altına ulaşmaz. Kayıttaki sessizliğin, düşük gürültü zeminini gösteren ince bir yatay çizgiye yakın olduğunu da görebilirsiniz. Bu kayıt kabul edilebilir dinamik aralık ve sinyal-gürültü oranına sahiptir.

Kullandığınız mikrofona bağlı olarak yüksek kaliteli bir ses arabirimi veya USB bağlantı noktası aracılığıyla doğrudan bilgisayara kaydedin. Analog için ses zincirini basit tutun: mikrofon, ön örnekleme, ses arabirimi, bilgisayar. Avid Pro Tools ve Adobe Audition'ı aylık olarak makul bir maliyetle lisanslayabilirsiniz. Bütçeniz son derece darsa ücretsiz Audacity'yi deneyin.

44,1 KHz 16 bit monofonik (CD kalitesi) veya üzeri bir kayıt. Ekipmanınız destekliyorsa, güncel son durum 48 KHz 24 bittir. Sesinizi Speech Studio'ya göndermeden önce 24 KHz 16 bit'e düşüreceksiniz. Yine de, düzenlemelerin gerekli olması durumunda yüksek kaliteli bir orijinal kayda sahip olmak için ödeme yapılır.

İdeal olarak, farklı kişilerin yönetmen, mühendis ve yetenek rollerinde görev yapmış olması. Hepsini kendiniz yapmaya çalışmayın. Bir sıkıştırmada, bir kişi hem yönetmen hem de mühendis olabilir.

Oturumdan önce

Stüdyoda zaman kaybetmemek için, kayıt oturumundan önce ses yeteneğinizle birlikte betiği çalıştırın. Ses yeteneği metne alışsa da, tanıdık olmayan sözcüklerin söylenişini netleştirebilir.

Not

Çoğu kayıt stüdyosu, kayıt kabininde betiklerin elektronik gösterimini sunar. Bu durumda, çalıştırma notlarınızı doğrudan betiğin belgesine yazın. Yine de oturum sırasında not almak için bir kağıt kopya isteyeceksiniz. Mühendislerin çoğu da basılı kopya isteyecektir. Bilgisayarın kapanması ihtimaline karşı yetenek için yedek olarak üçüncü bir basılı kopya isteyeceksiniz.

Ses yeteneğiniz, bir konuşmada hangi sözcüğün vurgulanmasını istediğinizi sorabilir ("operatif sözcük"). Onlara, belirli bir vurgu olmadan doğal bir okuma istediğinizi söyleyin. Konuşma sentezlendiğinde vurgu eklenebilir; özgün kaydın bir parçası olmamalıdır.

Yeteneği kelimeleri belirgin bir şekilde telaffuz etmeye yönlendirin. Betiğin her sözcüğü yazıldığı gibi telaffuz edilmelidir. Betikte bu şekilde yazılmadıkları sürece, normal konuşmada yaygın olarak olduğu gibi sesler birlikte atlanmamalı veya karıştırılmamalıdır.

Yazılı metin İstenmeyen gündelik telaffuz
senden asla vazgeçmeyeceğim. senden asla vazgeçmeyeceğim.
dört ışık var dört ışık var
hava bugün nasıl hava durumu bugün nasıl
küçük arkadaşıma merhaba deyin lil' arkadaşıma merhaba deyin

Yetenek, sözcükler arasında ayrı duraklamalar eklememelidir*. Cümle biraz resmi olsa bile doğal bir şekilde akmalıdır. Bu ince ayrım doğruya ulaşmak için pratik gerekebilir.

Kayıt oturumu

Oturumun başında tipik bir konuşmanın başvuru kaydını veya eşleşme dosyasını oluşturun. Yeteneklerden bu satırı her sayfada tekrar etmesini isteyin. Her seferinde yeni kaydı başvuruyla karşılaştırın. Bu uygulama, yeteneğin hacim, tempo, perde ve tonlama açısından tutarlı kalmasına yardımcı olur. Bu arada mühendis, seviyeler ve sesin genel tutarlılığı için başvuru olarak eşleştirme dosyasını kullanabilir.

Eşleştirme dosyası özellikle bir moladan sonra veya başka bir günde kaydı sürdürürken önemlidir. Yetenek için birkaç kez oynayın ve iyi eşleşene kadar her seferinde tekrarlamalarını sağlayın.

Belirli bir stile sahip bir corpus kaydetmek için, istenen stili gösteren betikleri dikkatlice seçin. Kayıt sırasında ses yeteneğinin istenen stili barındıran kayıtlar elde etmek için ses düzeyi, tempo, ses perdesi ve ton açısından tutarlı olduğundan emin olun.

Her konuşmadan önce derin bir nefes alma ve bir süre duraklama yeteneğinizi eğitin. Konuşmalar arasındaki birkaç saniyelik sessizliği kaydedin. Sözcükler, bağlam dikkate alınarak her göründüklerinde aynı şekilde telaffuz edilmelidir. Örneğin, fiil olarak "kayıt", isim olarak "kayıt"tan farklı şekilde telaffuz edilir.

"Oda tonunu" yakalamak için ilk kayıt öncesinde yaklaşık beş saniyelik sessizlik kaydedin. Bu uygulama, Speech Studio'ya kayıtlardaki gürültüyü dengelemeye yardımcı olur.

İpucu

Tek yapmanız gereken ses yeteneğidir, böylece yalnızca satırlarının monofonik (tek kanallı) kaydını yapabilirsiniz. Bununla birlikte, stereo kayıt yaparsanız, belirli satırların veya almaların tartışmasını yakalamak için ikinci kanalı kullanarak denetim odasındaki sohbeti kaydedebilirsiniz. Bu parçayı Speech Studio'ya yüklenen sürümden kaldırın.

Ses yeteneğinin performansına kulaklığı kullanarak yakından dinleyin. İyi ama doğal bir diksiyon, doğru telaffuz ve istenmeyen ses eksikliği arıyorsunuz. Yeteneğinizden bu standartlara uymayan bir ifadeyi yeniden kaydetmesini istemekten çekinmeyin.

İpucu

Çok fazla sayıda konuşma kullanıyorsanız, tek bir konuşmanın sonuçta elde edilen özel sinir sesi üzerinde belirgin bir etkisi olmayabilir. Sorunlarla ilgili konuşmaları not almak, bunları veri kümenizden dışlamak ve özel sinir sesinizin nasıl ortaya çıktığını görmek daha kolay olabilir. İstediğiniz zaman stüdyoya geri dönebilir ve yanıtsız örnekleri daha sonra kaydedebilirsiniz.

Her konuşma için betiğinizdeki alma numarası veya zaman kodunu not alın. Mühendise, kaydın meta verilerinde veya ipucu sayfasında her bir konuşmayı işaretlemesini isteyin.

Düzenli molalar verin ve ses yeteneğinizin sesini iyi durumda tutmasına yardımcı olacak bir içecek sağlayın.

Oturumdan sonra

Modern kayıt stüdyoları bilgisayarlarda çalışır. Oturumun sonunda, bant değil bir veya daha fazla ses dosyası alırsınız. Bu dosyalar büyük olasılıkla CD kalitesinde WAV veya AIFF biçimindedir (44,1 KHz 16 bit) veya daha iyi. 24 KHz 16 bit yaygın ve tercih edilir. Özel sinir sesi için varsayılan örnekleme hızı 24 KHz'dir. Eğitim verileriniz için 24 KHz örnek hızı kullanmanız önerilir. 96 KHz gibi daha yüksek örnekleme hızları genellikle gerekli değildir.

Speech Studio, sağlanan her konuşmanın kendi dosyasında olmasını gerektirir. Stüdyo tarafından teslim edilen her ses dosyası birden çok konuşma içerir. Bu nedenle birincil üretim sonrası görevi kayıtları bölmek ve göndermeye hazırlamaktır. Kayıt mühendisi, her konuşmanın nerede başladığını belirtmek için dosyaya işaretçiler yerleştirmiş (veya ayrı bir ipucu sayfası sağlamış olabilir).

İstediğiniz tam ifadeleri bulmak için notlarınızı kullanın ve ardından her konuşmayı yeni bir dosyaya kopyalamak için Avid Pro Tools, Adobe Audition veya ücretsiz Audacity gibi bir ses düzenleme yardımcı programını kullanın.

Her dosyayı dikkatle dinleyin. Bu aşamada, bir satırdan önce hafif bir dudak tokatlama gibi, kayıt sırasında kaçırdığınız küçük istenmeyen sesleri düzenleyebilirsiniz, ancak gerçek bir konuşmayı kaldırmamaya dikkat edin. Bir dosyayı düzeltemiyorsanız, dosyayı veri kümenizden kaldırın ve bunu yaptığınıza dikkat edin.

Kaydetmeden önce her dosyayı 16 bit ve 24 KHz örnek hızına dönüştürün ve stüdyo sohbetini kaydettiyseniz ikinci kanalı kaldırın. Her dosyayı WAV biçiminde kaydedin ve dosyaları betiğinizdeki konuşma numarasıyla adlandırın.

Son olarak, her WAV dosyasını ilgili konuşmanın metin sürümüyle ilişkilendiren transkripti oluşturun. Ses modelinizi eğitin, gerekli biçimin ayrıntılarını içerir. Metni doğrudan betiğinizden kopyalayabilirsiniz. Ardından WAV dosyalarının ve metin dökümünün zip dosyasını oluşturun.

Daha sonra ihtiyacınız olması durumunda orijinal kayıtları güvenli bir yerde arşivleyin. Betiğinizi ve notlarınızı da koruyun.

Sonraki adımlar

Kayıtlarınızı karşıya yüklemeye ve özel sinir sesinizi oluşturmaya hazırsınız.