Záznam hlasových ukázek pro vlastní neurální hlas

Tento článek obsahuje pokyny k přípravě vysoce kvalitních hlasových ukázek pro vytvoření profesionálního hlasového modelu pomocí vlastního projektu neurálního hlasu Pro.

Vytvoření vysoce kvalitního produkčního vlastního neurálního hlasu od začátku není neformálním závazkem. Ústřední součástí vlastního neurálního hlasu je rozsáhlá kolekce zvukových ukázek lidské řeči. Je důležité, aby tyto zvukové nahrávky byly vysoce kvalitní. Zvolte talent hlasu, který má zkušenosti s vytvářením těchto druhů nahrávek, a nechte je zaznamenávat nahrávací technik pomocí profesionálního vybavení.

Než ale budete moct tyto nahrávky udělat, potřebujete skript: slova mluví váš hlasový talent k vytvoření zvukových ukázek.

Mnoho malých, ale důležitých podrobností jde o vytvoření profesionálního hlasového záznamu. Tento průvodce představuje plán procesu, který vám pomůže získat dobré a konzistentní výsledky.

Tipy pro přípravu dat na vysoce kvalitní hlas

Vysoce přirozený vlastní neurální hlas závisí na několika faktorech, jako je kvalita a velikost trénovacích dat.

Primárním faktorem je kvalita trénovacích dat. Například ve stejné trénovací sadě, konzistentní hlasitosti, rychlosti mluvení, mluvení a stylu mluvení jsou nezbytné k vytvoření vysoce kvalitního vlastního neurálního hlasu. Měli byste se také vyhnout šumu na pozadí v záznamu a ujistit se, že se skript a záznam shodují. Abyste zajistili kvalitu dat, musíte dodržet kritéria výběru skriptu a požadavky na záznam.

Pokud jde o velikost trénovacích dat, můžete ve většině případů vytvořit rozumný vlastní neurální hlas s 500 promluvami. Podle našichtestůchm funkcím pro hlas nemusí být podle našich testů ve většině jazyků nutně vylepšována přirozenost samotného hlasu (testováno pomocí skóre MOS). Pokud si chcete poslechnout, jak neuspokojivé části řeči zní, podívejte se na příklady GitHubu.

V některých případech můžete chtít hlasovou osobu s jedinečnými vlastnostmi. Například kreslená osoba potřebuje hlas se zvláštním stylem mluvení nebo hlas, který je dynamický v intonaci. V takových případech doporučujeme připravit aspoň 1 000 promluv (nejlépe 2000) a nahrát je do profesionálního nahrávacího studia. Další informace o tom, jak zlepšit kvalitu hlasového modelu, najdete v tématu charakteristiky a omezení pro používání vlastního neurálního hlasu.

Role pro záznam hlasu

Vlastní projekt záznamu neurálního hlasu má čtyři základní role:

Role Účel
Talent hlasu Hlas této osoby tvoří základ vlastního neurálního hlasu.
Záznamový technik Dohlíží na technické aspekty záznamu a provozuje nahrávací zařízení.
ředitel Připraví skript a trenéry výkonu hlasu talentu.
Editor Dokončí zvukové soubory a připraví je na nahrání do sady Speech Studio.

Jednotlivec může vyplnit více než jednu roli. V této příručce se předpokládá, že plníte roli režiséra a najímáte talent hlasu i nahrávacího inženýra. Pokud chcete nahrávky udělat sami, najdete v tomto článku některé informace o roli nahrávacího inženýra. Role editoru není nutná, dokud nebude relace nahrávání. Mezitím může tuto roli vyplnit ředitel nebo nahrávací technik.

Volba talentu hlasu

Herci s zkušenostmi s hlasem, hlasovou postavou práce, oznámením nebo čtením zpráv dělají dobrý hlasový talent. Zvolte talent hlasu, jehož přirozený hlas se vám líbí. Je možné vytvořit jedinečné "charakter" hlasy, ale pro většinu talentů je obtížnější je provádět konzistentně a úsilí může způsobit hlasovou zátěž. Jedním z nejdůležitějších faktorů pro volbu talentu hlasu je konzistence. Vaše nahrávky pro stejný styl hlasu by měly znít stejně jako ty, které byly provedeny ve stejný den ve stejné místnosti. K tomuto ideálnímu přístupu se můžete dostat prostřednictvím osvědčených postupů nahrávání a technického inženýrství.

Váš hlasový talent musí být schopen mluvit s konzistentní rychlostí, úrovní hlasitosti, rozhozením a tónem s jasným diktováním. Musí také mít možnost řídit své variace, emocionální efekt a řečové způsoby. Záznam hlasových ukázek může být tlustější než jiné druhy hlasové práce, takže většina hlasových talentů může zaznamenávat pouze dva nebo tři hodiny denně. Pokud je to možné, omezte relace na tři nebo čtyři dny v týdnu.

Pracujte s vaším hlasovým talentem, abyste vyvinuli osobu, která definuje celkový zvuk a emocionální tón vlastního neurálního hlasu, a ujistěte se, že je třeba určit, jak "neutrální" zvuky pro danou osobu. Definujete styly mluvení vaší osoby a požádáte své hlasové talenty, aby četl skript způsobem, který odpovídá požadovaným stylům.

Například osoba s přirozeně upbeatovou osobností by nesla poznámku o optimistickém stavu, i když mluví neutrálním způsobem. Tato osobnost by ale měla být jemná a konzistentní. Poslechněte si čtení existujícími hlasy, abyste získali představu o tom, na co se zaměřujete.

Tip

Obvykle budete chtít vlastní hlasové nahrávky, které uděláte. Váš hlasový talent by měl být srozumitelný na smlouvu o zaměstnání pro projekt.

Vytvoření skriptu

Výchozím bodem jakékoli vlastní relace záznamu neurálního hlasu je skript, který obsahuje promluvy, které mají být mluvené vaším talentem hlasu. Termín "promluvy" zahrnuje celé věty i kratší fráze. Vytvoření vlastního neurálního hlasu vyžaduje alespoň 300 zaznamenaných promluv jako trénovacích dat.

Promluvy ve vašem skriptu můžou pocházet odkudkoli: fiktivní, nefikce, přepisy řeči, zprávy a cokoli jiného dostupného ve vytištěné podobě. Stručnou diskuzi o potenciálních právních problémech najdete v části Právní dokumentace . Můžete také napsat vlastní text.

Vaše promluvy nemusí pocházet ze stejného zdroje, stejného druhu zdroje nebo mají něco společného s ostatními. Pokud ale ve své aplikaci speech použijete nastavené fráze (například "Úspěšně jste se přihlásili"), nezapomeňte je zahrnout do skriptu. Dává vašemu vlastnímu neurálnímu hlasu lepší šanci na výslovnosti těchto frází.

Doporučujeme nahrávat skripty, které obsahují obecné věty i věty specifické pro doménu. Pokud například plánujete zaznamenat 2 000 vět, 1 000 z nich může být obecné věty, dalších 1 000 z nich může být věty z vaší cílové domény nebo případ použití vaší aplikace.

Pro každý jazyk poskytujeme ukázkové skripty v doménách Obecné, Chat a Customer Service, které vám pomůžou připravit vaše nahrávací skripty. Tyto sdílené skripty Microsoftu můžete použít přímo pro své nahrávky nebo je můžete použít jako referenci k vytvoření vlastního.

Kritéria výběru skriptu

Níže jsou uvedeny některé obecné pokyny, které můžete postupovat při vytváření dobrého korpusu (nahraných zvukových ukázek) pro vlastní neurální hlasové trénování.

  • Vyrovnejte skript tak, aby zahrnoval různé typy vět ve vaší doméně, včetně příkazů, otázek, vykřičníků, dlouhých vět a krátkých vět.

    Každá věta by měla obsahovat čtyři slova až 30 slov a do skriptu by neměly být zahrnuty žádné duplicitní věty.
    Informace o vyvážení různých typů vět najdete v následující tabulce:

    Typy vět Disponibilita
    Věty příkazů Věty příkazů by měly být 70–80 % skriptu.
    Věty otázek Věty otázek by měly být přibližně 10 %–20 % vašeho doménového skriptu, včetně 5 %-10 % rostoucích a 5 %-10 % padajících tónů.
    Vykřičníky Vykřičníky by měly být asi 10 %-20 % skriptu.
    Krátké slovo nebo fráze Krátké skripty slov a frází by měly být přibližně 10 % celkového počtu promluv s 5 až 7 slovy na jedno písmeno.

    Poznámka:

    Krátká slova a fráze by měly být odděleny čárkami. Pomáhají připomeň vašemu talentu, aby se krátce pozastavili při čtení.

    Mezi osvědčené postupy patří:

    • Vyvážené pokrytí slovních částí, jako jsou slovesa, podstatná jména, přídavná jména atd.
    • Vyvážené pokrytí výslovností. Zahrňte všechna písmena od A do Z, aby se modul pro převod textu na řeč naučil, jak vyslovovat každé písmeno ve vašem stylu.
    • Čitelné, srozumitelné a srozumitelné skripty pro čtení mluvčího.
    • Vyhněte se příliš mnoha podobným vzorům pro slova nebo fráze, jako je "snadné" a "jednodušší".
    • Zahrnout různé formáty čísel: adresa, jednotka, telefon, množství, datum atd., ve všech typech vět.
    • Pokud se jedná o něco, co bude váš vlastní neurální hlas číst, zahrňte pravopisné věty. Například "Pravopis Apple je A P P L E".
  • Nevkládejte více vět do jedné nebo jedné promluvy. Jednotlivé řádky oddělte promluvou.

  • Ujistěte se, že je věta čistá. Obecně platí, že nezahrnujte příliš mnoho nestandardních slov, jako jsou čísla nebo zkratky, protože se obtížně čtou. Některé aplikace můžou vyžadovat čtení mnoha čísel nebo zkratek. V těchto případech můžete tato slova zahrnout, ale normalizovat je v jejich mluvené podobě.

    Tady je několik osvědčených postupů, například:

    • Pro řádky se zkratkami místo "BTW" napište "mimochodem".
    • Pro řádky s číslicemi místo "911" napište "devět jedna jedna".
    • Pro řádky se zkratkami místo "ABC" napište "A B C".

    S tím se ujistěte, že váš hlas talent vyslovuje tato slova očekávaným způsobem. Během trénování udržujte svůj skript a záznamy ve shodě.

  • Váš skript by měl obsahovat mnoho různých slov a vět s různými druhy délky vět, struktur a nálad.

  • Pečlivě zkontrolujte chyby skriptu. Pokud je to možné, zkontrolujte to taky někdo jiný. Když projdete skript svým hlasovým talentem, můžete zachytit více chyb.

Rozdíl mezi hlasovým talentem a trénovacím skriptem

Trénovací skript se může lišit od talentového skriptu hlasu, zejména pro skripty, které obsahují číslice, symboly, zkratky, datum a čas. Skripty připravené pro hlasový talent musí dodržovat nativní konvence čtení, jako je například 50 % a $45. Skripty použité pro trénování musí být normalizovány tak, aby odpovídaly zvukovému záznamu, například padesát procent a 500 dolarů.

Poznámka:

Nabízíme několik ukázkových skriptů pro talent hlasu na GitHubu. Pokud chcete použít ukázkové skripty pro trénování, musíte je před nahráním souboru normalizovat podle nahrávek vašeho hlasového talentu.

Následující tabulka ukazuje rozdíl mezi skripty pro talent hlasu a normalizovaným skriptem pro trénování.

Kategorie Příklad hlasového talentu Příklad trénovacího skriptu (normalizovaný)
Číslice 123 sto a dvacet tři
Symboly 50 % Padesát procent
Zkratka ASAP Co nejdříve
Datum a čas Březen 3rd v 5:00 PM Třetí březen v pěti pm

Typické vady skriptu

Špatná kvalita skriptu může nepříznivě ovlivnit výsledky trénování. Aby bylo možné dosáhnout vysoce kvalitních výsledků trénování, je důležité se vyhnout vadám.

Závady skriptu obecně spadají do následujících kategorií:

Kategorie Příklad
Bezvýznamný obsah. "Bezbarvé zelené nápady spí zuřivě."
Neúplné věty. - "Tohle byl můj poslední den" (žádný předmět, žádný zvláštní význam)
- "Už jsou legrační (na konci není žádná uvozovka, není to úplná věta).
Překlep ve větách. - Začněte s menším písmenem
- V případě potřeby neskončí interpunkce
-Chyba
- Nedostatek interpunkce: žádné tečky na konci (s výjimkou názvu zprávy)
- Konec se symboly, s výjimkou čárky, otázky, vykřičníku
– Nesprávný formát, například:
 - 45$ (mělo by být $45)
 - Mezera ani nadbytečná mezera mezi slovem nebo interpunkcí
Duplikace v podobném formátu, jeden pro každý vzor stačí. - "Nyní je 13:00 v New Yorku"
- "Nyní je 2:00 v New Yorku"
- "Nyní je 13:00 v New Yorku"
- "Nyní je 13:00 v Seattlu"
- "Nyní je 13:00 ve Washingtonu D.C."
Méně časté cizí slova: ve skriptu jsou přijatelná pouze běžně používaná cizí slova. V angličtině můžete použít francouzské slovo "faux" ve společné řeči, ale francouzský výraz, například "coincer la bulle", by byl neobvyklý.
Emoji nebo jakékoli jiné neobvyklé symboly

Formát skriptu

Skript se používá při nahrávání relací, takže ho můžete nastavit libovolným způsobem, se kterým snadno pracujete. Vytvořte textový soubor vyžadovaný sadou Speech Studio samostatně.

Základní formát skriptu obsahuje tři sloupce:

  • Počet promluv, počínaje číslem 1. Číslování usnadňuje všem uživatelům v studiu odkazování na konkrétní promluvu ("pojďme zkusit číslo 356 znovu"). Pomocí funkce číslování odstavců aplikace Microsoft Word můžete automaticky očíslovat řádky tabulky.
  • Prázdný sloupec, ve kterém píšete kód pro zadání čísla nebo času jednotlivých promluv, který vám pomůže najít ho v hotovém záznamu.
  • Text samotné promluvy.

Sample script

Poznámka:

Většina studií zaznamenává v krátkých segmentech, které se označují jako "bere". Každá akce obvykle obsahuje 10 až 24 promluv. Stačí si jen povedení čísla najít promluvu později. Pokud nahráváte v studiu, které preferuje vytváření delších nahrávek, budete si místo toho chtít poznamenat časový kód. Studio bude mít výrazný časový displej.

Po každém řádku ponechte dostatek místa pro psaní poznámek. Ujistěte se, že mezi stránkami není rozdělená žádná promluva. Očíslujte stránky a vytiskněte skript na jednu stranu papíru.

Vytiskněte tři kopie skriptu: jeden pro hlasový talent, jeden pro nahrávacího inženýra a jeden pro režiséra (vy). Místo sponky používejte sponku: zkušený hlasový umělec odděluje stránky, aby nedocházelo k šumu při odevzdání stránek.

Hlasová talentová prohlášení

Pokud chcete vytrénovat neurální hlas, musíte vytvořit profil talentu hlasu se zvukovým souborem zaznamenaným hlasem, který vyjadřuje souhlas s používáním dat řeči k trénování vlastního hlasového modelu. Při přípravě skriptu pro nahrávání nezapomeňte zahrnout větu příkazu.

Zákonná

Podle zákona o autorských právech může být čtení autorských práv herce výkonem, pro který by měl být autor práce vyrovnán. Tento výkon nebude rozpoznatelný v konečném produktu, vlastním neurálním hlasem. I tak není zákonnost použití autorských práv k tomuto účelu dobře stanovena. Microsoft nemůže poskytnout právní poradenství k tomuto problému; obraťte se na svého právního poradce.

Naštěstí je možné se těmto problémům zcela vyhnout. Existuje mnoho zdrojů textu, které můžete použít bez oprávnění nebo licence.

Zdroj textu Popis
Arktické korpusy CMU Asi 1100 vět vybraných z děl mimo autorská práva speciálně pro použití v projektech syntézy řeči. Vynikající výchozí bod.
Už nefunguje
v rámci autorských práv
Obvykle funguje publikovaná před 1923. Projekt Gutenberg pro angličtinu nabízí desítky tisíc takových děl. Možná se budete chtít zaměřit na novější práci, protože jazyk je blíže moderní angličtině.
Práce státní správy Práce vytvořené USA vládou nejsou v USA chráněná autorskými právy, i když vláda může nárokovat autorská práva v jiných zemích nebo oblastech.
Veřejná doména Funguje pro to, pro které se výslovně zřeknou autorská práva nebo je vyhrazená pro veřejnou doménu. V některých jurisdikcích nemusí být možné zcela odpustit od autorských práv.
Permissivní licencované práce Funguje distribuovaná pod licencí, jako je Creative Commons nebo GNU Free Documentation License (GFDL). Wikipedie používá GFDL. Některé licence ale můžou omezovat výkon licencovaného obsahu, který by mohl ovlivnit vytvoření vlastního neurálního hlasového modelu, takže si licenci pečlivě přečtěte.

Nahrání skriptu

Nahrajte svůj skript v profesionálním nahrávacím studiu, které se specializuje na hlasovou práci. Mají nahrávací stánek, správné vybavení a správné lidi, kteří ho mají provozovat. Nedoporučuje se nahrávat.

Proberte svůj projekt s nahrávacím inženýrem studia a poslechněte si jejich rady. Nahrávka by měla mít malou nebo žádnou kompresi dynamického rozsahu (maximálně 4:1). Je důležité, aby zvuk byl v konzistentním hlasitosti a vysoký poměr signálu k šumu a současně byl bez nežádoucích zvuků.

Požadavky na záznam

Pokud chcete dosáhnout vysoce kvalitních výsledků trénování, při záznamu nebo přípravě dat postupujte podle následujících požadavků:

  • Jasné a dobře vyslovované

  • Přirozená rychlost: mezi zvukovými soubory není příliš pomalá nebo příliš rychlá.

  • Vhodný svazek, prosody a konec: stabilní ve stejné větě nebo mezi větami, správný konec interpunkce.

  • Žádný šum během nahrávání

  • Přizpůsobení návrhu osob

  • Žádný nesprávný zvýraznění: přizpůsobit se cílovému návrhu

  • Žádná špatná výslovnost

Osvědčený postup přípravy zvukových ukázek najdete v níže uvedené specifikaci.

Vlastnost Hodnota
File format *.wav, Mono
Vzorkovací frekvence 24 KHz
Formát ukázky 16 bitů, PCM
Nejvyšší úrovně hlasitosti -3 dB až -6 dB
SNR > 35 dB
Ticho - Na začátku a konci by mělo být ticho (doporučujeme 100 ms), ale nesmí být delší než 200 ms.
- Ticho mezi slovy nebo frázemi < -30 dB
- Ticho ve vlně po posledním slově je mluvené <-60 dB
Šum nebo ozvěna prostředí - Úroveň hluku na začátku vlny před mluvením < -70 dB

Poznámka:

Můžete zaznamenat vyšší vzorkovací frekvenci a hloubku bitu, například ve formátu 48 KHz 24bitového PCM. Během trénování vlastního neurálního hlasu ho automaticky odebereme na 24 KHz 16bitové PCM.

Vyšší poměr signálu k šumu (SNR) označuje nižší šum ve vašem zvuku. Obvykle se můžete spojit s 35+ SNR tím, že nahráváte v profesionálních studiích. Zvuk s využitím SNR nižší než 20 může vést k zjevnému šumu ve vygenerovaném hlasu.

Zvažte opakované nahrávání promluv s nízkým skóre výslovnosti nebo nízkým poměrem signálu k šumu. Pokud se vám nedaří znovu zaznamenat, zvažte vyloučení těchto promluv z dat.

Typické chyby zvuku

Pro vysoce kvalitní výsledky trénování se důrazně doporučuje vyhnout se chybám zvuku. Chyby zvuku jsou obvykle v následujících kategoriích:

  • Název zvukového souboru neodpovídá ID skriptu.

  • Soubor WAR má neplatný formát a nelze jej přečíst.

  • Vzorkovací frekvence zvuku je nižší než 16 KHz. Doporučuje se, aby vzorkovací frekvence .wav souboru byla stejná nebo vyšší než 24 KHz pro vysoce kvalitní neurální hlas.

  • Špička svazku není v rozsahu -3 dB (70 % maximálního objemu) až -6 dB (50 %).

  • Přetečení vlnové křivky: vlnovka se sníží na jeho maximální hodnotu, a proto není dokončena.

    waveform overflow

  • Tiché části nahrávky nejsou čisté; můžete slyšet zvuky, jako je okolní hluk, šum v ústech a ozvěna.

    Například následující zvuk obsahuje šum prostředí mezi řečmi.

    environment noise

    Následující ukázka obsahuje známky posunu DC nebo ozvěny.

    DC offset or echo

  • Celkový objem je příliš nízký. Vaše data se označí jako problém, pokud je svazek nižší než -18 dB (10 % maximálního svazku). Ujistěte se, že všechny zvukové soubory by měly být konzistentní na stejné úrovni hlasitosti.

    overall volume

  • Žádné ticho před prvním slovem nebo za posledním slovem. Také počáteční nebo koncové ticho nesmí být delší než 200 ms nebo kratší než 100 ms.

    No silence

Udělej si sám

Pokud chcete nahrávku udělat sami, místo toho, abyste chodili do nahrávacího studia, tady je krátký primer. Díky nárůstu domácího nahrávání a podcastingu je mnohem jednodušší než kdy jindy najít dobré rady a materiály k nahrávání online.

Váš "nahrávací stánek" by měl být malý pokoj bez znatelné ozvěny nebo "tón místnosti". Mělo by být co nejklidnější a co nejhlučněnější. Závěsy na stěnách lze použít ke snížení ozvěny a neutralizace nebo "mrtvý" zvuk místnosti.

Používejte vysoce kvalitní mikrofon studiové kondenzátoru ("mikrofon" pro krátký) určený pro nahrávání hlasu. Sennheiser, AKG a ještě novější mikrofony Zoom mohou přinést dobré výsledky. Můžete si ho koupit nebo si ho pronajmout od místní firmy pro pronájem zvuku. Hledejte jeden s rozhraním USB. Tento typ mikrofonu pohodlně kombinuje prvek mikrofonu, preamp a analog-to-digital converter do jednoho balíčku, což zjednodušuje připojení.

Můžete také použít analogový mikrofon. Mnoho pronájem domů nabízí "vintage" mikrofony známé svým hlasovým charakterem. Profesionální analogové ozubené kolo používá vyvážené konektory XLR, nikoli 1/4palcovou zástrčku, která se používá v spotřebním vybavení. Pokud přejdete na analog, budete také potřebovat předvzorkovač a zvukové rozhraní počítače s těmito konektory.

Nainstalujte mikrofon na stojan nebo boom a před mikrofonem nainstalujte pop filtr, který eliminuje šum z "plosivních" souhlásek, jako je "p" a "b". Některé mikrofony jsou vybaveny závěsným držákem, který je izoluje od vibrací v stojanu, což je užitečné.

Talent hlasu musí zůstat v konzistentní vzdálenosti od mikrofonu. Pomocí pásky na podlaze označte, kde by měly stát. Pokud talent dává přednost sedět, dávejte zvláštní pozor na sledování vzdálenosti mikrofonu a vyhněte se šumu židle.

K uložení skriptu použijte stojan. Vyhněte se anglingu stojanu, aby se zvuk odrazil směrem k mikrofonu.

Osoba obsluhující záznamové zařízení – nahrávací technik – by měla být v samostatné místnosti od talentu, s nějakým způsobem, jak mluvit s talentem v nahrávacím stánku ( okruh talkback).

Nahrávka by měla obsahovat co nejmenší šum s cílem -80 dB.

Pozorně si poslechněte záznam ticha ve vaší "stánku", zjistěte, odkud veškerý hluk pochází, a odstraňte příčinu. Běžnými zdroji hluku jsou větrací ventilace vzduchu, zářivé žárovky, provoz na okolních silnicích a ventilátory vybavení (dokonce i notebookové počítače mohou mít ventilátory). Mikrofony a kabely mohou vyzvednout elektrický šum z okolního ac zapojení, obvykle hum nebo bzučení. Bzučení může být také způsobeno uzemní smyčkou, která je způsobena zapojením zařízení do více než jednoho elektrického obvodu.

Tip

V některých případech můžete použít ekvalizér nebo softwarový modul plug-in pro snížení šumu, který pomáhá odstranit šum z nahrávek, i když je vždy nejlepší ho zastavit ve zdroji.

Nastavte úrovně tak, aby se většina dostupného dynamického rozsahu digitálního záznamu používala bez nadměrného využití. To znamená nastavit zvuk nahlas, ale ne tak hlasitě, že se ztěžuje. Příklad waveformu dobré nahrávky je znázorněn na následujícím obrázku:

A good recording waveform

Tady se používá většina rozsahu (výšky), ale nejvyšší špičky signálu nedosahují horní nebo dolní části okna. Můžete také vidět, že ticho v záznamu představuje tenkou vodorovnou čáru, což značí nízkou úroveň hluku. Tato nahrávka má přijatelný dynamický rozsah a poměr signálu k šumu.

Záznam přímo do počítače prostřednictvím vysoce kvalitního zvukového rozhraní nebo portu USB v závislosti na používaném mikrofonu. Pro analogové, udržujte zvukový řetězec jednoduchý: mikrofon, preamp, zvukové rozhraní, počítač. Avid Pro Tools i Adobe Audition můžete licencovat měsíčně za rozumnou cenu. Pokud je váš rozpočet extrémně těsný, vyzkoušejte bezplatnou Audacity.

Záznam 44,1 KHz 16bitové monofonní (kvalita CD) nebo lepší. Aktuální stav-the-art je 48 KHz 24 bit, pokud vaše zařízení podporuje. Před odesláním zvuku do 24 KHz 16bitové verze si před odesláním zvuku do nástroje Speech Studio odeberete. Přesto platí, že má vysoce kvalitní originální záznam v případě, že jsou potřebné úpravy.

V ideálním případě mají různé lidi, kteří slouží v rolích režiséra, inženýra a talentu. Nesnažte se to udělat sami. Na špendlíku může být jedna osoba ředitelem i inženýrem.

Před relací

Abyste se vyhnuli plýtvání studiovým časem, projděte si skript s vaším hlasovým talentem před nahrávací relací. Zatímco talent hlasu se seznámí s textem, mohou objasnit výslovnost všech neznámých slov.

Poznámka:

Většina nahrávacích studií nabízí elektronické zobrazení skriptů v nahrávacím stánku. V takovém případě zadejte poznámky run-through přímo do dokumentu skriptu. Přesto budete chtít, aby během relace kopírovala papírová kopie. Většina inženýrů bude chtít také pevnou kopii. A ještě budete chtít třetí vytištěnou kopii jako zálohu pro talent v případě, že počítač je dole.

Váš hlasový talent se může zeptat, které slovo chcete zdůraznit v promluvě ("operativní slovo"). Řekněte jim, že chcete přirozené čtení bez konkrétního důrazu. Důraz lze přidat při syntetizaci řeči; nemělo by to být součástí původní nahrávky.

Nasměrujte talent, aby vyslovovat slova zřetelně. Každé slovo skriptu by mělo být vyslovováno jako napsané. Zvuky by neměly být vynechány ani slurr společně, stejně jako běžné v neformální řeči, pokud nebyly napsány tímto způsobem ve skriptu.

Napsaný text Nežádoucí neformální výslovnost
Nikdy tě nevzdá. Nikdy tě nevzdá.
existují čtyři světla jsou čtyři světla
jak je dnes počasí jak je dnes počasí
pozdravit mého malého přítele pozdravit svého přítele lil

Talent by neměl* přidávat odlišné pauzy mezi slovy. Věta by měla stále proudit přirozeně, i když zní trochu formální. Toto jemné rozlišení může trvat praxi, než se dostanete doprava.

Relace nahrávání

Na začátku relace vytvořte záznam odkazu nebo soubor shodný soubor typické promluvy. Požádejte talent, aby tento řádek opakoval každou stránku nebo tak. Pokaždé porovnejte novou nahrávku s odkazem. Tento postup pomáhá talentu zůstat konzistentní v objemu, tempu, sklonu a intonaci. Mezitím může technik použít soubor shody jako referenci pro úrovně a celkovou konzistenci zvuku.

Soubor shody je obzvláště důležitý, když obnovíte nahrávání po přerušení nebo v jiném dni. Zahrajte si to několikrát za talent a dejte jim to pokaždé opakovat, dokud se nebudou dobře shodovat.

Chcete-li zaznamenat korpus s určitým stylem, pečlivě zvolte skripty, které ukazují požadovaný styl. Během nahrávání zajistěte, aby talent hlasu udržoval konzistentní hlasitost, tempo, tón a tón k dosažení nahrávek, které ztělesňují zamýšlený styl.

Trénujte svůj talent, aby se na chvíli nadechl a pozastavil se před každou promluvou. Zaznamenejte několik sekund ticha mezi promluvami. Slova by měla být vyslovována stejným způsobem, když se objeví pokaždé, když se zváží kontext. Například "záznam" jako sloveso se vyslovuje jinak než "záznam" jako podstatné jméno.

Zaznamenejte přibližně pět sekund ticha před prvním záznamem, abyste zachytili "tón místnosti". Tento postup pomáhá sadě Speech Studio kompenzovat šum v záznamech.

Tip

Vše, co potřebujete zachytit, je talent hlasu, takže můžete udělat monofonní (single-channel) nahrávku jen jejich řádků. Pokud ale nahráváte ve stereofonním kanálu, můžete pomocí druhého kanálu nahrát chatovač v ovládací místnosti k zachycení diskuze o konkrétních řádcích nebo přebírání. Odeberte tuto stopu z verze nahrané do sady Speech Studio.

Poslouchejte pozorně, pomocí sluchátek, k výkonu hlasu talentu. Hledáte dobré, ale přirozené diktování, správnou výslovnost a nedostatek nežádoucích zvuků. Neváhejte požádat svého talenta, aby znovu nahrál promluvu, která nesplňuje tyto standardy.

Tip

Pokud používáte velký počet promluv, nemusí mít jedna promluva výrazný vliv na výsledný vlastní neurální hlas. Může být vhodnější jednoduše poznamenat všechny promluvy s problémy, vyloučit je z vaší datové sady a zjistit, jak se váš vlastní neurální hlas ukáže. Kdykoli se můžete vrátit do studia a nahrát zmeškané ukázky později.

Poznamenejte si kód pro zadání čísla nebo času ve skriptu pro každou promluvu. Požádejte inženýra, aby označil každou promluvu také v metadatech záznamu nebo v listu pro upozornění.

Vezměte pravidelné přestávky a poskytněte nápoj, který pomůže vašemu talentu udržet svůj hlas v dobrém tvaru.

Po relaci

Moderní nahrávací studia běží na počítačích. Na konci relace obdržíte jeden nebo více zvukových souborů, ne pásku. Tyto soubory jsou pravděpodobně formátu WAV nebo AIFF v kvalitě DISKU CD (44,1 KHz 16bitová verze) nebo lepší. 24 KHz 16bitový je běžný a žádoucí. Výchozí vzorkovací frekvence vlastního neurálního hlasu je 24 KHz. Pro trénovací data doporučujeme použít vzorkovací frekvenci 24 KHz. Vyšší vzorkovací frekvence, například 96 KHz, nejsou obvykle potřeba.

Speech Studio vyžaduje, aby každá poskytnutá promluva byla ve vlastním souboru. Každý zvukový soubor, který studio doručí, obsahuje několik promluv. Primárním postprodukčním úkolem je rozdělit nahrávky a připravit je na odeslání. Záznamový technik mohl do souboru umístit značky (nebo poskytnout samostatný seznam pro upozornění), které označují, kde jednotlivé promluvy začínají.

Pomocí svých poznámek najděte přesně to, co potřebujete, a pak pomocí nástroje pro úpravu zvuku, jako je Avid Pro Tools, Adobe Audition nebo bezplatná Audacity, zkopírujte jednotlivé promluvy do nového souboru.

Každý soubor pečlivě poslouchejte. V této fázi můžete upravit malé nežádoucí zvuky, které jste vynechali během nahrávání, jako mírný rt smack před čárou, ale dávejte pozor, abyste neodstranili žádnou skutečnou řeč. Pokud soubor nemůžete opravit, odeberte ho z datové sady a všimněte si, že jste to udělali.

Před uložením převeďte každý soubor na 16 bitů a vzorkovací frekvenci 24 KHz a pokud jste nahráli studiový chatovací modul, odeberte druhý kanál. Uložte každý soubor ve formátu WAV a pojměte soubory číslem promluvy ze skriptu.

Nakonec vytvořte přepis, který přidruží každý soubor WAV k textové verzi odpovídající promluvy. Trénování hlasového modelu obsahuje podrobnosti požadovaného formátu. Text můžete zkopírovat přímo ze skriptu. Pak vytvořte soubor ZIP se soubory WAV a textový přepis.

Archivujte původní nahrávky na bezpečném místě pro případ, že je budete potřebovat později. Zachovejte také skript a poznámky.

Další kroky

Jste připraveni nahrát nahrávky a vytvořit vlastní neurální hlas.