Nejčastější dotazy k převodu řeči na text

Tento článek odpovídá na nejčastější dotazy týkající se služby převodu řeči na text. Pokud tady nemůžete najít odpovědi na své otázky, podívejte se na další možnosti podpory.

OBECNÉ

Jaký je rozdíl mezi základním modelem a vlastním převodem řeči na textový model?

Základní řeč na textový model se trénuje s daty vlastněnými Microsoftem a už je nasazená v cloudu. Vlastní model můžete vytvořit a použít k lepšímu přizpůsobení prostředí s konkrétním okolním šumem nebo jazykem. Výrobní podlahy, auta nebo hlučné ulice by vyžadovaly přizpůsobený akustický model. Témata, jako jsou biologie, fyzika, radiologie, názvy produktů a vlastní akronymy, by vyžadovaly přizpůsobený jazykový model. Pokud chcete vytrénovat vlastní model, měli byste začít se souvisejícím textem, abyste zlepšili rozpoznávání speciálních termínů a frází.

Kde začít, když chci použít základní model?

Nejprve získejte klíč prostředku služby Speech a oblast na webu Azure Portal. Pokud chcete volat REST do předem nasazeného základního modelu, přečtěte si dokumentaci k rozhraním REST API . Pokud chcete použít WebSockets, stáhněte si sadu Speech SDK.

Potřebuji vždy vytvořit vlastní model řeči?

Ne. Pokud vaše aplikace používá obecný každodenní jazyk, nemusíte model přizpůsobovat. Pokud se vaše aplikace používá v prostředí s malým šumem nebo bez šumu na pozadí, nemusíte model přizpůsobovat.

Na portálu můžete nasadit základní a přizpůsobené modely a pak s nimi spouštět testy přesnosti. Tuto funkci můžete použít k měření přesnosti základního modelu a vlastního modelu.

Návody vědět, kdy je zpracování datové sady nebo modelu dokončené?

Jediným způsobem, jak zjistit, je zobrazit stav modelu nebo datové sady v tabulce. Po dokončení zpracování je stav Úspěch.

Můžu vytvořit více než jeden model?

Počet modelů, které můžete mít v kolekci, není nijak omezený.

Uvědomil jsem si, že jsem udělal chybu. Návody zrušit probíhající import dat nebo vytvoření modelu?

V současné době nemůžete vrátit zpět proces přizpůsobení akustiky nebo jazyka. Importovaná data a modely můžete odstranit, když jsou v terminálovém stavu.

Získám několik výsledků pro každou frázi s podrobným výstupním formátem. Který z nich mám použít?

Vždy vezměte první výsledek, i když jiný výsledek ("N-Best") může mít vyšší hodnotu spolehlivosti. Služba Speech považuje první výsledek za nejlepší. Výsledek může být také prázdný řetězec, pokud nebyla rozpoznána žádná řeč.

Ostatní výsledky jsou pravděpodobně horší a nemusí obsahovat úplnou velká písmena a interpunkci. Tyto výsledky jsou nejužitečnější ve speciálních scénářích, například umožňují uživatelům vybrat opravy ze seznamu nebo zpracovávat nesprávně rozpoznané příkazy.

Proč existuje více základních modelů?

Ve službě Speech si můžete vybrat z více než jednoho základního modelu. Každý název modelu obsahuje datum, kdy byl přidán. Když začnete trénovat vlastní model, použijte nejnovější model, abyste získali nejlepší přesnost. Starší základní modely jsou ještě nějakou dobu dostupné po zpřístupnění nového modelu. Model, se kterým jste pracovali, můžete dál používat, dokud se nevyřadí (viz životní cyklus modelu a koncového bodu). Stále doporučujeme přepnout na nejnovější základní model, abyste měli lepší přesnost.

Můžu aktualizovat stávající model (stacking modelů)?

Existující model nejde aktualizovat. Jako řešení zkombinujte starou datovou sadu s novou datovou sadou a souborem readapt.

Stará datová sada a nová datová sada se musí zkombinovat do jednoho souboru .zip (pro akustická data) nebo v souboru .txt (pro jazyková data). Po dokončení adaptace znovu nasaďte nový aktualizovaný model, aby získal nový koncový bod.

Když je k dispozici nová verze základního modelu, aktualizuje se moje nasazení automaticky?

Nasazení se neaktualizují automaticky.

Pokud jste model přizpůsobili a nasadili, stávající nasazení zůstane tak, jak je. Nasazený model můžete vyřadit z provozu, číst ho pomocí novější verze základního modelu a znovu ho nasadit pro lepší přesnost.

Základní modely i vlastní modely se po nějaké době vyřadí (viz životní cyklus modelu a koncového bodu).

Můžu si stáhnout model a spustit ho místně?

Vlastní model můžete spustit místně v kontejneru Dockeru.

Můžu datové sady, modely a nasazení zkopírovat nebo přesunout do jiné oblasti nebo předplatného?

Pomocí rozhraní MODELS_COPY REST API můžete zkopírovat vlastní model do jiné oblasti nebo předplatného. Datové sady a nasazení se nedají kopírovat. Datovou sadu můžete znovu importovat v jiném předplatném a vytvořit tam koncové body pomocí kopií modelu.

Jsou moje žádosti protokolované?

Ve výchozím nastavení nejsou požadavky zaprotokolovány (ani zvuk ani přepis). V případě potřeby můžete při vytváření vlastního koncového bodu vybrat obsah protokolu z této možnosti koncového bodu. V sadě Speech SDK můžete také povolit protokolování zvuku na základě jednotlivých požadavků, aniž byste museli vytvářet vlastní koncový bod. V obou případech se výsledky požadavků na zvuk a rozpoznávání uloží v zabezpečeném úložišti. Předplatná, která používají úložiště vlastněné Microsoftem, jsou k dispozici po dobu 30 dnů.

Pokud použijete vlastní koncový bod s obsahem protokolu z tohoto koncového bodu , můžete exportovat protokolované soubory na stránce nasazení v nástroji Speech Studio. Pokud je protokolování zvuku povolené prostřednictvím sady SDK, zavolejte rozhraní API pro přístup k souborům. Protokoly můžete kdykoli odstranit také pomocí rozhraní API.

Dochází k omezování mých požadavků?

Informace najdete v tématu Kvóty a omezení služby Speech.

Jak se mi účtuje zvuk se dvěma kanály?

Pokud každý kanál odešlete samostatně ve vlastním souboru, účtuje se vám doba trvání zvuku každého souboru. Pokud odešlete jeden soubor s kanály multiplexovanými společně, budou se vám účtovat poplatky za dobu trvání jednoho souboru. Další informace o cenách najdete na stránce s cenami služeb Azure AI.

Důležité

Pokud máte další obavy ohledně ochrany osobních údajů, které vám brání v používání vlastní služby Speech, obraťte se na některý z kanálů podpory.

Zvýšení souběžnosti

Informace najdete v tématu Kvóty a omezení služby Speech.

Import dat

Jaký je limit velikosti datové sady a proč se jedná o limit?

Limit je způsoben omezením velikosti souborů pro nahrání protokolu HTTP. Skutečný limit najdete v tématu Kvóty a limity služby Speech. Data můžete rozdělit do několika datových sad a vybrat je, abyste model vytrénovali.

Můžu textové soubory zazipovat (komprimovat), abych mohl nahrát větší textový soubor?

Ne. V současné době jsou povoleny pouze nekomprimované textové soubory.

Sestava dat říká, že došlo k neúspěšným promluvám. V čem je problém?

Selhání nahrání 100 procent promluv v souboru není problém. Pokud se většina promluv v akustické nebo jazykové datové sadě (například více než 95 procent) úspěšně naimportuje, může být datová sada použitelná. Přesto ale doporučujeme, abyste se pokusili zjistit, proč promluvy selhaly, a problém pak opravit. Nejběžnější problémy, jako jsou chyby formátování, se dají snadno opravit.

Vytvoření akustického modelu

Kolik akustických dat potřebuji?

Doporučujeme začít od 30 minut do 1 hodiny akustických dat.

Jaká data mám shromáždit?

Shromážděte data, která jsou co nejblíže scénáři aplikace, a případ použití. Shromažďování dat by mělo odpovídat cílové aplikaci a uživatelům z hlediska zařízení nebo zařízení, prostředí a typů mluvčích. Obecně platí, že byste měli shromažďovat data z co nejširší škály mluvčích.

Jak mám shromažďovat akustická data?

Můžete vytvořit samostatnou aplikaci pro shromažďování dat nebo použít software pro záznam zvuku mimo polici. Můžete také vytvořit verzi aplikace, která protokoluje zvuková data a pak tato data používá.

Musím přepisovat adaptační data sama?

Ano. Můžete ho sami přepsat nebo použít profesionální službu přepisu. Někteří uživatelé dávají přednost profesionálním přepisům a jiní používají crowdsourcing nebo přepisují samotná data.

Jak dlouho trvá trénování vlastního modelu se zvukovými daty?

Trénování modelu pomocí zvukových dat může být zdlouhavý proces. V závislosti na množství dat může vytvoření vlastního modelu trvat několik dní. Pokud to nejde dokončit do jednoho týdne, služba může operaci trénování přerušit a nahlásit model jako neúspěšný.

Obecně platí, že služba Speech zpracovává přibližně 10 hodin zvukových dat za den v oblastech s vyhrazeným hardwarem. V jiných oblastech může zpracovávat pouze přibližně 1 hodinu zvukových dat za den. Trénování s textem je rychlejší a obvykle se dokončí během několika minut.

Použijte jednu z oblastí, kde je k dispozici vyhrazený hardware pro trénování. Služba Speech používá k trénování v těchto oblastech až 20 hodin zvuku. V jiných oblastech služba Speech využívá až 8 hodin.

Testování přesnosti

Co je míra chyb slov (WER) a jak se vypočítá?

WER je metrika vyhodnocení pro rozpoznávání řeči. Funkce WER se vypočítá jako celkový počet chyb (vložení, odstranění a nahrazení) vydělený celkovým počtem slov v přepisu odkazu. Další informace najdete v tématu Kvantitativní testování modelu.

Návody určit, jestli jsou výsledky testu přesnosti dobré?

Výsledky ukazují porovnání mezi základním modelem a modelem, který jste přizpůsobili. Pokud chcete provést přizpůsobení, měli byste se snažit porazit základní model.

Návody určit WER základního modelu, abych viděl, jestli se zlepšil?

Výsledky offline testů ukazují přesnost standardních hodnot vlastního modelu a zlepšení oproti směrnému plánu.

Vytvoření jazykového modelu

Kolik textových dat potřebuji nahrát?

Záleží na tom, jak se liší slovník a fráze používané ve vaší aplikaci od počátečních jazykových modelů. Pro všechna nová slova je užitečné poskytnout co nejvíce příkladů použití těchto slov. Pro běžné fráze, které se používají ve vaší aplikaci, včetně frází v jazykových datech, je užitečné poskytnout mnoho příkladů, protože systému říká, aby tyto termíny také naslouchal. V datové sadě jazyka je běžné mít alespoň 100 promluv a obvykle několik stovek nebo více promluv. Pokud se očekává, že některé typy dotazů budou častější než jiné, můžete do datové sady vložit více kopií běžných dotazů.

Můžu jednoduše nahrát seznam slov?

Nahrání seznamu slov je přidá do slovníku, ale nenaučí systém, jak se slova obvykle používají. Poskytnutím úplných nebo částečných promluv (vět nebo frází věcí, které uživatelé pravděpodobně říkají), může se jazykový model naučit nová slova a způsob jejich použití. Vlastní jazykový model je vhodný nejen pro přidání nových slov do systému, ale také pro úpravu pravděpodobnosti známých slov pro vaši aplikaci. Poskytování úplných promluv pomáhá systému lépe se učit.