Q: Když je k dispozici nová verze základního modelu, aktualizuje se moje nasazení automaticky?

Nasazení se neaktualizují automaticky. Pokud jste model přizpůsobili a nasadili, stávající nasazení zůstane tak, jak je. Nasazený model můžete vyřadit z provozu, číst ho pomocí novější verze základního modelu a znovu ho nasadit pro lepší přesnost. Základní modely i vlastní modely se po nějaké době vyřadí (viz životní cyklus modelu a koncového bodu).

Question 1

Jaký je rozdíl mezi základním modelem a vlastním převodem řeči na textový model?

Accepted Answer

Základní řeč na textový model se trénuje s daty vlastněnými Microsoftem a už je nasazená v cloudu. Vlastní model můžete vytvořit a použít k lepšímu přizpůsobení prostředí s konkrétním okolním šumem nebo jazykem. Výrobní podlahy, auta nebo hlučné ulice by vyžadovaly přizpůsobený akustický model. Témata, jako jsou biologie, fyzika, radiologie, názvy produktů a vlastní akronymy, by vyžadovaly přizpůsobený jazykový model. Pokud chcete vytrénovat vlastní model, měli byste začít se souvisejícím textem, abyste zlepšili rozpoznávání speciálních termínů a frází.

Question 2

Kde začít, když chci použít základní model?

Accepted Answer

Nejprve získejte klíč prostředku služby Speech a oblast na webu Azure Portal. Pokud chcete volat REST do předem nasazeného základního modelu, přečtěte si dokumentaci k rozhraním REST API . Pokud chcete použít WebSockets, stáhněte si sadu Speech SDK.

Question 3

Potřebuji vždy vytvořit vlastní model řeči?

Accepted Answer

Ne. Pokud vaše aplikace používá obecný každodenní jazyk, nemusíte model přizpůsobovat. Pokud se vaše aplikace používá v prostředí s malým šumem nebo bez šumu na pozadí, nemusíte model přizpůsobovat.

Na portálu můžete nasadit základní a přizpůsobené modely a pak s nimi spouštět testy přesnosti. Tuto funkci můžete použít k měření přesnosti základního modelu a vlastního modelu.

Question 4

Návody vědět, kdy je zpracování datové sady nebo modelu dokončené?

Accepted Answer

Jediným způsobem, jak zjistit, je zobrazit stav modelu nebo datové sady v tabulce. Po dokončení zpracování je stav Úspěch.

Question 5

Můžu vytvořit více než jeden model?

Accepted Answer

Počet modelů, které můžete mít v kolekci, není nijak omezený.

Question 6

Uvědomil jsem si, že jsem udělal chybu. Návody zrušit probíhající import dat nebo vytvoření modelu?

Accepted Answer

V současné době nemůžete vrátit zpět proces přizpůsobení akustiky nebo jazyka. Importovaná data a modely můžete odstranit, když jsou v terminálovém stavu.

Question 7

Získám několik výsledků pro každou frázi s podrobným výstupním formátem. Který z nich mám použít?

Accepted Answer

Vždy vezměte první výsledek, i když jiný výsledek ("N-Best") může mít vyšší hodnotu spolehlivosti. Služba Speech považuje první výsledek za nejlepší. Výsledek může být také prázdný řetězec, pokud nebyla rozpoznána žádná řeč.

Ostatní výsledky jsou pravděpodobně horší a nemusí obsahovat úplnou velká písmena a interpunkci. Tyto výsledky jsou nejužitečnější ve speciálních scénářích, například umožňují uživatelům vybrat opravy ze seznamu nebo zpracovávat nesprávně rozpoznané příkazy.

Question 8

Proč existuje více základních modelů?

Accepted Answer

Ve službě Speech si můžete vybrat z více než jednoho základního modelu. Každý název modelu obsahuje datum, kdy byl přidán. Když začnete trénovat vlastní model, použijte nejnovější model, abyste získali nejlepší přesnost. Starší základní modely jsou ještě nějakou dobu dostupné po zpřístupnění nového modelu. Model, se kterým jste pracovali, můžete dál používat, dokud se nevyřadí (viz životní cyklus modelu a koncového bodu). Stále doporučujeme přepnout na nejnovější základní model, abyste měli lepší přesnost.

Question 9

Můžu aktualizovat stávající model (stacking modelů)?

Accepted Answer

Existující model nejde aktualizovat. Jako řešení zkombinujte starou datovou sadu s novou datovou sadou a souborem readapt.

Stará datová sada a nová datová sada se musí zkombinovat do jednoho souboru .zip (pro akustická data) nebo v souboru .txt (pro jazyková data). Po dokončení adaptace znovu nasaďte nový aktualizovaný model, aby získal nový koncový bod.

Question 10

Když je k dispozici nová verze základního modelu, aktualizuje se moje nasazení automaticky?

Accepted Answer

Nasazení se neaktualizují automaticky.

Pokud jste model přizpůsobili a nasadili, stávající nasazení zůstane tak, jak je. Nasazený model můžete vyřadit z provozu, číst ho pomocí novější verze základního modelu a znovu ho nasadit pro lepší přesnost.

Základní modely i vlastní modely se po nějaké době vyřadí (viz životní cyklus modelu a koncového bodu).

Question 11

Můžu si stáhnout model a spustit ho místně?

Accepted Answer

Vlastní model můžete spustit místně v kontejneru Dockeru.

Question 12

Můžu datové sady, modely a nasazení zkopírovat nebo přesunout do jiné oblasti nebo předplatného?

Accepted Answer

Pomocí rozhraní MODELS_COPY REST API můžete zkopírovat vlastní model do jiné oblasti nebo předplatného. Datové sady a nasazení se nedají kopírovat. Datovou sadu můžete znovu importovat v jiném předplatném a vytvořit tam koncové body pomocí kopií modelu.

Question 13

Jsou moje žádosti protokolované?

Accepted Answer

Ve výchozím nastavení nejsou požadavky zaprotokolovány (ani zvuk ani přepis). V případě potřeby můžete při vytváření vlastního koncového bodu vybrat obsah protokolu z této možnosti koncového bodu. V sadě Speech SDK můžete také povolit protokolování zvuku na základě jednotlivých požadavků, aniž byste museli vytvářet vlastní koncový bod. V obou případech se výsledky požadavků na zvuk a rozpoznávání uloží v zabezpečeném úložišti. Předplatná, která používají úložiště vlastněné Microsoftem, jsou k dispozici po dobu 30 dnů.

Pokud použijete vlastní koncový bod s obsahem protokolu z tohoto koncového bodu , můžete exportovat protokolované soubory na stránce nasazení v nástroji Speech Studio. Pokud je protokolování zvuku povolené prostřednictvím sady SDK, zavolejte rozhraní API pro přístup k souborům. Protokoly můžete kdykoli odstranit také pomocí rozhraní API.

Question 14

Dochází k omezování mých požadavků?

Accepted Answer

Informace najdete v tématu Kvóty a omezení služby Speech.

Question 15

Jak se mi účtuje zvuk se dvěma kanály?

Accepted Answer

Pokud každý kanál odešlete samostatně ve vlastním souboru, účtuje se vám doba trvání zvuku každého souboru. Pokud odešlete jeden soubor s kanály multiplexovanými společně, budou se vám účtovat poplatky za dobu trvání jednoho souboru. Další informace o cenách najdete na stránce s cenami služeb Azure AI.

Důležité

Pokud máte další obavy ohledně ochrany osobních údajů, které vám brání v používání vlastní služby Speech, obraťte se na některý z kanálů podpory.

Zvýšení souběžnosti

Informace najdete v tématu Kvóty a omezení služby Speech.

Question 16

Jaký je limit velikosti datové sady a proč se jedná o limit?

Accepted Answer

Limit je způsoben omezením velikosti souborů pro nahrání protokolu HTTP. Skutečný limit najdete v tématu Kvóty a limity služby Speech. Data můžete rozdělit do několika datových sad a vybrat je, abyste model vytrénovali.

Question 17

Můžu textové soubory zazipovat (komprimovat), abych mohl nahrát větší textový soubor?

Accepted Answer

Ne. V současné době jsou povoleny pouze nekomprimované textové soubory.

Question 18

Sestava dat říká, že došlo k neúspěšným promluvám. V čem je problém?

Accepted Answer

Selhání nahrání 100 procent promluv v souboru není problém. Pokud se většina promluv v akustické nebo jazykové datové sadě (například více než 95 procent) úspěšně naimportuje, může být datová sada použitelná. Přesto ale doporučujeme, abyste se pokusili zjistit, proč promluvy selhaly, a problém pak opravit. Nejběžnější problémy, jako jsou chyby formátování, se dají snadno opravit.

Question 19

Kolik akustických dat potřebuji?

Accepted Answer

Doporučujeme začít od 30 minut do 1 hodiny akustických dat.

Question 20

Jaká data mám shromáždit?

Accepted Answer

Shromážděte data, která jsou co nejblíže scénáři aplikace, a případ použití. Shromažďování dat by mělo odpovídat cílové aplikaci a uživatelům z hlediska zařízení nebo zařízení, prostředí a typů mluvčích. Obecně platí, že byste měli shromažďovat data z co nejširší škály mluvčích.

Question 21

Jak mám shromažďovat akustická data?

Accepted Answer

Můžete vytvořit samostatnou aplikaci pro shromažďování dat nebo použít software pro záznam zvuku mimo polici. Můžete také vytvořit verzi aplikace, která protokoluje zvuková data a pak tato data používá.

Question 22

Musím přepisovat adaptační data sama?

Accepted Answer

Ano. Můžete ho sami přepsat nebo použít profesionální službu přepisu. Někteří uživatelé dávají přednost profesionálním přepisům a jiní používají crowdsourcing nebo přepisují samotná data.

Question 23

Jak dlouho trvá trénování vlastního modelu se zvukovými daty?

Accepted Answer

Trénování modelu pomocí zvukových dat může být zdlouhavý proces. V závislosti na množství dat může vytvoření vlastního modelu trvat několik dní. Pokud to nejde dokončit do jednoho týdne, služba může operaci trénování přerušit a nahlásit model jako neúspěšný.

Obecně platí, že služba Speech zpracovává přibližně 10 hodin zvukových dat za den v oblastech s vyhrazeným hardwarem. V jiných oblastech může zpracovávat pouze přibližně 1 hodinu zvukových dat za den. Trénování s textem je rychlejší a obvykle se dokončí během několika minut.

Použijte jednu z oblastí, kde je k dispozici vyhrazený hardware pro trénování. Služba Speech používá k trénování v těchto oblastech až 20 hodin zvuku. V jiných oblastech služba Speech využívá až 8 hodin.

Question 24

Co je míra chyb slov (WER) a jak se vypočítá?

Accepted Answer

WER je metrika vyhodnocení pro rozpoznávání řeči. Funkce WER se vypočítá jako celkový počet chyb (vložení, odstranění a nahrazení) vydělený celkovým počtem slov v přepisu odkazu. Další informace najdete v tématu Kvantitativní testování modelu.

Question 25

Návody určit, jestli jsou výsledky testu přesnosti dobré?

Accepted Answer

Výsledky ukazují porovnání mezi základním modelem a modelem, který jste přizpůsobili. Pokud chcete provést přizpůsobení, měli byste se snažit porazit základní model.

Question 26

Návody určit WER základního modelu, abych viděl, jestli se zlepšil?

Accepted Answer

Výsledky offline testů ukazují přesnost standardních hodnot vlastního modelu a zlepšení oproti směrnému plánu.

Question 27

Kolik textových dat potřebuji nahrát?

Accepted Answer

Záleží na tom, jak se liší slovník a fráze používané ve vaší aplikaci od počátečních jazykových modelů. Pro všechna nová slova je užitečné poskytnout co nejvíce příkladů použití těchto slov. Pro běžné fráze, které se používají ve vaší aplikaci, včetně frází v jazykových datech, je užitečné poskytnout mnoho příkladů, protože systému říká, aby tyto termíny také naslouchal. V datové sadě jazyka je běžné mít alespoň 100 promluv a obvykle několik stovek nebo více promluv. Pokud se očekává, že některé typy dotazů budou častější než jiné, můžete do datové sady vložit více kopií běžných dotazů.

Question 28

Můžu jednoduše nahrát seznam slov?

Accepted Answer

Nahrání seznamu slov je přidá do slovníku, ale nenaučí systém, jak se slova obvykle používají. Poskytnutím úplných nebo částečných promluv (vět nebo frází věcí, které uživatelé pravděpodobně říkají), může se jazykový model naučit nová slova a způsob jejich použití. Vlastní jazykový model je vhodný nejen pro přidání nových slov do systému, ale také pro úpravu pravděpodobnosti známých slov pro vaši aplikaci. Poskytování úplných promluv pomáhá systému lépe se učit.

Share via

Nejčastější dotazy k převodu řeči na text

OBECNÉ