Sdílet prostřednictvím


Charakteristiky a omezení posouzení výslovnosti

Důležité

Překlady mimo angličtinu jsou k dispozici pouze pro usnadnění. Prosím nahlédněte do EN-US verze tohoto dokumentu pro závaznou verzi.

V rámci služby Azure AI Speech poskytuje hodnocení výslovnosti komplexní vzdělávací řešení pro výuku jazyků s asistencí pro počítače. Posouzení výslovnosti zahrnuje několik kritérií pro posouzení výkonu žáka na více úrovních podrobností s vnímáním podobným lidským porotcům.

Jak přesné je hodnocení výslovnosti?

Funkce Hodnocení výslovnosti poskytuje objektivní skóre, jako je přesnost výslovnosti a míra fluence, pro jazykové učení s asistencí v počítači. Výkon hodnocení výslovnosti závisí na přesnosti přepisu služby Azure AI Speech –To-Text s použitím odeslaného přepisu jako reference a shodě mezi hodnotiteli mezi systémem a lidskými hodnotiteli. Definice přesnosti řeči –To-Text najdete v tématu Charakteristiky a omezení pro použití řeči na text.

Následující části jsou navržené tak, aby vám pomohly pochopit klíčové koncepty přesnosti, které platí pro použití hodnocení výslovnosti.

Jazyk přesnosti

Přesnost řeči –To-Text ovlivňuje hodnocení výslovnosti. Míra chyb ve Wordu (WER) se používá k měření přesnostiTo-Text řeči jako oborového standardu. WER spočítá počet nesprávných slov identifikovaných během rozpoznávání a pak se vydělí celkovým počtem slov uvedených ve správném přepisu, který je často vytvořen označováním člověkem.

Porovnání hodnocení výslovnosti s lidskými soudcemi

Pearsonův korelační koeficient se používá k měření korelace mezi rozhraním API pro hodnocení výslovnosti vygenerovanými skóre a skóre vygenerovanými lidskými porotci. Pearsonův korelační koeficient je míra lineární korelace pro dvě dané sekvence. Běžně se používá k měření rozdílu mezi automaticky generovanými výsledky stroje a popisky s poznámkami člověka. Tento koeficient přiřadí hodnotu mezi –1 až 1, kde 0 není žádná korelace, záporná hodnota znamená, že předpověď je proti cíli, a kladná hodnota znamená, jak je předpověď v souladu s cílem.

Navrhované pokyny pro interpretaci Pearsonova korelačního koeficientu jsou uvedeny v následující tabulce. Síla indikuje korelaci mezi dvěma proměnnými a odráží, jak konzistentně se výsledek stroje shoduje s lidskými popisky. Hodnoty, které jsou blízko 1, označují silnější korelaci.

Síla sdružení Hodnota koeficientu Podrobnost
Nízké 0.1 až 0.3 Automaticky generované skóre z automatického systému nejsou výrazně v souladu s vnímáním lidí.
Středně 0,3 až 0,5 Automaticky generované skóre z automatického systému jsou v souladu s vnímáním lidí, ale rozdíly stále existují a lidé nemusí souhlasit s výsledkem.
Vysoko 0,5 až 1.0 Automaticky generované skóre z automatického systému jsou v souladu s vnímáním lidí a lidé jsou ochotni souhlasit s výsledky systému.

V našich hodnoceních provedlo Hodnocení >výslovnosti Microsoftu 0,5 Pearsonovy korelace s výsledky lidských porotců, což značí, že automaticky generované výsledky jsou vysoce konzistentní s úsudkem lidských odborníků.

Omezení systému a osvědčené postupy pro zlepšení přesnosti systému

  • Hodnocení výslovnosti funguje lépe se vstupem zvuku ve vyšší kvalitě. Doporučujeme kvalitu vstupu 16 kHz nebo vyšší.
  • Kvalita hodnocení výslovnosti je ovlivněna také vzdáleností reproduktoru od mikrofonu. Nahrávky by měly být provedeny s reproduktorem blízko mikrofonu, a ne přes vzdálené připojení.
  • Hodnocení výslovnosti nepodporuje smíšený scénář hodnocení v oblasti jazyka.
  • Hodnocení výslovnosti podporuje širší škálu jazyků.
  • Posouzení výslovnosti nepodporuje scénář posouzení více mluvčích. Zvuk by měl obsahovat pouze jednoho mluvčího pro každé posouzení.
  • Hodnocení výslovnosti porovnává odeslaný zvuk s rodilými mluvčími v obecných podmínkách. Mluvčí by měl udržovat normální rychlost mluvení a hlasitost, a vyhnout se křičení nebo jinému zvyšování hlasu.
  • Hodnocení výslovnosti funguje lépe v prostředí s malým šumem na pozadí. Současné modely řeči si poradí s šumem v obecných podmínkách –To-Text. Hlučné prostředí nebo více lidí, kteří mluví současně, můžou vést ke snížení spolehlivosti vyhodnocení. Pokud chcete lépe zvládnout obtížné případy, můžete navrhnout, aby mluvčí opakoval svou výslovnost, pokud skóre pod určitou prahovou hodnotou.

Vyhodnocení posuzování výslovnosti ve vašich aplikacích

Výkon posouzení výslovnosti se bude lišit v závislosti na tom, co zákazníci implementují v reálném světě. Aby se zajistil optimální výkon ve scénářích, měli by zákazníci provádět vlastní vyhodnocení řešení, která implementují, pomocí hodnocení výslovnosti.

  • Před použitím hodnocení výslovnosti ve vašich aplikacích zvažte, jestli tento produkt ve vašem scénáři funguje dobře. Shromážděte data z reálného života z cílového scénáře, otestujte, jak hodnocení výslovnosti funguje, a ujistěte se, že rozpoznávání řeči -To-Text a hodnocení výslovnosti mohou poskytnout potřebnou přesnost, přečtěte si téma Vyhodnocení a zlepšení přesnosti služby Azure AI Custom Speech.
  • Vyberte vhodné prahové hodnoty podle cílového scénáře. Hodnocení výslovnosti poskytuje skóre přesnosti na různých úrovních a možná budete muset zvážit prahovou hodnotu použitou v reálném použití. Například metoda známkování pro výuku dětí nemusí být tak striktní jako pro učení dospělých. Zvažte nastavení vyšší prahové hodnoty detekce chybné výslovnosti pro dospělé.