Egyéni beszédmodell pontosságának tesztelése

Cikk
01/19/2024

Ebben a cikkben megtudhatja, hogyan mérheti és javíthatja az alap beszéd pontosságát szövegmodell vagy saját egyéni modelljei számára. A pontosság teszteléséhez hang- és emberi címkével ellátott átiratadatokra van szükség. 30 perctől 5 órányi reprezentatív hanganyagot kell megadnia.

Fontos

A tesztelés során a rendszer átírást végez. Ezt fontos szem előtt tartani, mivel a díjszabás szolgáltatásajánlatonként és előfizetési szintenként eltérő. A legfrissebb részletekért mindig tekintse meg az Azure AI-szolgáltatások hivatalos díjszabását.

Teszt létrehozása

Egy teszt létrehozásával tesztelheti az egyéni modell pontosságát. A tesztekhez hangfájlok és azok megfelelő átiratainak gyűjteménye szükséges. Összehasonlíthatja az egyéni modell pontosságát a beszéd és a szöveg alapmodelljével vagy egy másik egyéni modellel. A teszteredmények lekérése után értékelje ki a szavak hibaarányát (WER) a beszédfelismerési eredményekhez képest.

Teszt létrehozásához kövesse az alábbi lépéseket:

Jelentkezzen be a Speech Studióba.
Válassza az Egyéni beszéd> a projekt neve >Tesztmodellek lehetőséget.
Válassza az Új teszt létrehozása lehetőséget.
Válassza a Pontosság kiértékelése>tovább lehetőséget.
Válasszon ki egy hang- és egy emberi címkével ellátott átirat-adatkészletet, majd válassza a Tovább gombot. Ha nincs elérhető adathalmaz, szakítsa meg a beállítást, majd lépjen a Speech adathalmazok menübe az adathalmazok feltöltéséhez.

Feljegyzés

Fontos, hogy olyan akusztikai adatkészletet válasszon, amely eltér a modellhez használttól. Ez a megközelítés reálisabb képet adhat a modell teljesítményéről.
Jelöljön ki legfeljebb két modellt, majd válassza a Tovább gombot.
Adja meg a teszt nevét és leírását, majd kattintson a Tovább gombra.
Tekintse át a teszt részleteit, majd válassza a Mentés és bezárás lehetőséget.

Teszt létrehozásához használja a spx csr evaluation create parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:

Állítsa a project paramétert egy meglévő projekt azonosítójára. Ez a paraméter ajánlott, hogy a tesztet a Speech Studióban is megtekinthesse. Futtathatja a parancsot az spx csr project list elérhető projektek lekéréséhez.
Állítsa be a szükséges model1 paramétert a tesztelni kívánt modell azonosítójára.
Állítsa be a szükséges model2 paramétert egy másik tesztelni kívánt modell azonosítójára. Ha nem szeretne két modellt összehasonlítani, használja ugyanazt a modellt mindkettőhöz model1 és model2.
Állítsa be a szükséges dataset paramétert a teszthez használni kívánt adathalmaz azonosítójára.
Állítsa be a paramétert language , ellenkező esetben a Speech CLI alapértelmezés szerint az "en-US" értéket állítja be. Ennek a paraméternek kell lennie az adathalmaz tartalmának területi beállításának. A területi beállítás később nem módosítható. A Speech CLI language paraméter megfelel a locale JSON-kérés és -válasz tulajdonságának.
Adja meg a szükséges name paramétert. Ez a paraméter a Speech Studióban megjelenített név. A Speech CLI name paraméter megfelel a displayName JSON-kérés és -válasz tulajdonságának.

Íme egy példa a Speech CLI-parancsra, amely létrehoz egy tesztet:

spx csr evaluation create --api-version v3.1 --project 9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226 --dataset be378d9d-a9d7-4d4a-820a-e0432e8678c7 --model1 ff43e922-e3e6-4bf0-8473-55c08fd68048 --model2 1aae1070-7972-47e9-a977-87e3b05c457d --name "My Evaluation" --description "My Evaluation Description"

A válasz törzsének a következő formátumban kell érkeznie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
  },
  "properties": {
    "wordErrorRate2": -1.0,
    "wordErrorRate1": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1
  },
  "lastActionDateTime": "2022-05-20T16:42:43Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T16:42:43Z",
  "locale": "en-US",
  "displayName": "My Evaluation",
  "description": "My Evaluation Description"
}

A válasz törzsének legfelső szintű self tulajdonsága az értékelés URI-ja. Ezzel az URI-val részletes információkat kaphat a projektről és a tesztelési eredményekről. Ezzel az URI-val is frissítheti vagy törölheti az értékelést.

A Speech CLI kiértékelésekkel kapcsolatos súgójához futtassa a következő parancsot:

spx help csr evaluation

Teszt létrehozásához használja a Speech to text REST API Evaluations_Create műveletét. A kérelem törzsének összeállítása az alábbi utasítások szerint:

Állítsa a project tulajdonságot egy meglévő projekt URI-jára. Ez a tulajdonság ajánlott, hogy a tesztet a Speech Studióban is megtekinthesse. Projects_List kérést is kérhet az elérhető projektek beszerzéséhez.
Állítsa be a tulajdonságot belülre testingKindEvaluationcustomProperties. Ha nem adja meg Evaluation, a teszt minőségi vizsgálatként lesz kezelve. testingKind A pontossági EvaluationInspectionpontszámokat az API-val érheti el, de a Speech Studióban nem.
Állítsa a szükséges model1 tulajdonságot a tesztelni kívánt modell URI-jára.
Állítsa be a szükséges model2 tulajdonságot egy másik tesztelni kívánt modell URI-jára. Ha nem szeretne két modellt összehasonlítani, használja ugyanazt a modellt mindkettőhöz model1 és model2.
Állítsa be a szükséges dataset tulajdonságot a teszthez használni kívánt adathalmaz URI-jára.
Állítsa be a szükséges locale tulajdonságot. Ennek a tulajdonságnak kell lennie az adathalmaz tartalmának területi beállításának. A területi beállítás később nem módosítható.
Állítsa be a szükséges displayName tulajdonságot. Ez a tulajdonság a Speech Studióban megjelenített név.

Http POST-kérés létrehozása az URI használatával az alábbi példában látható módon. Cserélje le YourSubscriptionKey a Speech erőforráskulcsát, cserélje le YourServiceRegion a Speech erőforrásterületre, és állítsa be a kérés törzstulajdonságait a korábban leírtak szerint.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
  },
  "displayName": "My Evaluation",
  "description": "My Evaluation Description",
  "customProperties": {
    "testingKind": "Evaluation"
  },
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations"

A válasz törzsének a következő formátumban kell érkeznie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
  },
  "properties": {
    "wordErrorRate2": -1.0,
    "wordErrorRate1": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1
  },
  "lastActionDateTime": "2022-05-20T16:42:43Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T16:42:43Z",
  "locale": "en-US",
  "displayName": "My Evaluation",
  "description": "My Evaluation Description",
  "customProperties": {
    "testingKind": "Evaluation"
  }
}

A válasz törzsének legfelső szintű self tulajdonsága az értékelés URI-ja. Ezzel az URI-val részletes információkat kaphat az értékelés projektjéről és a tesztelés eredményeiről. Ezzel az URI-val is frissítheti vagy törölheti az értékelést.

Teszteredmények lekérése

Le kell szereznie a teszteredményeket, és ki kell értékelnie a szavak hibaarányát (WER) a beszédfelismerési eredményekhez képest.

A teszteredmények lekéréséhez kövesse az alábbi lépéseket:

Jelentkezzen be a Speech Studióba.
Válassza az Egyéni beszéd> a projekt neve >Tesztmodellek lehetőséget.
Válassza ki a hivatkozást tesztnév alapján.
Miután a teszt befejeződött, a Sikeres állapot beállításnak megfelelően olyan eredményeket kell látnia, amelyek tartalmazzák az egyes tesztelt modellek WER-számát.

Ez a lap felsorolja az adathalmaz összes kimondott szövegét és a felismerési eredményeket, valamint a beküldött adathalmaz átiratát. Különböző hibatípusokat kapcsolhat be, beleértve a beszúrást, a törlést és a helyettesítést. A hang meghallgatásával és az egyes oszlopokban a felismerési eredmények összehasonlításával eldöntheti, hogy melyik modell felel meg az igényeinek, és meghatározhatja, hogy hol van szükség további betanításra és fejlesztésre.

A teszteredmények lekéréséhez használja a spx csr evaluation status parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:

Állítsa be a szükséges evaluation paramétert annak a kiértékelésnek az azonosítójára, amelyet le szeretne kapni a teszteredmények között.

Íme egy példa a Speech CLI-parancsra, amely lekéri a teszteredményeket:

spx csr evaluation status --api-version v3.1 --evaluation 8bfe6b05-f093-4ab4-be7d-180374b751ca

A hibaarányok és további részletek a válasz törzsében jelennek meg.

A válasz törzsének a következő formátumban kell érkeznie:

{
	"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
	"model1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
	},
	"model2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
	},
	"dataset": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
	},
	"transcription2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
	},
	"transcription1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
	},
	"project": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
	},
	"links": {
		"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
	},
	"properties": {
		"wordErrorRate2": 4.62,
		"wordErrorRate1": 4.6,
		"sentenceErrorRate2": 66.7,
		"sentenceCount2": 3,
		"wordCount2": 173,
		"correctWordCount2": 166,
		"wordSubstitutionCount2": 7,
		"wordDeletionCount2": 0,
		"wordInsertionCount2": 1,
		"sentenceErrorRate1": 66.7,
		"sentenceCount1": 3,
		"wordCount1": 174,
		"correctWordCount1": 166,
		"wordSubstitutionCount1": 7,
		"wordDeletionCount1": 1,
		"wordInsertionCount1": 0
	},
	"lastActionDateTime": "2022-05-20T16:42:56Z",
	"status": "Succeeded",
	"createdDateTime": "2022-05-20T16:42:43Z",
	"locale": "en-US",
	"displayName": "My Evaluation",
	"description": "My Evaluation Description",
	"customProperties": {
		"testingKind": "Evaluation"
	}
}

A Speech CLI kiértékelésekkel kapcsolatos súgójához futtassa a következő parancsot:

spx help csr evaluation

A teszteredmények lekéréséhez először használja a Speech to text REST API Evaluations_Get műveletét.

Http GET-kérés létrehozása az URI használatával az alábbi példában látható módon. Cserélje le YourEvaluationId a kiértékelési azonosítót, cserélje le YourSubscriptionKey a Speech erőforráskulcsára, és cserélje le YourServiceRegion a Speech erőforrásrégiójára.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/YourEvaluationId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

A hibaarányok és további részletek a válasz törzsében jelennek meg.

A válasz törzsének a következő formátumban kell érkeznie:

{
	"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
	"model1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
	},
	"model2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
	},
	"dataset": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
	},
	"transcription2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
	},
	"transcription1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
	},
	"project": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
	},
	"links": {
		"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
	},
	"properties": {
		"wordErrorRate2": 4.62,
		"wordErrorRate1": 4.6,
		"sentenceErrorRate2": 66.7,
		"sentenceCount2": 3,
		"wordCount2": 173,
		"correctWordCount2": 166,
		"wordSubstitutionCount2": 7,
		"wordDeletionCount2": 0,
		"wordInsertionCount2": 1,
		"sentenceErrorRate1": 66.7,
		"sentenceCount1": 3,
		"wordCount1": 174,
		"correctWordCount1": 166,
		"wordSubstitutionCount1": 7,
		"wordDeletionCount1": 1,
		"wordInsertionCount1": 0
	},
	"lastActionDateTime": "2022-05-20T16:42:56Z",
	"status": "Succeeded",
	"createdDateTime": "2022-05-20T16:42:43Z",
	"locale": "en-US",
	"displayName": "My Evaluation",
	"description": "My Evaluation Description",
	"customProperties": {
		"testingKind": "Evaluation"
	}
}

Szavak hibaarányának kiértékelése (WER)

A modell pontosságának mérésére szolgáló iparági szabvány a szóhibák aránya (WER). A WER megszámolja a felismerés során azonosított helytelen szavak számát, és elosztja az összeget az emberi címkével ellátott átiratban (N) megadott szavak teljes számával.

A helytelenül azonosított szavak három kategóriába sorolhatók:

Beszúrás (I): A hipotézis átiratában helytelenül hozzáadott szavak
Törlés (D): A hipotézis átiratában nem észlelt szavak
Helyettesítés (S): A hivatkozás és a hipotézis között helyettesített szavak

A Speech Studióban a hányadost 100-tal szorozzák meg, és százalékként jelennek meg. A Speech CLI és a REST API eredményei nem szorozhatók meg 100-tal.

$$ WER = {{I+D+S}\over N} \times 100 $$

Íme egy példa, amely helytelenül azonosított szavakat mutat be az emberi címkével ellátott átirathoz képest:

Képernyőkép a helytelenül azonosított szavakról.

A beszédfelismerés eredménye a következőképpen téves:

Beszúrás (I): Hozzáadta az "a" szót
Törlés (D): Törölte az "are" szót
Helyettesítés (S): A "Jones" szó helyett a "John"

Az előző példában szereplő hibaarány 60%.

Ha helyileg szeretné replikálni a WER-méréseket, használhatja az NIST pontozási eszközkészletéből (SCTK) származó sclite eszközt.

Hibák elhárítása és a WER javítása

A gépfelismerési eredmények WER-számításával kiértékelheti az alkalmazással, eszközzel vagy termékkel használt modell minőségét. Az 5-10%-os WER jó minőségűnek minősül, és használatra kész. A 20%-os WER elfogadható, de érdemes megfontolni a további képzést. A 30%-os vagy több WER rossz minőséget jelez, és testreszabást és betanítást igényel.

A hibák elosztása fontos. Ha sok törlési hiba történik, az általában a hangjelzés gyenge erőssége miatt fordul elő. A probléma megoldásához közelebb kell gyűjtenie a hangadatokat a forráshoz. A beszúrási hibák azt jelentik, hogy a hang zajos környezetben lett rögzítve, és kereszttalak jelen lehet, ami felismerési problémákat okoz. A helyettesítési hibák gyakran akkor jelentkeznek, ha a tartományspecifikus kifejezések nem megfelelő mintáját adják meg emberi címkével ellátott átiratként vagy kapcsolódó szövegként.

Az egyes fájlok elemzésével meghatározhatja, hogy milyen típusú hibák léteznek, és mely hibák egyediek egy adott fájlhoz. A fájlszintű problémák megértése segít a fejlesztések célba terjesztésében.

Jogkivonat hibaarányának kiértékelése (TER)

A szóhibák aránya mellett a token hibaarányának (TER) kiterjesztett mérésével is kiértékelheti a minőséget a végpontok közötti megjelenítési formátumon. A lexikális formátumonThat will cost $900. (helyett that will cost nine hundred dollars) a TER figyelembe veszi a megjelenítési formátum olyan aspektusait, mint az írásjelek, a nagybetűs megjelenítés és az ITN. További információ a kimeneti formázás megjelenítéséről beszédfelolvasással.

A TER megszámolja a felismerés során azonosított helytelen tokenek számát, és az összeget az emberi címkével ellátott átiratban (N) megadott összes jogkivonattal osztja el.

$$ TER = {{I+D+S}\over N} \times 100 $$

A TER-számítás képlete a WER-hez is hasonló. Az egyetlen különbség az, hogy a TER kiszámítása a jogkivonat szintje alapján történik a szószint helyett.

Beszúrás (I): A hipotézis átiratában helytelenül hozzáadott tokenek
Törlés (D): A hipotézis átiratában nem észlelt tokenek
Helyettesítés (S): A hivatkozás és a hipotézis között helyettesített tokenek

Valós esetben a WER és a TER eredményeket is elemezheti a kívánt fejlesztések eléréséhez.

Feljegyzés

A TER méréséhez meg kell győződnie arról, hogy a hang- és átirattesztelési adatok olyan megjelenítési formázású átiratokat tartalmaznak, mint az írásjelek, a nagybetűs megjelenítés és az ITN.

Példaforgatókönyvek eredményei

A beszédfelismerési forgatókönyvek hangminőségtől és nyelvtől (szókincstől és beszédstílustól) függően változnak. Az alábbi táblázat négy gyakori forgatókönyvet vizsgál:

Eset	Hangminőség	Szókincs	Beszédstílus
Hívásközpont	Alacsony, 8 kHz, lehet két személy egy hangcsatornán, lehet tömörítve	Szűk, tartományra és termékekre jellemző	Társalgási, lazán strukturált
Hangsegéd, például Cortana, vagy egy meghajtón keresztüli ablak	Magas, 16 kHz	Entity-heavy (dalcímek, termékek, helyek)	Világosan megfogalmazott szavak és kifejezések
Diktálás (csevegőüzenet, jegyzetek, keresés)	Magas, 16 kHz	Változatos	Jegyzetkészítés
Videó zárt képaláírás	Változatos, beleértve a változatos mikrofon használatát, hozzáadott zene	Változatos, a találkozók, szavalt beszéd, zenei dalszövegek	Olvasás, előkészítés vagy lazán strukturált

A különböző forgatókönyvek eltérő minőségi eredményeket eredményeznek. Az alábbi táblázat azt vizsgálja, hogy a werben milyen arányban vannak a jelen négy forgatókönyv tartalmai. A táblázat bemutatja, hogy mely hibatípusok a leggyakoribbak az egyes forgatókönyvekben. A beszúrási, helyettesítési és törlési hibaarányok segítenek meghatározni, hogy milyen típusú adatokat kell hozzáadni a modell továbbfejlesztéséhez.

Eset	Beszédfelismerés minősége	Beszúrási hibák	Törlési hibák	Helyettesítési hibák
Hívásközpont	Közepes (< 30% WER)	Alacsony, kivéve, ha mások a háttérben beszélnek	Lehet, hogy magas. A call centerek zajosak lehetnek, és az átfedésben lévő hangszórók összezavarhatják a modellt	Közepes. A termékek és a személyek nevei okozhatják ezeket a hibákat
Hangsegéd	Magas (lehet < 10% WER)	Alacsony	Alacsony	Közepes, dalcímek, terméknevek vagy helyek miatt
Diktálás	Magas (lehet < 10% WER)	Alacsony	Alacsony	Magas
Videó zárt képaláírás	A videó típusától függ (50%-os WER lehet < )	Alacsony	A zene, a zajok, a mikrofon minősége miatt lehet magas	A zsargon okozhatja ezeket a hibákat

Egyéni beszédmodell pontosságának tesztelése

Teszt létrehozása

Teszteredmények lekérése

Szavak hibaarányának kiértékelése (WER)

Hibák elhárítása és a WER javítása

Jogkivonat hibaarányának kiértékelése (TER)

Példaforgatókönyvek eredményei

Következő lépések

További források