Egyéni beszédmodell pontosságának tesztelése

Ebben a cikkben megtudhatja, hogyan mérheti és javíthatja az alap beszéd pontosságát szövegmodell vagy saját egyéni modelljei számára. A pontosság teszteléséhez hang- és emberi címkével ellátott átiratadatokra van szükség. 30 perctől 5 órányi reprezentatív hanganyagot kell megadnia.

Fontos

A tesztelés során a rendszer átírást végez. Ezt fontos szem előtt tartani, mivel a díjszabás szolgáltatásajánlatonként és előfizetési szintenként eltérő. A legfrissebb részletekért mindig tekintse meg az Azure AI-szolgáltatások hivatalos díjszabását.

Teszt létrehozása

Egy teszt létrehozásával tesztelheti az egyéni modell pontosságát. A tesztekhez hangfájlok és azok megfelelő átiratainak gyűjteménye szükséges. Összehasonlíthatja az egyéni modell pontosságát a beszéd és a szöveg alapmodelljével vagy egy másik egyéni modellel. A teszteredmények lekérése után értékelje ki a szavak hibaarányát (WER) a beszédfelismerési eredményekhez képest.

Teszt létrehozásához kövesse az alábbi lépéseket:

  1. Jelentkezzen be a Speech Studióba.

  2. Válassza az Egyéni beszéd> a projekt neve >Tesztmodellek lehetőséget.

  3. Válassza az Új teszt létrehozása lehetőséget.

  4. Válassza a Pontosság kiértékelése>tovább lehetőséget.

  5. Válasszon ki egy hang- és egy emberi címkével ellátott átirat-adatkészletet, majd válassza a Tovább gombot. Ha nincs elérhető adathalmaz, szakítsa meg a beállítást, majd lépjen a Speech adathalmazok menübe az adathalmazok feltöltéséhez.

    Feljegyzés

    Fontos, hogy olyan akusztikai adatkészletet válasszon, amely eltér a modellhez használttól. Ez a megközelítés reálisabb képet adhat a modell teljesítményéről.

  6. Jelöljön ki legfeljebb két modellt, majd válassza a Tovább gombot.

  7. Adja meg a teszt nevét és leírását, majd kattintson a Tovább gombra.

  8. Tekintse át a teszt részleteit, majd válassza a Mentés és bezárás lehetőséget.

Teszt létrehozásához használja a spx csr evaluation create parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:

  • Állítsa a project paramétert egy meglévő projekt azonosítójára. Ez a paraméter ajánlott, hogy a tesztet a Speech Studióban is megtekinthesse. Futtathatja a parancsot az spx csr project list elérhető projektek lekéréséhez.
  • Állítsa be a szükséges model1 paramétert a tesztelni kívánt modell azonosítójára.
  • Állítsa be a szükséges model2 paramétert egy másik tesztelni kívánt modell azonosítójára. Ha nem szeretne két modellt összehasonlítani, használja ugyanazt a modellt mindkettőhöz model1 és model2.
  • Állítsa be a szükséges dataset paramétert a teszthez használni kívánt adathalmaz azonosítójára.
  • Állítsa be a paramétert language , ellenkező esetben a Speech CLI alapértelmezés szerint az "en-US" értéket állítja be. Ennek a paraméternek kell lennie az adathalmaz tartalmának területi beállításának. A területi beállítás később nem módosítható. A Speech CLI language paraméter megfelel a locale JSON-kérés és -válasz tulajdonságának.
  • Adja meg a szükséges name paramétert. Ez a paraméter a Speech Studióban megjelenített név. A Speech CLI name paraméter megfelel a displayName JSON-kérés és -válasz tulajdonságának.

Íme egy példa a Speech CLI-parancsra, amely létrehoz egy tesztet:

spx csr evaluation create --api-version v3.1 --project 9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226 --dataset be378d9d-a9d7-4d4a-820a-e0432e8678c7 --model1 ff43e922-e3e6-4bf0-8473-55c08fd68048 --model2 1aae1070-7972-47e9-a977-87e3b05c457d --name "My Evaluation" --description "My Evaluation Description"

A válasz törzsének a következő formátumban kell érkeznie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
  },
  "properties": {
    "wordErrorRate2": -1.0,
    "wordErrorRate1": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1
  },
  "lastActionDateTime": "2022-05-20T16:42:43Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T16:42:43Z",
  "locale": "en-US",
  "displayName": "My Evaluation",
  "description": "My Evaluation Description"
}

A válasz törzsének legfelső szintű self tulajdonsága az értékelés URI-ja. Ezzel az URI-val részletes információkat kaphat a projektről és a tesztelési eredményekről. Ezzel az URI-val is frissítheti vagy törölheti az értékelést.

A Speech CLI kiértékelésekkel kapcsolatos súgójához futtassa a következő parancsot:

spx help csr evaluation

Teszt létrehozásához használja a Speech to text REST API Evaluations_Create műveletét. A kérelem törzsének összeállítása az alábbi utasítások szerint:

  • Állítsa a project tulajdonságot egy meglévő projekt URI-jára. Ez a tulajdonság ajánlott, hogy a tesztet a Speech Studióban is megtekinthesse. Projects_List kérést is kérhet az elérhető projektek beszerzéséhez.
  • Állítsa be a tulajdonságot belülre testingKindEvaluationcustomProperties. Ha nem adja meg Evaluation, a teszt minőségi vizsgálatként lesz kezelve. testingKind A pontossági EvaluationInspectionpontszámokat az API-val érheti el, de a Speech Studióban nem.
  • Állítsa a szükséges model1 tulajdonságot a tesztelni kívánt modell URI-jára.
  • Állítsa be a szükséges model2 tulajdonságot egy másik tesztelni kívánt modell URI-jára. Ha nem szeretne két modellt összehasonlítani, használja ugyanazt a modellt mindkettőhöz model1 és model2.
  • Állítsa be a szükséges dataset tulajdonságot a teszthez használni kívánt adathalmaz URI-jára.
  • Állítsa be a szükséges locale tulajdonságot. Ennek a tulajdonságnak kell lennie az adathalmaz tartalmának területi beállításának. A területi beállítás később nem módosítható.
  • Állítsa be a szükséges displayName tulajdonságot. Ez a tulajdonság a Speech Studióban megjelenített név.

Http POST-kérés létrehozása az URI használatával az alábbi példában látható módon. Cserélje le YourSubscriptionKey a Speech erőforráskulcsát, cserélje le YourServiceRegion a Speech erőforrásterületre, és állítsa be a kérés törzstulajdonságait a korábban leírtak szerint.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
  },
  "displayName": "My Evaluation",
  "description": "My Evaluation Description",
  "customProperties": {
    "testingKind": "Evaluation"
  },
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations"

A válasz törzsének a következő formátumban kell érkeznie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
  },
  "properties": {
    "wordErrorRate2": -1.0,
    "wordErrorRate1": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1
  },
  "lastActionDateTime": "2022-05-20T16:42:43Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T16:42:43Z",
  "locale": "en-US",
  "displayName": "My Evaluation",
  "description": "My Evaluation Description",
  "customProperties": {
    "testingKind": "Evaluation"
  }
}

A válasz törzsének legfelső szintű self tulajdonsága az értékelés URI-ja. Ezzel az URI-val részletes információkat kaphat az értékelés projektjéről és a tesztelés eredményeiről. Ezzel az URI-val is frissítheti vagy törölheti az értékelést.

Teszteredmények lekérése

Le kell szereznie a teszteredményeket, és ki kell értékelnie a szavak hibaarányát (WER) a beszédfelismerési eredményekhez képest.

A teszteredmények lekéréséhez kövesse az alábbi lépéseket:

  1. Jelentkezzen be a Speech Studióba.
  2. Válassza az Egyéni beszéd> a projekt neve >Tesztmodellek lehetőséget.
  3. Válassza ki a hivatkozást tesztnév alapján.
  4. Miután a teszt befejeződött, a Sikeres állapot beállításnak megfelelően olyan eredményeket kell látnia, amelyek tartalmazzák az egyes tesztelt modellek WER-számát.

Ez a lap felsorolja az adathalmaz összes kimondott szövegét és a felismerési eredményeket, valamint a beküldött adathalmaz átiratát. Különböző hibatípusokat kapcsolhat be, beleértve a beszúrást, a törlést és a helyettesítést. A hang meghallgatásával és az egyes oszlopokban a felismerési eredmények összehasonlításával eldöntheti, hogy melyik modell felel meg az igényeinek, és meghatározhatja, hogy hol van szükség további betanításra és fejlesztésre.

A teszteredmények lekéréséhez használja a spx csr evaluation status parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:

  • Állítsa be a szükséges evaluation paramétert annak a kiértékelésnek az azonosítójára, amelyet le szeretne kapni a teszteredmények között.

Íme egy példa a Speech CLI-parancsra, amely lekéri a teszteredményeket:

spx csr evaluation status --api-version v3.1 --evaluation 8bfe6b05-f093-4ab4-be7d-180374b751ca

A hibaarányok és további részletek a válasz törzsében jelennek meg.

A válasz törzsének a következő formátumban kell érkeznie:

{
	"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
	"model1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
	},
	"model2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
	},
	"dataset": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
	},
	"transcription2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
	},
	"transcription1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
	},
	"project": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
	},
	"links": {
		"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
	},
	"properties": {
		"wordErrorRate2": 4.62,
		"wordErrorRate1": 4.6,
		"sentenceErrorRate2": 66.7,
		"sentenceCount2": 3,
		"wordCount2": 173,
		"correctWordCount2": 166,
		"wordSubstitutionCount2": 7,
		"wordDeletionCount2": 0,
		"wordInsertionCount2": 1,
		"sentenceErrorRate1": 66.7,
		"sentenceCount1": 3,
		"wordCount1": 174,
		"correctWordCount1": 166,
		"wordSubstitutionCount1": 7,
		"wordDeletionCount1": 1,
		"wordInsertionCount1": 0
	},
	"lastActionDateTime": "2022-05-20T16:42:56Z",
	"status": "Succeeded",
	"createdDateTime": "2022-05-20T16:42:43Z",
	"locale": "en-US",
	"displayName": "My Evaluation",
	"description": "My Evaluation Description",
	"customProperties": {
		"testingKind": "Evaluation"
	}
}

A Speech CLI kiértékelésekkel kapcsolatos súgójához futtassa a következő parancsot:

spx help csr evaluation

A teszteredmények lekéréséhez először használja a Speech to text REST API Evaluations_Get műveletét.

Http GET-kérés létrehozása az URI használatával az alábbi példában látható módon. Cserélje le YourEvaluationId a kiértékelési azonosítót, cserélje le YourSubscriptionKey a Speech erőforráskulcsára, és cserélje le YourServiceRegion a Speech erőforrásrégiójára.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/YourEvaluationId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

A hibaarányok és további részletek a válasz törzsében jelennek meg.

A válasz törzsének a következő formátumban kell érkeznie:

{
	"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
	"model1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
	},
	"model2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
	},
	"dataset": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
	},
	"transcription2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
	},
	"transcription1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
	},
	"project": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
	},
	"links": {
		"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
	},
	"properties": {
		"wordErrorRate2": 4.62,
		"wordErrorRate1": 4.6,
		"sentenceErrorRate2": 66.7,
		"sentenceCount2": 3,
		"wordCount2": 173,
		"correctWordCount2": 166,
		"wordSubstitutionCount2": 7,
		"wordDeletionCount2": 0,
		"wordInsertionCount2": 1,
		"sentenceErrorRate1": 66.7,
		"sentenceCount1": 3,
		"wordCount1": 174,
		"correctWordCount1": 166,
		"wordSubstitutionCount1": 7,
		"wordDeletionCount1": 1,
		"wordInsertionCount1": 0
	},
	"lastActionDateTime": "2022-05-20T16:42:56Z",
	"status": "Succeeded",
	"createdDateTime": "2022-05-20T16:42:43Z",
	"locale": "en-US",
	"displayName": "My Evaluation",
	"description": "My Evaluation Description",
	"customProperties": {
		"testingKind": "Evaluation"
	}
}

Szavak hibaarányának kiértékelése (WER)

A modell pontosságának mérésére szolgáló iparági szabvány a szóhibák aránya (WER). A WER megszámolja a felismerés során azonosított helytelen szavak számát, és elosztja az összeget az emberi címkével ellátott átiratban (N) megadott szavak teljes számával.

A helytelenül azonosított szavak három kategóriába sorolhatók:

  • Beszúrás (I): A hipotézis átiratában helytelenül hozzáadott szavak
  • Törlés (D): A hipotézis átiratában nem észlelt szavak
  • Helyettesítés (S): A hivatkozás és a hipotézis között helyettesített szavak

A Speech Studióban a hányadost 100-tal szorozzák meg, és százalékként jelennek meg. A Speech CLI és a REST API eredményei nem szorozhatók meg 100-tal.

$$ WER = {{I+D+S}\over N} \times 100 $$

Íme egy példa, amely helytelenül azonosított szavakat mutat be az emberi címkével ellátott átirathoz képest:

Képernyőkép a helytelenül azonosított szavakról.

A beszédfelismerés eredménye a következőképpen téves:

  • Beszúrás (I): Hozzáadta az "a" szót
  • Törlés (D): Törölte az "are" szót
  • Helyettesítés (S): A "Jones" szó helyett a "John"

Az előző példában szereplő hibaarány 60%.

Ha helyileg szeretné replikálni a WER-méréseket, használhatja az NIST pontozási eszközkészletéből (SCTK) származó sclite eszközt.

Hibák elhárítása és a WER javítása

A gépfelismerési eredmények WER-számításával kiértékelheti az alkalmazással, eszközzel vagy termékkel használt modell minőségét. Az 5-10%-os WER jó minőségűnek minősül, és használatra kész. A 20%-os WER elfogadható, de érdemes megfontolni a további képzést. A 30%-os vagy több WER rossz minőséget jelez, és testreszabást és betanítást igényel.

A hibák elosztása fontos. Ha sok törlési hiba történik, az általában a hangjelzés gyenge erőssége miatt fordul elő. A probléma megoldásához közelebb kell gyűjtenie a hangadatokat a forráshoz. A beszúrási hibák azt jelentik, hogy a hang zajos környezetben lett rögzítve, és kereszttalak jelen lehet, ami felismerési problémákat okoz. A helyettesítési hibák gyakran akkor jelentkeznek, ha a tartományspecifikus kifejezések nem megfelelő mintáját adják meg emberi címkével ellátott átiratként vagy kapcsolódó szövegként.

Az egyes fájlok elemzésével meghatározhatja, hogy milyen típusú hibák léteznek, és mely hibák egyediek egy adott fájlhoz. A fájlszintű problémák megértése segít a fejlesztések célba terjesztésében.

Jogkivonat hibaarányának kiértékelése (TER)

A szóhibák aránya mellett a token hibaarányának (TER) kiterjesztett mérésével is kiértékelheti a minőséget a végpontok közötti megjelenítési formátumon. A lexikális formátumonThat will cost $900. (helyett that will cost nine hundred dollars) a TER figyelembe veszi a megjelenítési formátum olyan aspektusait, mint az írásjelek, a nagybetűs megjelenítés és az ITN. További információ a kimeneti formázás megjelenítéséről beszédfelolvasással.

A TER megszámolja a felismerés során azonosított helytelen tokenek számát, és az összeget az emberi címkével ellátott átiratban (N) megadott összes jogkivonattal osztja el.

$$ TER = {{I+D+S}\over N} \times 100 $$

A TER-számítás képlete a WER-hez is hasonló. Az egyetlen különbség az, hogy a TER kiszámítása a jogkivonat szintje alapján történik a szószint helyett.

  • Beszúrás (I): A hipotézis átiratában helytelenül hozzáadott tokenek
  • Törlés (D): A hipotézis átiratában nem észlelt tokenek
  • Helyettesítés (S): A hivatkozás és a hipotézis között helyettesített tokenek

Valós esetben a WER és a TER eredményeket is elemezheti a kívánt fejlesztések eléréséhez.

Feljegyzés

A TER méréséhez meg kell győződnie arról, hogy a hang- és átirattesztelési adatok olyan megjelenítési formázású átiratokat tartalmaznak, mint az írásjelek, a nagybetűs megjelenítés és az ITN.

Példaforgatókönyvek eredményei

A beszédfelismerési forgatókönyvek hangminőségtől és nyelvtől (szókincstől és beszédstílustól) függően változnak. Az alábbi táblázat négy gyakori forgatókönyvet vizsgál:

Eset Hangminőség Szókincs Beszédstílus
Hívásközpont Alacsony, 8 kHz, lehet két személy egy hangcsatornán, lehet tömörítve Szűk, tartományra és termékekre jellemző Társalgási, lazán strukturált
Hangsegéd, például Cortana, vagy egy meghajtón keresztüli ablak Magas, 16 kHz Entity-heavy (dalcímek, termékek, helyek) Világosan megfogalmazott szavak és kifejezések
Diktálás (csevegőüzenet, jegyzetek, keresés) Magas, 16 kHz Változatos Jegyzetkészítés
Videó zárt képaláírás Változatos, beleértve a változatos mikrofon használatát, hozzáadott zene Változatos, a találkozók, szavalt beszéd, zenei dalszövegek Olvasás, előkészítés vagy lazán strukturált

A különböző forgatókönyvek eltérő minőségi eredményeket eredményeznek. Az alábbi táblázat azt vizsgálja, hogy a werben milyen arányban vannak a jelen négy forgatókönyv tartalmai. A táblázat bemutatja, hogy mely hibatípusok a leggyakoribbak az egyes forgatókönyvekben. A beszúrási, helyettesítési és törlési hibaarányok segítenek meghatározni, hogy milyen típusú adatokat kell hozzáadni a modell továbbfejlesztéséhez.

Eset Beszédfelismerés minősége Beszúrási hibák Törlési hibák Helyettesítési hibák
Hívásközpont Közepes
(< 30% WER)
Alacsony, kivéve, ha mások a háttérben beszélnek Lehet, hogy magas. A call centerek zajosak lehetnek, és az átfedésben lévő hangszórók összezavarhatják a modellt Közepes. A termékek és a személyek nevei okozhatják ezeket a hibákat
Hangsegéd Magas
(lehet < 10% WER)
Alacsony Alacsony Közepes, dalcímek, terméknevek vagy helyek miatt
Diktálás Magas
(lehet < 10% WER)
Alacsony Alacsony Magas
Videó zárt képaláírás A videó típusától függ (50%-os WER lehet < ) Alacsony A zene, a zajok, a mikrofon minősége miatt lehet magas A zsargon okozhatja ezeket a hibákat

Következő lépések