Egyéni beszédmodell pontosságának tesztelése
Ebben a cikkben megtudhatja, hogyan mérheti és javíthatja az alap beszéd pontosságát szövegmodell vagy saját egyéni modelljei számára. A pontosság teszteléséhez hang- és emberi címkével ellátott átiratadatokra van szükség. 30 perctől 5 órányi reprezentatív hanganyagot kell megadnia.
Fontos
A tesztelés során a rendszer átírást végez. Ezt fontos szem előtt tartani, mivel a díjszabás szolgáltatásajánlatonként és előfizetési szintenként eltérő. A legfrissebb részletekért mindig tekintse meg az Azure AI-szolgáltatások hivatalos díjszabását.
Teszt létrehozása
Egy teszt létrehozásával tesztelheti az egyéni modell pontosságát. A tesztekhez hangfájlok és azok megfelelő átiratainak gyűjteménye szükséges. Összehasonlíthatja az egyéni modell pontosságát a beszéd és a szöveg alapmodelljével vagy egy másik egyéni modellel. A teszteredmények lekérése után értékelje ki a szavak hibaarányát (WER) a beszédfelismerési eredményekhez képest.
Teszt létrehozásához kövesse az alábbi lépéseket:
Jelentkezzen be a Speech Studióba.
Válassza az Egyéni beszéd> a projekt neve >Tesztmodellek lehetőséget.
Válassza az Új teszt létrehozása lehetőséget.
Válassza a Pontosság kiértékelése>tovább lehetőséget.
Válasszon ki egy hang- és egy emberi címkével ellátott átirat-adatkészletet, majd válassza a Tovább gombot. Ha nincs elérhető adathalmaz, szakítsa meg a beállítást, majd lépjen a Speech adathalmazok menübe az adathalmazok feltöltéséhez.
Feljegyzés
Fontos, hogy olyan akusztikai adatkészletet válasszon, amely eltér a modellhez használttól. Ez a megközelítés reálisabb képet adhat a modell teljesítményéről.
Jelöljön ki legfeljebb két modellt, majd válassza a Tovább gombot.
Adja meg a teszt nevét és leírását, majd kattintson a Tovább gombra.
Tekintse át a teszt részleteit, majd válassza a Mentés és bezárás lehetőséget.
Teszt létrehozásához használja a spx csr evaluation create
parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:
- Állítsa a
project
paramétert egy meglévő projekt azonosítójára. Ez a paraméter ajánlott, hogy a tesztet a Speech Studióban is megtekinthesse. Futtathatja a parancsot azspx csr project list
elérhető projektek lekéréséhez. - Állítsa be a szükséges
model1
paramétert a tesztelni kívánt modell azonosítójára. - Állítsa be a szükséges
model2
paramétert egy másik tesztelni kívánt modell azonosítójára. Ha nem szeretne két modellt összehasonlítani, használja ugyanazt a modellt mindkettőhözmodel1
ésmodel2
. - Állítsa be a szükséges
dataset
paramétert a teszthez használni kívánt adathalmaz azonosítójára. - Állítsa be a paramétert
language
, ellenkező esetben a Speech CLI alapértelmezés szerint az "en-US" értéket állítja be. Ennek a paraméternek kell lennie az adathalmaz tartalmának területi beállításának. A területi beállítás később nem módosítható. A Speech CLIlanguage
paraméter megfelel alocale
JSON-kérés és -válasz tulajdonságának. - Adja meg a szükséges
name
paramétert. Ez a paraméter a Speech Studióban megjelenített név. A Speech CLIname
paraméter megfelel adisplayName
JSON-kérés és -válasz tulajdonságának.
Íme egy példa a Speech CLI-parancsra, amely létrehoz egy tesztet:
spx csr evaluation create --api-version v3.1 --project 9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226 --dataset be378d9d-a9d7-4d4a-820a-e0432e8678c7 --model1 ff43e922-e3e6-4bf0-8473-55c08fd68048 --model2 1aae1070-7972-47e9-a977-87e3b05c457d --name "My Evaluation" --description "My Evaluation Description"
A válasz törzsének a következő formátumban kell érkeznie:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
"model1": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
},
"model2": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
},
"dataset": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
},
"transcription2": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
},
"transcription1": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
},
"properties": {
"wordErrorRate2": -1.0,
"wordErrorRate1": -1.0,
"sentenceErrorRate2": -1.0,
"sentenceCount2": -1,
"wordCount2": -1,
"correctWordCount2": -1,
"wordSubstitutionCount2": -1,
"wordDeletionCount2": -1,
"wordInsertionCount2": -1,
"sentenceErrorRate1": -1.0,
"sentenceCount1": -1,
"wordCount1": -1,
"correctWordCount1": -1,
"wordSubstitutionCount1": -1,
"wordDeletionCount1": -1,
"wordInsertionCount1": -1
},
"lastActionDateTime": "2022-05-20T16:42:43Z",
"status": "NotStarted",
"createdDateTime": "2022-05-20T16:42:43Z",
"locale": "en-US",
"displayName": "My Evaluation",
"description": "My Evaluation Description"
}
A válasz törzsének legfelső szintű self
tulajdonsága az értékelés URI-ja. Ezzel az URI-val részletes információkat kaphat a projektről és a tesztelési eredményekről. Ezzel az URI-val is frissítheti vagy törölheti az értékelést.
A Speech CLI kiértékelésekkel kapcsolatos súgójához futtassa a következő parancsot:
spx help csr evaluation
Teszt létrehozásához használja a Speech to text REST API Evaluations_Create műveletét. A kérelem törzsének összeállítása az alábbi utasítások szerint:
- Állítsa a
project
tulajdonságot egy meglévő projekt URI-jára. Ez a tulajdonság ajánlott, hogy a tesztet a Speech Studióban is megtekinthesse. Projects_List kérést is kérhet az elérhető projektek beszerzéséhez. - Állítsa be a tulajdonságot belülre
testingKind
Evaluation
customProperties
. Ha nem adja megEvaluation
, a teszt minőségi vizsgálatként lesz kezelve.testingKind
A pontosságiEvaluation
Inspection
pontszámokat az API-val érheti el, de a Speech Studióban nem. - Állítsa a szükséges
model1
tulajdonságot a tesztelni kívánt modell URI-jára. - Állítsa be a szükséges
model2
tulajdonságot egy másik tesztelni kívánt modell URI-jára. Ha nem szeretne két modellt összehasonlítani, használja ugyanazt a modellt mindkettőhözmodel1
ésmodel2
. - Állítsa be a szükséges
dataset
tulajdonságot a teszthez használni kívánt adathalmaz URI-jára. - Állítsa be a szükséges
locale
tulajdonságot. Ennek a tulajdonságnak kell lennie az adathalmaz tartalmának területi beállításának. A területi beállítás később nem módosítható. - Állítsa be a szükséges
displayName
tulajdonságot. Ez a tulajdonság a Speech Studióban megjelenített név.
Http POST-kérés létrehozása az URI használatával az alábbi példában látható módon. Cserélje le YourSubscriptionKey
a Speech erőforráskulcsát, cserélje le YourServiceRegion
a Speech erőforrásterületre, és állítsa be a kérés törzstulajdonságait a korábban leírtak szerint.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"model1": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
},
"model2": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
},
"dataset": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
},
"displayName": "My Evaluation",
"description": "My Evaluation Description",
"customProperties": {
"testingKind": "Evaluation"
},
"locale": "en-US"
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations"
A válasz törzsének a következő formátumban kell érkeznie:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
"model1": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
},
"model2": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
},
"dataset": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
},
"transcription2": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
},
"transcription1": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
},
"properties": {
"wordErrorRate2": -1.0,
"wordErrorRate1": -1.0,
"sentenceErrorRate2": -1.0,
"sentenceCount2": -1,
"wordCount2": -1,
"correctWordCount2": -1,
"wordSubstitutionCount2": -1,
"wordDeletionCount2": -1,
"wordInsertionCount2": -1,
"sentenceErrorRate1": -1.0,
"sentenceCount1": -1,
"wordCount1": -1,
"correctWordCount1": -1,
"wordSubstitutionCount1": -1,
"wordDeletionCount1": -1,
"wordInsertionCount1": -1
},
"lastActionDateTime": "2022-05-20T16:42:43Z",
"status": "NotStarted",
"createdDateTime": "2022-05-20T16:42:43Z",
"locale": "en-US",
"displayName": "My Evaluation",
"description": "My Evaluation Description",
"customProperties": {
"testingKind": "Evaluation"
}
}
A válasz törzsének legfelső szintű self
tulajdonsága az értékelés URI-ja. Ezzel az URI-val részletes információkat kaphat az értékelés projektjéről és a tesztelés eredményeiről. Ezzel az URI-val is frissítheti vagy törölheti az értékelést.
Teszteredmények lekérése
Le kell szereznie a teszteredményeket, és ki kell értékelnie a szavak hibaarányát (WER) a beszédfelismerési eredményekhez képest.
A teszteredmények lekéréséhez kövesse az alábbi lépéseket:
- Jelentkezzen be a Speech Studióba.
- Válassza az Egyéni beszéd> a projekt neve >Tesztmodellek lehetőséget.
- Válassza ki a hivatkozást tesztnév alapján.
- Miután a teszt befejeződött, a Sikeres állapot beállításnak megfelelően olyan eredményeket kell látnia, amelyek tartalmazzák az egyes tesztelt modellek WER-számát.
Ez a lap felsorolja az adathalmaz összes kimondott szövegét és a felismerési eredményeket, valamint a beküldött adathalmaz átiratát. Különböző hibatípusokat kapcsolhat be, beleértve a beszúrást, a törlést és a helyettesítést. A hang meghallgatásával és az egyes oszlopokban a felismerési eredmények összehasonlításával eldöntheti, hogy melyik modell felel meg az igényeinek, és meghatározhatja, hogy hol van szükség további betanításra és fejlesztésre.
A teszteredmények lekéréséhez használja a spx csr evaluation status
parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:
- Állítsa be a szükséges
evaluation
paramétert annak a kiértékelésnek az azonosítójára, amelyet le szeretne kapni a teszteredmények között.
Íme egy példa a Speech CLI-parancsra, amely lekéri a teszteredményeket:
spx csr evaluation status --api-version v3.1 --evaluation 8bfe6b05-f093-4ab4-be7d-180374b751ca
A hibaarányok és további részletek a válasz törzsében jelennek meg.
A válasz törzsének a következő formátumban kell érkeznie:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
"model1": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
},
"model2": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
},
"dataset": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
},
"transcription2": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
},
"transcription1": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
},
"properties": {
"wordErrorRate2": 4.62,
"wordErrorRate1": 4.6,
"sentenceErrorRate2": 66.7,
"sentenceCount2": 3,
"wordCount2": 173,
"correctWordCount2": 166,
"wordSubstitutionCount2": 7,
"wordDeletionCount2": 0,
"wordInsertionCount2": 1,
"sentenceErrorRate1": 66.7,
"sentenceCount1": 3,
"wordCount1": 174,
"correctWordCount1": 166,
"wordSubstitutionCount1": 7,
"wordDeletionCount1": 1,
"wordInsertionCount1": 0
},
"lastActionDateTime": "2022-05-20T16:42:56Z",
"status": "Succeeded",
"createdDateTime": "2022-05-20T16:42:43Z",
"locale": "en-US",
"displayName": "My Evaluation",
"description": "My Evaluation Description",
"customProperties": {
"testingKind": "Evaluation"
}
}
A Speech CLI kiértékelésekkel kapcsolatos súgójához futtassa a következő parancsot:
spx help csr evaluation
A teszteredmények lekéréséhez először használja a Speech to text REST API Evaluations_Get műveletét.
Http GET-kérés létrehozása az URI használatával az alábbi példában látható módon. Cserélje le YourEvaluationId
a kiértékelési azonosítót, cserélje le YourSubscriptionKey
a Speech erőforráskulcsára, és cserélje le YourServiceRegion
a Speech erőforrásrégiójára.
curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/YourEvaluationId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"
A hibaarányok és további részletek a válasz törzsében jelennek meg.
A válasz törzsének a következő formátumban kell érkeznie:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
"model1": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
},
"model2": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
},
"dataset": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
},
"transcription2": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
},
"transcription1": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
},
"properties": {
"wordErrorRate2": 4.62,
"wordErrorRate1": 4.6,
"sentenceErrorRate2": 66.7,
"sentenceCount2": 3,
"wordCount2": 173,
"correctWordCount2": 166,
"wordSubstitutionCount2": 7,
"wordDeletionCount2": 0,
"wordInsertionCount2": 1,
"sentenceErrorRate1": 66.7,
"sentenceCount1": 3,
"wordCount1": 174,
"correctWordCount1": 166,
"wordSubstitutionCount1": 7,
"wordDeletionCount1": 1,
"wordInsertionCount1": 0
},
"lastActionDateTime": "2022-05-20T16:42:56Z",
"status": "Succeeded",
"createdDateTime": "2022-05-20T16:42:43Z",
"locale": "en-US",
"displayName": "My Evaluation",
"description": "My Evaluation Description",
"customProperties": {
"testingKind": "Evaluation"
}
}
Szavak hibaarányának kiértékelése (WER)
A modell pontosságának mérésére szolgáló iparági szabvány a szóhibák aránya (WER). A WER megszámolja a felismerés során azonosított helytelen szavak számát, és elosztja az összeget az emberi címkével ellátott átiratban (N) megadott szavak teljes számával.
A helytelenül azonosított szavak három kategóriába sorolhatók:
- Beszúrás (I): A hipotézis átiratában helytelenül hozzáadott szavak
- Törlés (D): A hipotézis átiratában nem észlelt szavak
- Helyettesítés (S): A hivatkozás és a hipotézis között helyettesített szavak
A Speech Studióban a hányadost 100-tal szorozzák meg, és százalékként jelennek meg. A Speech CLI és a REST API eredményei nem szorozhatók meg 100-tal.
$$ WER = {{I+D+S}\over N} \times 100 $$
Íme egy példa, amely helytelenül azonosított szavakat mutat be az emberi címkével ellátott átirathoz képest:
A beszédfelismerés eredménye a következőképpen téves:
- Beszúrás (I): Hozzáadta az "a" szót
- Törlés (D): Törölte az "are" szót
- Helyettesítés (S): A "Jones" szó helyett a "John"
Az előző példában szereplő hibaarány 60%.
Ha helyileg szeretné replikálni a WER-méréseket, használhatja az NIST pontozási eszközkészletéből (SCTK) származó sclite eszközt.
Hibák elhárítása és a WER javítása
A gépfelismerési eredmények WER-számításával kiértékelheti az alkalmazással, eszközzel vagy termékkel használt modell minőségét. Az 5-10%-os WER jó minőségűnek minősül, és használatra kész. A 20%-os WER elfogadható, de érdemes megfontolni a további képzést. A 30%-os vagy több WER rossz minőséget jelez, és testreszabást és betanítást igényel.
A hibák elosztása fontos. Ha sok törlési hiba történik, az általában a hangjelzés gyenge erőssége miatt fordul elő. A probléma megoldásához közelebb kell gyűjtenie a hangadatokat a forráshoz. A beszúrási hibák azt jelentik, hogy a hang zajos környezetben lett rögzítve, és kereszttalak jelen lehet, ami felismerési problémákat okoz. A helyettesítési hibák gyakran akkor jelentkeznek, ha a tartományspecifikus kifejezések nem megfelelő mintáját adják meg emberi címkével ellátott átiratként vagy kapcsolódó szövegként.
Az egyes fájlok elemzésével meghatározhatja, hogy milyen típusú hibák léteznek, és mely hibák egyediek egy adott fájlhoz. A fájlszintű problémák megértése segít a fejlesztések célba terjesztésében.
Jogkivonat hibaarányának kiértékelése (TER)
A szóhibák aránya mellett a token hibaarányának (TER) kiterjesztett mérésével is kiértékelheti a minőséget a végpontok közötti megjelenítési formátumon. A lexikális formátumonThat will cost $900.
(helyett that will cost nine hundred dollars
) a TER figyelembe veszi a megjelenítési formátum olyan aspektusait, mint az írásjelek, a nagybetűs megjelenítés és az ITN. További információ a kimeneti formázás megjelenítéséről beszédfelolvasással.
A TER megszámolja a felismerés során azonosított helytelen tokenek számát, és az összeget az emberi címkével ellátott átiratban (N) megadott összes jogkivonattal osztja el.
$$ TER = {{I+D+S}\over N} \times 100 $$
A TER-számítás képlete a WER-hez is hasonló. Az egyetlen különbség az, hogy a TER kiszámítása a jogkivonat szintje alapján történik a szószint helyett.
- Beszúrás (I): A hipotézis átiratában helytelenül hozzáadott tokenek
- Törlés (D): A hipotézis átiratában nem észlelt tokenek
- Helyettesítés (S): A hivatkozás és a hipotézis között helyettesített tokenek
Valós esetben a WER és a TER eredményeket is elemezheti a kívánt fejlesztések eléréséhez.
Feljegyzés
A TER méréséhez meg kell győződnie arról, hogy a hang- és átirattesztelési adatok olyan megjelenítési formázású átiratokat tartalmaznak, mint az írásjelek, a nagybetűs megjelenítés és az ITN.
Példaforgatókönyvek eredményei
A beszédfelismerési forgatókönyvek hangminőségtől és nyelvtől (szókincstől és beszédstílustól) függően változnak. Az alábbi táblázat négy gyakori forgatókönyvet vizsgál:
Eset | Hangminőség | Szókincs | Beszédstílus |
---|---|---|---|
Hívásközpont | Alacsony, 8 kHz, lehet két személy egy hangcsatornán, lehet tömörítve | Szűk, tartományra és termékekre jellemző | Társalgási, lazán strukturált |
Hangsegéd, például Cortana, vagy egy meghajtón keresztüli ablak | Magas, 16 kHz | Entity-heavy (dalcímek, termékek, helyek) | Világosan megfogalmazott szavak és kifejezések |
Diktálás (csevegőüzenet, jegyzetek, keresés) | Magas, 16 kHz | Változatos | Jegyzetkészítés |
Videó zárt képaláírás | Változatos, beleértve a változatos mikrofon használatát, hozzáadott zene | Változatos, a találkozók, szavalt beszéd, zenei dalszövegek | Olvasás, előkészítés vagy lazán strukturált |
A különböző forgatókönyvek eltérő minőségi eredményeket eredményeznek. Az alábbi táblázat azt vizsgálja, hogy a werben milyen arányban vannak a jelen négy forgatókönyv tartalmai. A táblázat bemutatja, hogy mely hibatípusok a leggyakoribbak az egyes forgatókönyvekben. A beszúrási, helyettesítési és törlési hibaarányok segítenek meghatározni, hogy milyen típusú adatokat kell hozzáadni a modell továbbfejlesztéséhez.
Eset | Beszédfelismerés minősége | Beszúrási hibák | Törlési hibák | Helyettesítési hibák |
---|---|---|---|---|
Hívásközpont | Közepes (< 30% WER) |
Alacsony, kivéve, ha mások a háttérben beszélnek | Lehet, hogy magas. A call centerek zajosak lehetnek, és az átfedésben lévő hangszórók összezavarhatják a modellt | Közepes. A termékek és a személyek nevei okozhatják ezeket a hibákat |
Hangsegéd | Magas (lehet < 10% WER) |
Alacsony | Alacsony | Közepes, dalcímek, terméknevek vagy helyek miatt |
Diktálás | Magas (lehet < 10% WER) |
Alacsony | Alacsony | Magas |
Videó zárt képaláírás | A videó típusától függ (50%-os WER lehet < ) | Alacsony | A zene, a zajok, a mikrofon minősége miatt lehet magas | A zsargon okozhatja ezeket a hibákat |