Szerkesztés

Megosztás a következőn keresztül:


Beszéd szöveggé – gyakori kérdések

Ez a cikk a szövegszolgáltatáshoz való beszédgel kapcsolatos gyakori kérdésekre ad választ. Ha itt nem talál választ a kérdéseire, tekintse meg az egyéb támogatási lehetőségeket.

Általános

Mi a különbség az alapmodell és az egyéni beszéd–szövegmodell között?

A szöveggé alakítás alapkonfigurációs modellje a Microsoft tulajdonában lévő adatokkal van betanítve, és már üzembe van helyezve a felhőben. Létrehozhat és használhat egyéni modellt, hogy jobban illeszkedjen egy adott környezeti zajt vagy nyelvet tartalmazó környezethez. A gyári padlók, autók vagy zajos utcák adaptált akusztikai modellt igényelnek. Az olyan témakörök, mint a biológia, a fizika, a radiológia, a terméknevek és az egyéni mozaikszavak, adaptált nyelvi modellt igényelnének. Ha egyéni modellt szeretne betaníteni, a kapcsolódó szöveggel kell kezdenie, hogy jobban felismerje a speciális kifejezéseket és kifejezéseket.

Hol kezdjem, ha alapmodellt szeretnék használni?

Először szerezze be a Speech-erőforráskulcsot és -régiót az Azure Portalon. Ha REST-hívásokat szeretne kezdeményezni egy előre üzembehelyezett alapmodellhez, tekintse meg a REST API-k dokumentációját. Ha WebSocketeket szeretne használni, töltse le a Speech SDK-t.

Mindig létre kell hoznom egy egyéni beszédmodellt?

Szám Ha az alkalmazás általános, napi szintű nyelvet használ, nem kell testre szabnia a modellt. Ha az alkalmazást olyan környezetben használják, ahol kevés vagy nincs háttérzaj, nem kell testre szabnia a modellt.

Alapkonfigurációs és testreszabott modelleket helyezhet üzembe a portálon, majd futtathat rajtuk pontossági teszteket. Ezzel a funkcióval mérheti az alapmodellek pontosságát egy egyéni modellhez képest.

Hogyan tudja, mikor fejeződik be az adathalmaz vagy a modell feldolgozása?

Jelenleg csak a modell vagy adatkészlet állapotát lehet megtekinteni a táblában. Ha a feldolgozás befejeződött, az állapot sikeres lesz.

Létrehozhatok egynél több modellt?

A gyűjteményben elérhető modellek száma nincs korlátozva.

Rájöttem, hogy hibáztam. Hogyan megszakítja a folyamatban lévő adatimportálást vagy -modell létrehozását?

Jelenleg nem állíthat vissza akusztikai vagy nyelvi adaptációs folyamatot. Az importált adatokat és modelleket törölheti, ha terminálállapotban vannak.

Minden kifejezéshez több találatot kapok a részletes kimeneti formátummal. Melyiket használjam?

Mindig vegye figyelembe az első eredményt, még akkor is, ha egy másik eredmény ("N-Best") nagyobb megbízhatósági értékkel rendelkezik. A Speech Service az első eredményt tartja a legjobbnak. Az eredmény üres sztring is lehet, ha nem ismerte fel a beszédet.

A többi eredmény valószínűleg rosszabb, és lehet, hogy nincs teljes nagybetűs és írásjeles alkalmazva. Ezek az eredmények speciális helyzetekben a leg hasznosak, például lehetővé téve a felhasználóknak a javítások kiválasztását egy listából vagy a helytelenül felismert parancsok kezelését.

Miért van több alapmodell?

A Speech szolgáltatásban több alapmodell közül is választhat. Minden modellnév tartalmazza a hozzáadás dátumát. Az egyéni modellek betanításakor a legújabb modell használatával érheti el a legjobb pontosságot. A régebbi alapmodellek egy ideig még elérhetők, miután egy új modell elérhetővé vált. A használt modellt a kivonásig használhatja (lásd a modell és a végpont életciklusát). Továbbra is javasoljuk, hogy a jobb pontosság érdekében váltson a legújabb alapmodellre.

Frissíthetem a meglévő modellemet (a modell halmozását)?

Meglévő modell nem frissíthető. Megoldásként kombinálja a régi adathalmazt az új adatkészlettel és a readapttal.

A régi és az új adatkészletet egyetlen .zip fájlban (az akusztikai adatok esetében) vagy egy .txt fájlban (nyelvi adatok esetén) kell kombinálni. Ha az adaptáció befejeződött, helyezze újra üzembe az új, frissített modellt egy új végpont beszerzéséhez.

Ha elérhető egy alapmodell új verziója, az üzembe helyezés automatikusan frissül?

Az üzemelő példányok nem frissülnek automatikusan.

Ha adaptált és üzembe helyezett egy modellt, a meglévő üzembe helyezés a jelenleginek megfelelően marad. Az üzembe helyezett modellt az alapmodell újabb verziójával lehet leszerelni, majd újra üzembe helyezni a jobb pontosság érdekében.

Az alapmodellek és az egyéni modellek is egy idő után megszűnnek (lásd: Modell és végpont életciklusa).

Letölthetem a modellt, és futtathatom helyileg?

Egyéni modellt helyileg is futtathat Egy Docker-tárolóban.

Átmásolhatom vagy áthelyezhetem az adathalmazokat, modelleket és üzembe helyezéseket egy másik régióba vagy előfizetésbe?

A Models_Copy REST API használatával másolhat egy egyéni modellt egy másik régióba vagy előfizetésbe. Az adatkészletek és az üzemelő példányok nem másolhatók. Egy adatkészletet újra importálhat egy másik előfizetésben, és ott hozhat létre végpontokat a modellpéldányok használatával.

Naplózza a kéréseimet?

Alapértelmezés szerint a kérések nincsenek naplózva (sem hang, sem átírás). Ha szükséges, kiválaszthatja a naplótartalmat ebből a végpontbeállításból , amikor egyéni végpontot hoz létre. A Speech SDK-ban igény szerint engedélyezheti a hangnaplózást anélkül, hogy egyéni végpontot kellene létrehoznia. A kérések hang- és felismerési eredményei mindkét esetben biztonságos tárolóban lesznek tárolva. A Microsoft tulajdonában lévő tárterületet használó előfizetések 30 napig érhetők el.

A naplózott fájlokat exportálhatja a Speech Studióban az üzembehelyezési lapon, ha olyan egyéni végpontot használ, amelyen engedélyezve van a naplótartalom. Ha a hangnaplózás engedélyezve van az SDK-val, hívja meg az API-t a fájlok eléréséhez. Az API használatával bármikor törölheti a naplókat .

A kéréseim szabályozva vannak?

További információt a Speech szolgáltatás kvótáiról és korlátairól talál.

Hogyan kell fizetni a kétcsatornás hangért?

Ha az egyes csatornákat külön küldi el a saját fájljukban, az egyes fájlok hangjának időtartamáért díjat számítunk fel. Ha egyetlen fájlt küld el a csatornákat multiplexelve, az egyetlen fájl időtartamára számítunk fel díjat. A díjszabással kapcsolatos további információkért tekintse meg az Azure AI-szolgáltatások díjszabási oldalát.

Fontos

Ha további adatvédelmi aggályai vannak, amelyek megakadályozzák az egyéni beszédszolgáltatás használatát, lépjen kapcsolatba az egyik támogatási csatornával.

Az egyidejűség növelése

További információt a Speech szolgáltatás kvótáiról és korlátairól talál.

Adatok importálása

Mi az adathalmaz méretének korlátja, és miért ez a korlát?

A korlát a HTTP-feltöltéshez használt fájlok méretére vonatkozó korlátozás miatt van. A tényleges korlátot a Beszédszolgáltatás kvótái és korlátai című témakörben tekintheti meg. Az adatokat több adatkészletre is feloszthatja, és mindegyiket kijelölheti a modell betanításához.

Tömöríthetem (tömöríthetem) a szövegfájlokat, hogy nagyobb szövegfájlt töltsek fel?

Szám Jelenleg csak a tömörítetlen szövegfájlok engedélyezettek.

Az adatjelentés szerint sikertelen kimondott szövegek voltak. Mi a probléma?

A fájlban lévő kimondott szövegek 100%-ának feltöltése nem jelent problémát. Ha egy akusztikai vagy nyelvi adatkészlet legtöbb beszédelemét (például több mint 95 százalék) sikeresen importálja, az adatkészlet használható lehet. Javasoljuk azonban, hogy próbálja meg megérteni, hogy miért hiúsultak meg a kimondott szövegek, majd oldja meg a problémát. A leggyakoribb problémákat, például a formázási hibákat könnyű kijavítani.

Akusztikai modell létrehozása

Mennyi akusztikai adatra van szükségem?

Javasoljuk, hogy 30 perctől 1 óra akusztikai adatokig kezdjen.

Milyen adatokat gyűjtsek?

Gyűjtsön olyan adatokat, amelyek a lehető legközelebb állnak az alkalmazásforgatókönyvhez és a használati esethez. Az adatgyűjtésnek meg kell egyeznie a célalkalmazásnak és a felhasználóknak az eszköz, az eszközök, a környezetek és a hangszórók típusai tekintetében. Általánosságban elmondható, hogy a lehető legtágabb előadóktól kell adatokat gyűjtenie.

Hogyan gyűjthetek akusztikai adatokat?

Létrehozhat önálló adatgyűjtési alkalmazást, vagy használhatja a polcon kívüli hangrögzítő szoftvert. Az alkalmazás olyan verzióját is létrehozhatja, amely naplózza a hangadatokat, majd felhasználja az adatokat.

Át kell írnom az adaptációs adatokat?

Igen. Átírhatja saját maga, vagy használhat egy professzionális átírási szolgáltatást. Egyes felhasználók a professzionális átírókat részesítik előnyben, mások pedig maguk a crowdsourcing vagy az adatok átírását használják.

Mennyi ideig tart egy egyéni modell betanítása hangadatokkal?

A modell hangadatokkal való betanítása hosszadalmas folyamat lehet. Az adatok mennyiségétől függően több napig is eltarthat egy egyéni modell létrehozása. Ha egy héten belül nem fejezhető be, a szolgáltatás megszakíthatja a betanítási műveletet, és sikertelennek jelentheti a modellt.

A Speech service általában körülbelül napi 10 órányi hangadatot dolgoz fel dedikált hardveres régiókban. Más régiókban naponta csak körülbelül 1 órányi hangadatot képes feldolgozni. A csak szöveggel történő betanítás gyorsabb, és általában perceken belül befejeződik.

Használja az egyik régiót, ahol dedikált hardver áll rendelkezésre a betanításhoz. A Speech szolgáltatás legfeljebb 20 órányi hanganyagot használ a betanításhoz ezekben a régiókban. Más régiókban a Speech szolgáltatás akár 8 órát is igénybe vesz.

Pontossági tesztelés

Mi a word hibaaránya (WER), és hogyan számítják ki?

A WER a beszédfelismerés kiértékelési mérőszáma. A WER kiszámítása a hibák (beszúrások, törlések és helyettesítések) teljes számaként történik, osztva a referencia-átírásban szereplő szavak teljes számával. További információ: Modell mennyiségi tesztelése.

Hogyan határozza meg, hogy a pontossági vizsgálat eredményei jók-e?

Az eredmények az alapmodell és a testre szabott modell összehasonlítását mutatják. Annak érdekében, hogy a testreszabás érdemes legyen, meg kell céloznia az alapmodellt.

Hogyan határozza meg az alapmodell WER-ét, hogy lássam, javult-e?

Az offline teszt eredményei az egyéni modell alapkonfigurációs pontosságát és az alapkonfigurációhoz képesti javulást mutatják.

Nyelvi modell létrehozása

Mennyi szöveges adatot kell feltöltenem?

Ez attól függ, hogy az alkalmazásban használt szókincs és kifejezés mennyire különbözik a kezdő nyelvi modellektől. Minden új szó esetében hasznos, ha a lehető legtöbb példát adja ezeknek a szavaknak a használatára. Az alkalmazásban használt gyakori kifejezések, köztük a nyelvi adatokban található kifejezések esetében hasznos, ha sok példát ad meg, mivel a rendszernek is figyelmezteti őket ezekre a kifejezésekre. Gyakori, hogy legalább 100, és általában több száz vagy több száz kimondott szöveg található a nyelvi adatkészletben. Ha bizonyos típusú lekérdezések várhatóan gyakoribbak lesznek, mint mások, akkor a gyakori lekérdezések több példányát is beszúrhatja az adathalmazba.

Feltölthetem egyszerűen a szavak listáját?

A szavak listájának feltöltése hozzáadja őket a szókincshez, de nem tanítja meg a rendszernek a szavak szokásos használatát. A teljes vagy részleges kimondott szövegek (mondatok vagy kifejezések, amelyeket a felhasználók valószínűleg mondanak) biztosításával a nyelvi modell megtanulhatja az új szavakat és azok használatát. Az egyéni nyelvi modell nem csak új szavak hozzáadására alkalmas a rendszerbe, hanem az alkalmazás ismert szavainak valószínűségének módosítására is. Teljes kimondott szövegek biztosítása segít a rendszernek a jobb tanulásban.