Question 1

Mi a különbség az alapmodell és az egyéni beszéd–szövegmodell között?

Accepted Answer

A szöveggé alakítás alapkonfigurációs modellje a Microsoft tulajdonában lévő adatokkal van betanítve, és már üzembe van helyezve a felhőben. Létrehozhat és használhat egyéni modellt, hogy jobban illeszkedjen egy adott környezeti zajt vagy nyelvet tartalmazó környezethez. A gyári padlók, autók vagy zajos utcák adaptált akusztikai modellt igényelnek. Az olyan témakörök, mint a biológia, a fizika, a radiológia, a terméknevek és az egyéni mozaikszavak, adaptált nyelvi modellt igényelnének. Ha egyéni modellt szeretne betaníteni, a kapcsolódó szöveggel kell kezdenie, hogy jobban felismerje a speciális kifejezéseket és kifejezéseket.

Question 2

Hol kezdjem, ha alapmodellt szeretnék használni?

Accepted Answer

Először szerezze be a Speech-erőforráskulcsot és -régiót az Azure Portalon. Ha REST-hívásokat szeretne kezdeményezni egy előre üzembehelyezett alapmodellhez, tekintse meg a REST API-k dokumentációját. Ha WebSocketeket szeretne használni, töltse le a Speech SDK-t.

Question 3

Mindig létre kell hoznom egy egyéni beszédmodellt?

Accepted Answer

Szám Ha az alkalmazás általános, napi szintű nyelvet használ, nem kell testre szabnia a modellt. Ha az alkalmazást olyan környezetben használják, ahol kevés vagy nincs háttérzaj, nem kell testre szabnia a modellt.

Alapkonfigurációs és testreszabott modelleket helyezhet üzembe a portálon, majd futtathat rajtuk pontossági teszteket. Ezzel a funkcióval mérheti az alapmodellek pontosságát egy egyéni modellhez képest.

Question 4

Hogyan tudja, mikor fejeződik be az adathalmaz vagy a modell feldolgozása?

Accepted Answer

Jelenleg csak a modell vagy adatkészlet állapotát lehet megtekinteni a táblában. Ha a feldolgozás befejeződött, az állapot sikeres lesz.

Question 5

Létrehozhatok egynél több modellt?

Accepted Answer

A gyűjteményben elérhető modellek száma nincs korlátozva.

Question 6

Rájöttem, hogy hibáztam. Hogyan megszakítja a folyamatban lévő adatimportálást vagy -modell létrehozását?

Accepted Answer

Jelenleg nem állíthat vissza akusztikai vagy nyelvi adaptációs folyamatot. Az importált adatokat és modelleket törölheti, ha terminálállapotban vannak.

Question 7

Minden kifejezéshez több találatot kapok a részletes kimeneti formátummal. Melyiket használjam?

Accepted Answer

Mindig vegye figyelembe az első eredményt, még akkor is, ha egy másik eredmény ("N-Best") nagyobb megbízhatósági értékkel rendelkezik. A Speech Service az első eredményt tartja a legjobbnak. Az eredmény üres sztring is lehet, ha nem ismerte fel a beszédet.

A többi eredmény valószínűleg rosszabb, és lehet, hogy nincs teljes nagybetűs és írásjeles alkalmazva. Ezek az eredmények speciális helyzetekben a leg hasznosak, például lehetővé téve a felhasználóknak a javítások kiválasztását egy listából vagy a helytelenül felismert parancsok kezelését.

Question 8

Miért van több alapmodell?

Accepted Answer

A Speech szolgáltatásban több alapmodell közül is választhat. Minden modellnév tartalmazza a hozzáadás dátumát. Az egyéni modellek betanításakor a legújabb modell használatával érheti el a legjobb pontosságot. A régebbi alapmodellek egy ideig még elérhetők, miután egy új modell elérhetővé vált. A használt modellt a kivonásig használhatja (lásd a modell és a végpont életciklusát). Továbbra is javasoljuk, hogy a jobb pontosság érdekében váltson a legújabb alapmodellre.

Question 9

Frissíthetem a meglévő modellemet (a modell halmozását)?

Accepted Answer

Meglévő modell nem frissíthető. Megoldásként kombinálja a régi adathalmazt az új adatkészlettel és a readapttal.

A régi és az új adatkészletet egyetlen .zip fájlban (az akusztikai adatok esetében) vagy egy .txt fájlban (nyelvi adatok esetén) kell kombinálni. Ha az adaptáció befejeződött, helyezze újra üzembe az új, frissített modellt egy új végpont beszerzéséhez.

Question 10

Ha elérhető egy alapmodell új verziója, az üzembe helyezés automatikusan frissül?

Accepted Answer

Az üzemelő példányok nem frissülnek automatikusan.

Ha adaptált és üzembe helyezett egy modellt, a meglévő üzembe helyezés a jelenleginek megfelelően marad. Az üzembe helyezett modellt az alapmodell újabb verziójával lehet leszerelni, majd újra üzembe helyezni a jobb pontosság érdekében.

Az alapmodellek és az egyéni modellek is egy idő után megszűnnek (lásd: Modell és végpont életciklusa).

Question 11

Letölthetem a modellt, és futtathatom helyileg?

Accepted Answer

Egyéni modellt helyileg is futtathat Egy Docker-tárolóban.

Question 12

Átmásolhatom vagy áthelyezhetem az adathalmazokat, modelleket és üzembe helyezéseket egy másik régióba vagy előfizetésbe?

Accepted Answer

A Models_Copy REST API használatával másolhat egy egyéni modellt egy másik régióba vagy előfizetésbe. Az adatkészletek és az üzemelő példányok nem másolhatók. Egy adatkészletet újra importálhat egy másik előfizetésben, és ott hozhat létre végpontokat a modellpéldányok használatával.

Question 13

Naplózza a kéréseimet?

Accepted Answer

Alapértelmezés szerint a kérések nincsenek naplózva (sem hang, sem átírás). Ha szükséges, kiválaszthatja a naplótartalmat ebből a végpontbeállításból , amikor egyéni végpontot hoz létre. A Speech SDK-ban igény szerint engedélyezheti a hangnaplózást anélkül, hogy egyéni végpontot kellene létrehoznia. A kérések hang- és felismerési eredményei mindkét esetben biztonságos tárolóban lesznek tárolva. A Microsoft tulajdonában lévő tárterületet használó előfizetések 30 napig érhetők el.

A naplózott fájlokat exportálhatja a Speech Studióban az üzembehelyezési lapon, ha olyan egyéni végpontot használ, amelyen engedélyezve van a naplótartalom. Ha a hangnaplózás engedélyezve van az SDK-val, hívja meg az API-t a fájlok eléréséhez. Az API használatával bármikor törölheti a naplókat .

Question 14

A kéréseim szabályozva vannak?

Accepted Answer

További információt a Speech szolgáltatás kvótáiról és korlátairól talál.

Question 15

Hogyan kell fizetni a kétcsatornás hangért?

Accepted Answer

Ha az egyes csatornákat külön küldi el a saját fájljukban, az egyes fájlok hangjának időtartamáért díjat számítunk fel. Ha egyetlen fájlt küld el a csatornákat multiplexelve, az egyetlen fájl időtartamára számítunk fel díjat. A díjszabással kapcsolatos további információkért tekintse meg az Azure AI-szolgáltatások díjszabási oldalát.

Fontos

Ha további adatvédelmi aggályai vannak, amelyek megakadályozzák az egyéni beszédszolgáltatás használatát, lépjen kapcsolatba az egyik támogatási csatornával.

Az egyidejűség növelése

További információt a Speech szolgáltatás kvótáiról és korlátairól talál.

Question 16

Mi az adathalmaz méretének korlátja, és miért ez a korlát?

Accepted Answer

A korlát a HTTP-feltöltéshez használt fájlok méretére vonatkozó korlátozás miatt van. A tényleges korlátot a Beszédszolgáltatás kvótái és korlátai című témakörben tekintheti meg. Az adatokat több adatkészletre is feloszthatja, és mindegyiket kijelölheti a modell betanításához.

Question 17

Tömöríthetem (tömöríthetem) a szövegfájlokat, hogy nagyobb szövegfájlt töltsek fel?

Accepted Answer

Szám Jelenleg csak a tömörítetlen szövegfájlok engedélyezettek.

Question 18

Az adatjelentés szerint sikertelen kimondott szövegek voltak. Mi a probléma?

Accepted Answer

A fájlban lévő kimondott szövegek 100%-ának feltöltése nem jelent problémát. Ha egy akusztikai vagy nyelvi adatkészlet legtöbb beszédelemét (például több mint 95 százalék) sikeresen importálja, az adatkészlet használható lehet. Javasoljuk azonban, hogy próbálja meg megérteni, hogy miért hiúsultak meg a kimondott szövegek, majd oldja meg a problémát. A leggyakoribb problémákat, például a formázási hibákat könnyű kijavítani.

Question 19

Mennyi akusztikai adatra van szükségem?

Accepted Answer

Javasoljuk, hogy 30 perctől 1 óra akusztikai adatokig kezdjen.

Question 20

Milyen adatokat gyűjtsek?

Accepted Answer

Gyűjtsön olyan adatokat, amelyek a lehető legközelebb állnak az alkalmazásforgatókönyvhez és a használati esethez. Az adatgyűjtésnek meg kell egyeznie a célalkalmazásnak és a felhasználóknak az eszköz, az eszközök, a környezetek és a hangszórók típusai tekintetében. Általánosságban elmondható, hogy a lehető legtágabb előadóktól kell adatokat gyűjtenie.

Question 21

Hogyan gyűjthetek akusztikai adatokat?

Accepted Answer

Létrehozhat önálló adatgyűjtési alkalmazást, vagy használhatja a polcon kívüli hangrögzítő szoftvert. Az alkalmazás olyan verzióját is létrehozhatja, amely naplózza a hangadatokat, majd felhasználja az adatokat.

Question 22

Át kell írnom az adaptációs adatokat?

Accepted Answer

Igen. Átírhatja saját maga, vagy használhat egy professzionális átírási szolgáltatást. Egyes felhasználók a professzionális átírókat részesítik előnyben, mások pedig maguk a crowdsourcing vagy az adatok átírását használják.

Question 23

Mennyi ideig tart egy egyéni modell betanítása hangadatokkal?

Accepted Answer

A modell hangadatokkal való betanítása hosszadalmas folyamat lehet. Az adatok mennyiségétől függően több napig is eltarthat egy egyéni modell létrehozása. Ha egy héten belül nem fejezhető be, a szolgáltatás megszakíthatja a betanítási műveletet, és sikertelennek jelentheti a modellt.

A Speech service általában körülbelül napi 10 órányi hangadatot dolgoz fel dedikált hardveres régiókban. Más régiókban naponta csak körülbelül 1 órányi hangadatot képes feldolgozni. A csak szöveggel történő betanítás gyorsabb, és általában perceken belül befejeződik.

Használja az egyik régiót, ahol dedikált hardver áll rendelkezésre a betanításhoz. A Speech szolgáltatás legfeljebb 20 órányi hanganyagot használ a betanításhoz ezekben a régiókban. Más régiókban a Speech szolgáltatás akár 8 órát is igénybe vesz.

Question 24

Mi a word hibaaránya (WER), és hogyan számítják ki?

Accepted Answer

A WER a beszédfelismerés kiértékelési mérőszáma. A WER kiszámítása a hibák (beszúrások, törlések és helyettesítések) teljes számaként történik, osztva a referencia-átírásban szereplő szavak teljes számával. További információ: Modell mennyiségi tesztelése.

Question 25

Hogyan határozza meg, hogy a pontossági vizsgálat eredményei jók-e?

Accepted Answer

Az eredmények az alapmodell és a testre szabott modell összehasonlítását mutatják. Annak érdekében, hogy a testreszabás érdemes legyen, meg kell céloznia az alapmodellt.

Question 26

Hogyan határozza meg az alapmodell WER-ét, hogy lássam, javult-e?

Accepted Answer

Az offline teszt eredményei az egyéni modell alapkonfigurációs pontosságát és az alapkonfigurációhoz képesti javulást mutatják.

Question 27

Mennyi szöveges adatot kell feltöltenem?

Accepted Answer

Ez attól függ, hogy az alkalmazásban használt szókincs és kifejezés mennyire különbözik a kezdő nyelvi modellektől. Minden új szó esetében hasznos, ha a lehető legtöbb példát adja ezeknek a szavaknak a használatára. Az alkalmazásban használt gyakori kifejezések, köztük a nyelvi adatokban található kifejezések esetében hasznos, ha sok példát ad meg, mivel a rendszernek is figyelmezteti őket ezekre a kifejezésekre. Gyakori, hogy legalább 100, és általában több száz vagy több száz kimondott szöveg található a nyelvi adatkészletben. Ha bizonyos típusú lekérdezések várhatóan gyakoribbak lesznek, mint mások, akkor a gyakori lekérdezések több példányát is beszúrhatja az adathalmazba.

Question 28

Feltölthetem egyszerűen a szavak listáját?

Accepted Answer

A szavak listájának feltöltése hozzáadja őket a szókincshez, de nem tanítja meg a rendszernek a szavak szokásos használatát. A teljes vagy részleges kimondott szövegek (mondatok vagy kifejezések, amelyeket a felhasználók valószínűleg mondanak) biztosításával a nyelvi modell megtanulhatja az új szavakat és azok használatát. Az egyéni nyelvi modell nem csak új szavak hozzáadására alkalmas a rendszerbe, hanem az alkalmazás ismert szavainak valószínűségének módosítására is. Teljes kimondott szövegek biztosítása segít a rendszernek a jobb tanulásban.

Megosztás a következőn keresztül:

Beszéd szöveggé – gyakori kérdések

Általános