Jegyzet
Az oldalhoz való hozzáférés engedélyezést igényel. Próbálhatod be jelentkezni vagy könyvtárat váltani.
Az oldalhoz való hozzáférés engedélyezést igényel. Megpróbálhatod a könyvtár váltását.
Fontos
A nem angol nyelvű fordítások csak a kényelem érdekében érhetők el. A végleges verzióhoz tekintse meg EN-US a dokumentum verzióját .
Mi az az átláthatósági megjegyzés?
Az AI-rendszerek nem csak a technológiát, hanem a felhasználókat is magukban foglalják, a felhasználókat, akiket érint majd, és a környezet, amelyben üzembe helyezik. A célnak megfelelő rendszer létrehozásához ismerni kell a technológia működését, képességeit és korlátait, valamint a legjobb teljesítmény elérését. A Microsoft átláthatósági megjegyzései segítenek megérteni, hogyan működik az AI-technológia, milyen döntéseket hozhatnak a rendszertulajdonosok, amelyek befolyásolhatják a rendszer teljesítményét és viselkedését, valamint hogy mennyire fontos az egész rendszerre, beleértve a technológiát, az embereket és a környezetet is. A saját rendszer fejlesztésekor vagy üzembe helyezésekor használhatja az átláthatósági megjegyzéseket, vagy megoszthatja azokat a rendszer által használni kívánt vagy érintett személyekkel.
A Microsoft átláthatósági megjegyzései a Microsoft szélesebb körű erőfeszítéseinek részét képezik az AI-alapelvek gyakorlati alkalmazásához. További információért tekintse meg a Microsoft AI alapelveit.
A szöveghez való beszéd alapjai
A beszédből szöveggé alakítás, más néven automatikus beszédfelismerés (ASR), az Azure Speech in Foundry Tools szolgáltatás egyik funkciója, amely a Foundry Tools egyik része. A beszéd szöveggé alakítja a beszélt hangot. Az Azure beszédfelismerő funkciója több mint 140 területi beállítást támogat a bevitelhez. A támogatott területi beállítások legújabb listájáért tekintse meg a Speech szolgáltatás nyelv- és hangtámogatását.
Kulcskifejezések
| Kifejezés | Definíció |
|---|---|
| Hangbemenet | A szövegfelolvasási funkció bemeneteként használt streamelt hangadatok vagy hangfájl. A hangbemenet nemcsak hangokat, hanem csendet és nem beszédzajt is tartalmazhat. A beszéd szöveggé alakítása a hangbemenet hangrészeinek szövegét hozza létre. |
| Beszédelem | Az emberi hangot tartalmazó hangbemenet összetevője. Egy kimondott szöveg egyetlen szóból vagy több szóból, például egy kifejezésből állhat. |
| Transzkripció | A Beszéd szöveggé funkció szöveges kimenete. Ez az automatikusan létrehozott szövegkimenet beszédmodelleket használ, és néha gépi átírásnak vagy automatikus beszédfelismerésnek (ASR) is nevezik. Ebben a kontextusban az átírás teljesen automatizált, ezért különbözik az emberi átírástól, vagyis az emberi átírók által generált szövegtől. |
| Beszédmodell | Egy kimondott szöveg automatikusan generált, gép által megtanult numerikus ábrázolása, amely egy hangbemenetből származó átirat következtetésére szolgál. A beszédmodelleket olyan beszédhangadatokon képezik ki, amelyek különböző beszédstílusokat, nyelveket, akcentusokat, dialektusokat és intonációkat tartalmaznak, illetve amelyeket különféle rögzítőeszközök használatával létrehozott akusztikai változatok jellemeznek. A beszédmodell numerikusan az akusztikai és nyelvi jellemzőket is jelöli, amelyek segítségével előre jelezhető, hogy milyen szöveg legyen társítva a kimondott szöveggel. |
| Valós idejű API | Egy API, amely hangbemenettel fogadja a kéréseket, és valós időben ad vissza egy választ, és átiratot ad vissza ugyanazon a hálózati kapcsolaton belül. |
| Nyelvfelismerési API | Egy valós idejű API-típus, amely észleli, hogy milyen nyelvet beszélnek egy hangbemenetben. A nyelv a hangbemenetben lévő hangjelzésen alapul. |
| Beszédfordító API | Egy másik típusú valós idejű API, amely egy adott hangbemenet átiratait hozza létre, majd lefordítja őket a felhasználó által megadott nyelvre. Ez a Speech Services és a Text Translator lépcsőzetes szolgáltatása. |
| Batch API | Egy szolgáltatás, amely hangbemenetek későbbi átírására szolgál. Megadhatja a hangfájlok helyét és más paramétereket, például a felismerés nyelvét. A szolgáltatás aszinkron módon tölti be a hangbemenetet, és átírja azt. Ha az átírás befejeződött, a szövegfájlok egy ön által megadott helyre töltődnek be. |
| Diarizáció | A diarizálás választ ad arra a kérdésre, hogy ki és mikor beszélt. A hangbemenetben lévő hangszórókat a hangjellemzők alapján különbözteti meg. Mind a valós idejű, mind a kötegelt API-k támogatják a diarizálást, és képesek megkülönböztetni a hangszórók hangját a monocsatornás felvételeken. A diarizálás a beszéd szöveggé alakító funkcióval kombinálva előállítja azokat az átírásokat, amelyek minden átírt szegmenshez tartalmaznak egy beszélő bejegyzést. Az átirat kimenete a hangbeszélgetés hangszóróinak száma alapján VENDÉG1, VENDÉG2, VENDÉG3 stb. címkével van megjelölve. |
| Szó hibaarány (WER) | A Word hibaaránya (WER) a beszéd és a szöveg pontosságának mérésére szolgáló iparági szabvány. A WER megszámolja a felismerés során azonosított helytelen szavak számát. Ezután elosztja a helyes átiratban szereplő szavak teljes számával, amelyet gyakran emberi címkézéssel hoznak létre. |
| Token hibaarány (TER) | A token hibaarány (TER) a szavak, nagybetűk, írásjelek stb. végső felismerésének helyességét méri a helyes átiratban biztosított tokenekhez (gyakran emberi címkézéssel létrehozott) képest. |
| Futásidejű késés | A szöveghez való beszédben a késés a beszéd hangbemenete és az átírási eredmény kimenete közötti idő. |
| Szó diarizációs hibaarány (WDER) | A szavak diarizálási hibaaránya (WDER) megszámolja a hibás beszélőhöz rendelt szavak hibáinak számát az alapigazsághoz képest. Az alacsonyabb WDER-ráta jobb minőséget jelez. |
Képességek
A rendszer viselkedése
Az alábbiakban felsoroljuk a beszéd szöveggé alakításának fő módjait.
Valós idejű beszédfelismerő API
Ez egy gyakori API-hívás a Speech SDK-val vagy a REST API-val, amely hangbemenetet küld, és valós időben fogad szöveges átiratot. A beszédrendszer beszédmodellt használ a bemeneti hangban elhangzottak felismeréséhez. A valós idejű szövegfelolvasás során a rendszer bemenetként egy hangstreamet vesz fel, és folyamatosan meghatározza az eddig megfigyelt hanganyagot előállító szavak legvalószínűbb sorozatát. A modell nagy mennyiségű különböző hanganyagra van betanítve a tipikus használati helyzetekben és a hangszórók széles skáláján. Ezt a funkciót például gyakran használják hangalapú lekérdezésekhez vagy diktáláshoz egy szervezet szolgáltatásában vagy alkalmazásában.
Batch-átírási API
A batch-átírás egy másik api-hívástípus. Általában előre rögzített hangbemenetek küldéséhez és az átírt szöveg aszinkron fogadásához használatos (vagyis később). Az API használatához több hangfájl helyét is megadhatja. A beszédszöveg-technológia beolvassa a hangbemenetet a fájlból, és átírási szövegfájlokat hoz létre, amelyeket a rendszer a megadott tárolási helyre ad vissza. Ez a funkció nagyobb átírási feladatok támogatására szolgál, amelyekben nem szükséges valós időben biztosítani a végfelhasználók számára az átírási tartalmat. Ilyen például a call center-felvételek átírása az ügyfelek és a call center-ügynök teljesítményének elemzéséhez.
Kötegátírás használatakor választhatja, hogy a Whisper modellt használja az alapértelmezett Azure Speech szövegmodell helyett. Annak megállapításához, hogy a Whisper modell megfelel-e a használati esetnek, összehasonlíthatja, hogy a modellek kimenete miben különbözik a kötegben. Próbálja ki a Speech Studióban, majd végezzen mélyebb értékeléseket a tesztképességek egyéni beszéden keresztüli használatával. Vegye figyelembe, hogy a Whisper modell az Azure OpenAI-on keresztül is elérhető.
Beszédfordítási API
Ez az API szöveggé alakítja a hangbemenetet, majd lefordítja egy másik nyelvre. A lefordított átirat kimenete szöveges formátumban is visszaadható, vagy beállíthatja, hogy a szöveg hallható beszédgé legyen szintetizálva szövegfelolvasással. További információ: Mi az Azure Translator az Foundry Toolsban?
Alfunkciók és beállítások
A fenti API-k opcionálisan a következő alszolgáltatásokat használhatják:
-
Modell testreszabása: Az Azure Speech lehetővé teszi a fejlesztők számára, hogy szövegmodellekre szabják a beszédet egy adott forgatókönyv felismerési pontosságának javítása érdekében. A beszéd szöveggé alakításának két módja van:
- Futásidőben a kifejezéslista funkció használatával
- Előre időben az testreszabott beszéd használatával
- Nyelvfelismerés: Az alapértelmezett API-hívásokkal ellentétben, ahol egy hangbemenet nyelvét vagy területi beállítását előre meg kell adni, a nyelvfelismeréssel több területi beállítást is megadhat, és lehetővé teheti, hogy a szolgáltatás észlelje, hogy melyik nyelvet kell használni a hang adott részének felismeréséhez.
- Diarization: Ez a funkció alapértelmezés szerint le van tiltva. Ha úgy dönt, hogy engedélyezi ezt a funkciót, a szolgáltatás megkülönbözteti a különböző beszélők kimondott szövegeit. Az eredményül kapott átirat szövege tartalmaz egy "speaker" tulajdonságot, amely a GUEST1, GUEST2, GUEST3 stb. tulajdonságot jelöli, amely azt jelzi, hogy melyik beszélő beszél egy hangfájlban.
Használati esetek
A szövegfelolvasás különböző módokon használható a felhasználók számára az alkalmazások és eszközök használatához. Ahelyett, hogy szavakat írnál a billentyűzetre, vagy érintőképernyős interakciókhoz használná a kezüket, a szövegfelismerési technológia lehetővé teszi a felhasználók számára az alkalmazások és eszközök hangon és diktáláson keresztüli üzemeltetését.
- Intelligens asszisztensek: Azok a vállalatok, amelyek intelligens asszisztenseket fejlesztenek berendezéseken, autókon és otthonokban, beszéddel szöveggel engedélyezhetik a természetes felületi keresési lekérdezéseket, vagy hangon aktiválhatnak bizonyos funkciókat. Ezt _command-and-_controlnak nevezzük.
- Csevegőrobotok: A vállalatok csevegőrobot-alkalmazásokat hozhatnak létre, amelyekben a felhasználók hangalapú lekérdezésekkel vagy parancsokkal kommunikálhatnak a robotokkal.
- Hangbeírás: Az alkalmazások lehetővé teszik a felhasználók számára, hogy hang használatával diktálják a hosszú formátumú szöveget. A hangbeírással szöveges üzeneteket, e-maileket és dokumentumokat írhat be.
- Hangparancsolás: A felhasználók bizonyos műveleteket hangon (parancs és vezérlés) indíthatnak el. Két gyakori példa a lekérdezés szövegének hangról hangra történő bevitele és egy menüelem kiválasztása hang alapján.
- Hangfordítás: A beszéd és a szövegtechnológia beszédfordítási funkcióival hangalapú kommunikációt végezhet más, különböző nyelveket beszélő felhasználókkal. A beszédfordítás több nyelven is lehetővé teszi a hang-hang kommunikációt. Tekintse meg a Speech szolgáltatás nyelv- és hangtámogatásának támogatott területi beállításainak legújabb listáját.
- Ügyfélszolgálati átiratok: A vállalatok gyakran rögzítik a felhasználókkal folytatott beszélgetéseket olyan helyzetekben, mint az ügyfélszolgálati hívások. A hangfelvételek átírás céljából elküldhetők a batch API-nak.
- Vegyes nyelvű diktálás: A felhasználók beszéd-szöveg technológiával diktálhatnak több nyelven. A diktálási alkalmazás nyelvfelismeréssel automatikusan észleli a beszélt nyelveket, és megfelelően átírhatja anélkül, hogy a felhasználónak meg kellene adnia, hogy melyik nyelvet beszéli.
- Élő beszélgetés átírása: Ha a beszélők egy mikrofonos beállítással egy szobában vannak, végezze el az élő átírást arról, hogy melyik előadó (Vendég1, Vendég2, Vendég3 stb.) teszi az egyes kijelentéseket.
- Az előre felvett hang beszélgetési átirata: A több hangszóróval történő hangrögzítés után a szolgáltatásunk segítségével lekérheti az átiratot arról, hogy melyik előadó (Vendég1, Vendég2, Vendég3 stb.) állítja be az egyes állításokat.
Megfontolandó szempontok más használati esetek kiválasztásakor
A speech to text API kényelmes lehetőségeket kínál a hangalapú alkalmazások fejlesztéséhez, de nagyon fontos figyelembe venni azt a környezetet, amelyben integrálni fogja az API-t. Gondoskodnia kell arról, hogy megfeleljen az alkalmazásra vonatkozó összes törvénynek és rendeletnek. Ez magában foglalja az adatvédelmi és kommunikációs törvények, többek között a nemzeti és regionális adatvédelem, a lehallgatás és a lehallgatási törvények értelmében fennálló kötelezettségek megértését, amelyek az Ön joghatóságára vonatkoznak. Csak olyan hanganyagokat gyűjtsön és dolgoz fel, amelyek megfelelnek a felhasználók észszerű elvárásainak. Ez magában foglalja annak biztosítását, hogy a felhasználók minden szükséges és megfelelő hozzájárulásával rendelkezzen a hangadatok gyűjtéséhez, feldolgozásához és tárolásához.
Számos alkalmazást úgy terveztek és terveztek, hogy egy adott felhasználó használjon hangalapú lekérdezésekhez, parancsokhoz vagy diktáláshoz. Előfordulhat azonban, hogy az alkalmazás mikrofonja hangot vagy beszédet vesz fel a nem elsődleges felhasználóktól. A nem elsődleges felhasználók hangjainak akaratlanul történő rögzítésének elkerülése érdekében vegye figyelembe a következő információkat:
- Mikrofonokkal kapcsolatos szempontok: Gyakran nem szabályozható, hogy ki szólalhat meg a bemeneti eszköz közelében, amely hangbemenetet küld a beszédbe a szövegfelhő szolgáltatásnak. Arra kell ösztönöznie a felhasználókat, hogy fokozott figyelmet fordítanak arra, ha olyan nyilvános vagy nyílt környezetben használják a hangalapú funkciókat és alkalmazásokat, ahol mások hangja könnyen rögzíthető.
- A beszédet csak a felhasználók ésszerű elvárásainak megfelelő élményekben és funkciókban használhatja: A beszédet tartalmazó hangadatok személyes adatok. A szövegfelolvasás nem használható a nyilvános hangfelügyeleti célokra, a jogi követelményeknek megfelelő módon, illetve olyan alkalmazásokban és eszközökben, nyilvános tereken vagy helyeken, ahol a felhasználók elvárhatják az adatvédelem ésszerű elvárását. A Speech szolgáltatással csak a felhasználók ésszerű elvárásainak megfelelő módon gyűjthet és dolgozhat fel hangokat. Ez magában foglalja annak biztosítását, hogy a felhasználók minden szükséges és megfelelő hozzájárulásukkal rendelkezzenek a hangadatok gyűjtéséhez, feldolgozásához és tárolásához.
- Azure Speech szolgáltatás és a Whisper-modell integrációja: A Whisper modell fejlett funkciókkal, például többnyelvű felismeréssel és olvashatósággal javítja az Azure Speech szolgáltatást. A Speech szolgáltatás a Whisper-modell teljesítményét is bővíti a nagyobb léptékű csoportos átiratok és a beszélő szerinti megkülönböztetéssel. Az adott használati esettől függ, hogy az alapértelmezett Speech service speech to text model vagy Whisper modell legyen-e használva. Javasoljuk, hogy használja ki a Batch kipróbálását és az egyéni beszédélményt a Speech Studióban, hogy mindkét lehetőséget kiértékelje, hogy megtalálja az üzleti igényeinek leginkább megfelelőt.
- Beszélgetés átírása előre rögzített eseményeken: A rendszer jobban teljesít, ha minden hangszóró ugyanabban az akusztikai környezetben van (például a beszélgetés egy helyiségben történik, ahol az emberek egy közös mikrofonba beszélnek).
- Beszélgetés átírása: Bár a beszélgetésben szereplő előadók száma nincs korlátozva, a rendszer akkor teljesít jobban, ha a beszélők száma 30 alatt van.
- Jogi és szabályozási megfontolások: A szervezeteknek értékelnie kell a lehetséges konkrét jogi és szabályozási kötelezettségeket bármely Öntödei eszköz és megoldás használatakor, amely nem feltétlenül megfelelő minden iparágban vagy forgatókönyvben való használatra. Ezenkívül az Öntödei eszközöket vagy megoldásokat nem a vonatkozó szolgáltatási feltételekben és a vonatkozó magatartási kódexekben tiltott módon tervezték és nem használhatják.
Nem támogatott felhasználások
- Beszélgetés átírása beszélőfelismeréssel: A Speech szolgáltatás nem úgy van kialakítva, hogy diarizálást biztosítson a beszélőfelismeréshez, és nem használható egyének azonosítására. Más szóval az átiratban vendég1, vendég2, vendég3 stb. előadók jelennek meg. Ezek véletlenszerűen lesznek hozzárendelve, és nem használhatók a beszélgetés egyes előadóinak azonosítására. Minden beszélgetés átírása esetén a Vendég1, a Vendég2, a Vendég3 stb. hozzárendelése véletlenszerű lesz.
Annak érdekében, hogy megelőzze a Speech szolgáltatás azonosítási célú visszaélésének lehetőségét, Ön felelős azért, hogy a szolgáltatást – beleértve az áttűnést is – csak a támogatott felhasználásokhoz használja, valamint hogy a szolgáltatás minden használatához megfelelő jogalap és szükséges hozzájárulások legyenek érvényben.
Korlátozások
A szövegfelolvasás felismeri a hangbemenetben elhangzottakat, majd transzkripciós kimeneteket hoz létre. Ehhez a hangbemenetben és a beszélt stílusokban használt nyelvek megfelelő beállítására van szükség. A nem optimális beállítások alacsonyabb pontosságot eredményezhetnek.
Technikai korlátozások, működési tényezők és tartományok
A pontosság nyelve
A szöveges beszéd pontosságának mérésére szolgáló iparági szabvány a szavak hibaaránya (WER). A részletes WER-számítás megismeréséhez tekintse meg az egyéni beszédmodell pontosságának tesztelését ismertető témakört.
Átírási pontosság és rendszerkorlátozások
A beszédfelismerő gépi tanulási modell egy egységes beszédfelismerési gépi tanulási modellel írja át a beszédet számos kontextusban és témakörtartományban, beleértve a parancs- és vezérlést, a diktálást és a beszélgetéseket. Nem kell különböző modelleket használnia az alkalmazás- vagy szolgáltatásforgatókönyvekhez.
Azonban minden hangbemenethez meg kell adnia egy nyelvet vagy területi beállításokat. A nyelvnek vagy a területi beállításnak meg kell egyeznie a bemeneti hangon beszélt nyelvvel. További információkért tekintse meg a támogatott területi beállítások listáját.
Számos tényező vezethet alacsonyabb pontossághoz az átírásban:
- Akusztikai minőség: A beszédszöveg-kompatibilis alkalmazások és eszközök sokféle mikrofontípust és specifikációt használhatnak. Az egységes beszédmodellek különböző hangeszköz-forgatókönyvek, például telefonok, mobiltelefonok és hangszóróeszközök alapján lettek létrehozva. A hangminőséget azonban ronthatja, ha a felhasználó mikrofonba beszél, még akkor is, ha kiváló minőségű mikrofont használ. Ha például egy hangszóró távol van a mikrofontól, a bemeneti minőség túl alacsony lenne. A mikrofonhoz túl közel álló hangszóró a hangminőség romlását is okozhatja. Mindkét eset hátrányosan befolyásolhatja a szöveghez való beszéd pontosságát.
- Nem beszédzaj: Ha egy bemeneti hang egy bizonyos szintű zajt tartalmaz, a pontosságot befolyásolja. A zaj származhat a felvétel készítéséhez használt hangeszközökről, vagy maga a hangbemenet is tartalmazhat zajt, például háttér- vagy környezeti zajt.
- Átfedésben lévő beszéd: Egy hangbemeneti eszköz tartományán belül több hangszóró is lehet, és egyszerre szólalhatnak meg. Emellett más előadók is beszélhetnek a háttérben, miközben a fő felhasználó beszél.
- Vocabularies: A beszédfelolvasási modell számos területen számos különböző szóra lett betanítve. Előfordulhat azonban, hogy a felhasználók olyan szervezetspecifikus kifejezéseket és zsargonokat beszélnek, amelyek nem szerepelnek a szokásos szókincsben. Ha egy modellben nem létező szó jelenik meg a hangban, az eredmény az átírás hibája.
- Akcentusok: Még egy területi beállításon belül is, például az angol - Egyesült Államok (en-US), sok ember különböző akcentussal rendelkezik. A nagyon specifikus jelölőszínek az átírás hibájához is vezethetnek.
- Nem egyező területi beállítások: Előfordulhat, hogy a felhasználók nem beszélik a várt nyelveket. Ha angol – Egyesült Államok (en-US) nyelvi beállítást adott meg egy hangbemenethez, de például a beszélő svédül beszélt, az csökkentené a pontosságot.
- Beszúrási hibák: A beszédfelismerő modellek alkalmanként beszúrási hibát eredményezhetnek zaj vagy halk háttérbeszéd esetén. Ez korlátozott a Speech szolgáltatás használatakor, de valamivel gyakoribb, ha a Whisper modellt használja az OpenAI modellkártyán leírtak szerint.
Az akusztikai és nyelvi eltérések miatt az alkalmazás tervezésekor a kimeneti szövegben bizonyos fokú pontatlanságra kell számítania.
Rendszerteljesítmény
A rendszer teljesítményét ezek a fő tényezők mérik (a felhasználó szempontjából):
- Szóhiba arány (WER)
- Jogkivonat hibaaránya (TER)
- Futásidejű késés
A modell csak akkor tekinthető jobbnak, ha jelentős fejlesztéseket (például 5% relatív WER-javulást) mutat minden forgatókönyvben (például a beszélgetési beszéd átírása, a call center átírása, a diktálás és a hangsegéd), miközben összhangban van az erőforrás-használattal és a válaszkésés céljaival.
Diarizálás esetén a minőséget szójelezési hibaarány (WDER) használatával mérjük. Minél alacsonyabb a WDER, annál jobb a diarizálás minősége.
Ajánlott eljárások a rendszer teljesítményének javításához
A korábban leírtak szerint az olyan akusztikai körülmények, mint a háttérzaj, az oldalsó beszéd, a mikrofon távolsága, valamint a beszédstílusok és jellemzők hátrányosan befolyásolhatják a felismert elemek pontosságát.
A jobb beszédélmény érdekében vegye figyelembe az alábbi alkalmazás- vagy szolgáltatástervezési alapelveket:
- A bemeneti területi beállításoknak megfelelő kezelőfelületek tervezése: A nem egyező területi beállítások csökkentik a pontosságot. A Speech SDK támogatja az automatikus nyelvfelismerést, de a futásidőben megadott négy területi beállítás közül csak egyet észlel. Továbbra is tudnia kell, hogy a felhasználók milyen területi beállításban fognak beszélni. A felhasználói felületnek egyértelműen meg kell jelölnie, hogy a felhasználók mely nyelveken beszélhetnek egy legördülő menüben, amely felsorolja a támogatott nyelveket. További információkért tekintse meg a támogatott területi beállításokat.
- Engedje meg a felhasználóknak, hogy újrapróbálkozzanak: A téves észlelés átmeneti probléma miatt fordulhat elő, például nem egyértelmű vagy gyors beszéd, illetve hosszú szünet esetén. Ha az alkalmazás konkrét átiratokat vár, például előre definiált műveleti parancsokat, például az "Igen" és a "Nem" parancsot, és egyiket sem kapja meg, a felhasználóknak újra meg kell próbálniuk. Egy tipikus módszer, hogy mondja el a felhasználóknak: "Sajnáljuk, nem kaptam meg. Próbálkozzon újra."
- Mielőtt hangalapú műveletet hajt végre, erősítse meg a következőt: A billentyűzetalapú, a kattintásalapú vagy a koppintásalapú felhasználói felületekhez hasonlóan, ha egy hangbemenet aktiválhat egy műveletet, a felhasználóknak is lehetőséget kell biztosítani a művelet megerősítésére, különösen a felismert vagy átírt adatok megjelenítésével vagy lejátszásával. Egy tipikus példa egy szöveges üzenet hangról történő elküldése. Egy alkalmazás megismétli a felismert értéket, és megerősítést kér: "Ön azt mondta, "Köszönöm". Küldje el vagy módosítsa?"
- Egyéni vokabulárok hozzáadása: A beszédfelismerés által biztosított általános beszédfelismerési modell széles szókészletet fed le. Előfordulhat azonban, hogy a forgatókönyv-specifikus zsargon és az elnevezett entitások (például személynevek és terméknevek) alulreprezentáltak. Az, hogy milyen szavakat és kifejezéseket fognak kimondani, a forgatókönyvtől függően jelentősen változhat. Ha előre látható, hogy mely szavakat és kifejezéseket fogja kimondani (például amikor egy felhasználó kiválaszt egy elemet egy listából), érdemes lehet használnia a kifejezéslista nyelvhelyességi elemét. További információt a "Felismerés pontosságának javítása" című témakörben talál a Szövegfelolvasás első lépései című témakörben.
- Egyéni beszéd használata: Ha az alkalmazásforgatókönyvekben a szöveghez való beszéd pontossága alacsony marad, érdemes lehet testre szabni a modellt az akusztikai és nyelvi változatokhoz. Saját modelleket úgy hozhat létre, hogy saját hang- vagy szöveges adatokkal betanozza őket. Részletekért lásd az egyéni beszédet.
Beszéd szöveggé alakításának értékelése
A beszéd-szöveg modell kiértékelése teszteléssel történik. A tesztelés célja annak ellenőrzése, hogy a modell jól teljesít-e az egyes kulcsfontosságú forgatókönyvekben és az elterjedt hangviszonyokban, és hogy a demográfiai tényezők között is elérjük a méltányossági célokat.
Értékelési módszerek
A modell kiértékelésére tesztadatkészleteket használunk. A regressziós teszt és a modellteljesítmény-teszt is minden modell üzembe helyezése előtt lefut. A regressziós tesztek fő mérőszámai a WER, a TER, a WDER (ha a diarizálás engedélyezve van a szöveghez való beszéd közben), valamint a késés a 90. percentilisnél.
A kiértékelés eredménye
Igyekszünk minden modellfrissítést regressziómentesen szállítani (azaz a frissített modellnek csak az aktuális üzemi modellt kell javítania). Minden jelöltet közvetlenül az aktuális üzemi modellhez hasonlítunk össze. Az üzembe helyezési modell figyelembevételéhez legalább 5% relatív WER-javulást kell látnunk az aktuális üzemi modellhez képest.
A beszéd-szövegmodellek betanítása és hangolása hanghangolással történik, amely változatokat tartalmaz, többek között a következőket:
- Mikrofonok és eszközspecifikációk
- Beszédkörnyezet
- Beszédforgatókönyvek
- Beszélők nyelvei és ékezetei
- A beszélők életkora és neme
- A beszélők etnikai háttere
A diarizáláshoz további adatváltozatokat használunk:
- Az egyes beszélők beszédének időtartama
- Előadók száma
- Érzelmi beszéd, amely megváltoztatja a hangmagasságot és a hangnemet
Az eredményül kapott szövegfelolvasási rendszer szöveggé alakítja a felhasználó beszélt szavait, amelyet aztán használhat természetes nyelvtudással rendelkező párbeszédpanel-rendszer, vagy elemzésekhez, például összegzéshez vagy hangulatelemzéshez.
Méltányossági megfontolások
A Microsoftnál arra törekszünk, hogy a bolygón lévő összes személy számára nagyobb hatékonyságot biztosítsunk. E cél alapvető része a tisztességes és befogadó technológiák és termékek létrehozása. A méltányosság többdimenziós, társadalmi-technikai téma, és a termékfejlesztés számos különböző aspektusát érinti. További információ a Méltányosság Microsoft-megközelítéséről.
Az egyik dimenzió, amelyet figyelembe kell vennünk, az, hogy a rendszer milyen jól teljesít a különböző csoportok számára. A kutatások kimutatták, hogy anélkül, hogy a tudatos erőfeszítések az összes csoport teljesítményének javítására összpontosítanának, gyakran lehetséges, hogy az AI-rendszer teljesítménye különböző csoportokban változik olyan tényezők alapján, mint a faj, az etnikum, a régió, a nem és az életkor.
A beszédfelolvasási szövegmodell minden verzióját különböző tesztkészletek tesztelik és értékelik ki, hogy a modell az egyes kiértékelési feltételek nagy eltérése nélkül is teljesíthető legyen. Hamarosan részletesebb méltányossági eredmények érkeznek.
Beszéd és szöveg kiértékelése és integrálása a használatra
A szövegfelolvasás teljesítménye a valós használattól és a megvalósítandó feltételektől függően változik. Az optimális teljesítmény biztosítása érdekében a forgatókönyvben saját értékeléseket kell végeznie a implementálandó megoldásokról a beszéd szöveggé alakításával.
A teszthang-adatkészletének valódi hangbemenetekből kell állnia, amelyeket a már működő alkalmazásokban gyűjtöttek össze. Véletlenszerűen mintát kell adnia az adatokból, hogy tükrözze a valós felhasználói variációkat egy adott időszakban. Emellett a tesztadatkészletet rendszeresen frissíteni kell, hogy tükrözze a változatok változásait.
Útmutató az integrációhoz és a felelősségteljes beszédből szöveggé alakításhoz
Mivel a Microsoft felelősségteljesen segíti az ügyfeleket a megoldások kidolgozásában és üzembe helyezésében a szövegfelolvasás használatával, a személyes ügynökség és a méltóság tiszteletben tartásához elven alapuló megközelítést alkalmazunk, figyelembe véve az AI-rendszerek méltányosságát, megbízhatóságát és biztonságát, az adatvédelem és a biztonság, a befogadás, az átláthatóság és az emberi elszámoltathatóságot. Ezek a szempontok tükrözik a felelős mesterséges intelligencia fejlesztése iránti elkötelezettségünket.
Amikor készen áll az AI-alapú termékek vagy szolgáltatások üzembe helyezésére, az alábbi tevékenységek segítenek a sikeres üzembe helyezésben:
- Ismerje meg, hogy mire képes: A szöveghez való beszéd képességeinek teljes felmérése annak képességeinek és korlátainak megértéséhez. A valós életfeltételekkel és adatokkal végzett alapos teszteléssel megismerheti, hogyan fog az adott forgatókönyvben és kontextusban teljesíteni.
- Az egyén magánélethez való jogának tiszteletben tartása: Csak jogszerű és igazolható célokból gyűjthet adatokat és információkat magánszemélyektől. Csak olyan adatokat és információkat használjon fel, amelyek használatához Ön hozzájárult.
- Jogi felülvizsgálat: Szerezze be a megfelelő jogi tanácsokat a megoldás áttekintéséhez, különösen akkor, ha bizalmas vagy magas kockázatú alkalmazásokban fogja használni. Ismerje meg, hogy milyen korlátozásokra lehet szükség, és milyen felelősséget kell vállalnia a jövőben felmerülő problémák megoldásáért. Ne adjon semmilyen jogi tanácsot vagy útmutatást.
- Human-in-the-loop: Tartsa meg a human-in-the-loop megközelítést, és vegye be az emberi felügyeletet, mint egy meghatározó mintázat megvizsgálandó területet. Ez azt jelenti, hogy az AI-alapú termék vagy szolgáltatás folyamatos emberi felügyeletét, valamint az emberek döntéshozatali szerepének fenntartását kell biztosítani. Győződjön meg arról, hogy valós idejű emberi beavatkozást végezhet a megoldásban a károk megelőzése érdekében. Ez lehetővé teszi olyan helyzetek kezelését, amikor az AI-modell nem a szükséges módon működik.
- Biztonság: Győződjön meg arról, hogy a megoldás biztonságos, és megfelelő vezérlőkkel rendelkezik a tartalom integritásának megőrzéséhez és a jogosulatlan hozzáférés megakadályozásához.
- Bizalom kiépítése az érintett érdekelt felekkel: Az érintett érdekelt felek számára várható előnyök és lehetséges kockázatok közlése. Segítsen a felhasználóknak megérteni, hogy miért van szükség az adatokra, és hogy az adatok használata hogyan vezet az előnyükhöz. Az adatkezelés érthető leírása.
- Ügyfél-visszajelzési ciklus: Adjon meg egy visszajelzési csatornát, amely lehetővé teszi a felhasználók és a felhasználók számára a szolgáltatással kapcsolatos problémák bejelentését az üzembe helyezés után. Miután üzembe helyezett egy AI-alapú terméket vagy szolgáltatást, az folyamatos figyelést és fejlesztést igényel. Legyen készen arra, hogy bármilyen visszajelzést és fejlesztési javaslatot megvalósítson. Csatornákat hozhat létre az érintett érdekelt felek (a rendszer által közvetlenül vagy közvetve érintett személyek, köztük az alkalmazottak, a látogatók és a nyilvánosság) kérdéseinek és aggodalmainak gyűjtésére.
- Visszajelzés: Kérjen visszajelzést a közösség különböző mintavételezéséből a fejlesztési és értékelési folyamat során (például a történelmileg marginalizált csoportoktól, a fogyatékkal élőktől és a szolgáltatásban dolgozóktól). Lásd: Közösségi zsűri.
- Felhasználói tanulmány: Minden hozzájárulási vagy közzétételi javaslatot egy felhasználói tanulmányban kell keretbe helyezni. Értékelje ki az első és folyamatos használatot a közösség reprezentatív mintájával annak ellenőrzéséhez, hogy a tervezési döntések hatékony közzétételhez vezetnek-e. Végezzen felhasználói kutatást 10-20 közösségtaggal (érintett érdekelt felekkel) annak érdekében, hogy értékelje az információk megértését, és megállapítsa, teljesülnek-e az elvárásaik.
Javaslatok a magánszféra megőrzéséhez
A sikeres adatvédelmi megközelítés lehetővé teszi az egyének számára az információk megadását, valamint vezérlőket és védelmet biztosít az adatvédelem megőrzéséhez.
Hozzájárulás a hangbemenet feldolgozásához és tárolásához: Győződjön meg arról, hogy minden szükséges engedéllyel rendelkezik a végfelhasználóktól, mielőtt a beszédet szövegbarát funkciókra használja az alkalmazásokban vagy az eszközökön. Győződjön meg arról is, hogy rendelkezik engedéllyel ahhoz, hogy a Microsoft feldolgozhassa ezeket az adatokat külső felhőszolgáltatás-feldolgozóként. Vegye figyelembe, hogy a valós idejű API nem tárolja külön a hangbemeneti és átírási kimeneti adatokat. Az alkalmazást vagy az eszközt azonban úgy tervezheti meg, hogy megőrizze a végfelhasználói adatokat, például az átírás szövegét. Lehetősége van a helyi adatnaplózás bekapcsolására a Speech SDK-n keresztül (lásd: Naplózás engedélyezése a Speech SDK-ban).