Mi az a kulcsszófelismerés?
A kulcsszófelismerés egy szó- vagy rövid kifejezést észlel egy hangstreamben. Ezt a technikát kulcsszó-észlelésnek is nevezik.
A kulcsszófelismerés leggyakoribb használati esete a virtuális asszisztensek hangaktiválása. A "Hey Cortana" például a Cortana-asszisztens kulcsszója. A kulcsszó felismerése után a rendszer forgatókönyv-specifikus műveletet hajt végre. A virtuális asszisztensi forgatókönyvek esetében a gyakori eredmény a hang beszédfelismerése, amely a kulcsszót követi.
A virtuális asszisztensek általában mindig figyelnek. A kulcsszófelismerés adatvédelmi határként működik a felhasználó számára. A kulcsszókövetelmény kapuként működik, amely megakadályozza, hogy a nem kapcsolódó felhasználói hang átkeljen a helyi eszközön a felhőbe.
A pontosság, a késés és a számítási összetettség egyensúlya érdekében a kulcsszófelismerés többtényezős rendszerként van implementálva. Az elsőn túl minden fázis esetében a hang csak akkor lesz feldolgozva, ha az azt megelőző szakasz felismeri az érdeklődési kulcsszót.
A jelenlegi rendszer több fázisból áll, amelyek lefedik a peremhálózatot és a felhőt:
A kulcsszófelismerés pontosságát a következő metrikák mérik:
- Helyes elfogadási arány: Méri a rendszer azon képességét, hogy felismerje a felhasználó által beszélt kulcsszót. A helyes elfogadási arányt valódi pozitív aránynak is nevezik.
- Hamis elfogadási arány: Méri a rendszer azon képességét, hogy kiszűrje a felhasználó által beszélt kulcsszót. A hamis elfogadási arányt hamis pozitív aránynak is nevezik.
A cél a helyes elfogadási arány maximalizálása a hamis elfogadási arány minimalizálása mellett. A jelenlegi rendszer úgy lett kialakítva, hogy észleljen egy kulcsszót vagy kifejezést, amelyet rövid csend előz meg. A kulcsszó mondat vagy kimondott szöveg közepén való észlelése nem támogatott.
Egyéni kulcsszó eszközmodellekhez
A Speech Studio egyéni kulcsszóportáljával olyan kulcsszófelismerő modelleket hozhat létre, amelyek a peremhálózaton futnak bármilyen szó vagy rövid kifejezés megadásával. A megfelelő kiejtések kiválasztásával tovább személyre szabhatja a kulcsszómodellt.
Díjszabás
Az egyéni kulcsszó használata nem jár költséggel modellek létrehozásához, beleértve az alapszintű és a speciális modelleket is. A Speech SDK-val az eszközön futtatott modelleket sem kell költségesen futtatni, ha más Speech service-funkciókkal, például beszédfelolvasással használják.
Modellek típusai
Egyéni kulcsszóval kétféle eszközmodellt hozhat létre bármely kulcsszóhoz.
Modell típusa | Leírás |
---|---|
Alap | Leginkább demó- vagy gyors prototípus-készítéshez alkalmas. A modellek egy közös alapmodellel jönnek létre, és akár 15 percet is igénybe vehet. Előfordulhat, hogy a modellek nem rendelkeznek optimális pontossági jellemzőkkel. |
Felsőfokú | Leginkább termékintegrációs célokra alkalmas. A modellek egy közös alapmodell adaptálásával jönnek létre szimulált betanítási adatok használatával a pontossági jellemzők javítása érdekében. A modellek előkészítése akár 48 órát is igénybe vehet. |
Feljegyzés
A speciális modelltípust támogató régiók listáját a kulcsszófelismerő régió támogatási dokumentációjában tekintheti meg.
Egyik modelltípus sem követeli meg a betanítási adatok feltöltését. Az egyéni kulcsszó teljes mértékben kezeli az adatlétrehozás és a modell betanítását.
Kiejtés
Új modell létrehozásakor az egyéni kulcsszó automatikusan létrehozza a megadott kulcsszó lehetséges kiejtéseit. Meghallgathatja az egyes kiejtéseket, és kiválaszthatja azokat a változatokat, amelyek szorosan tükrözik azt, ahogyan a felhasználók a kulcsszót mondják. Az összes többi kiejtést nem szabad kijelölni.
Fontos megfontolni a kiválasztott kiejtéseket a legjobb pontossági jellemzők biztosítása érdekében. Ha például a szükségesnél több kiejtést választ, magasabb hamis elfogadási arányt kaphat. Ha túl kevés kiejtést választ, és nem minden várt változatot fed le, akkor a helyes elfogadási arány alacsonyabb lehet.
Modellek tesztelése
Miután az egyéni kulcsszó létrehozza az eszközmodelleket, a modellek közvetlenül a portálon tesztelhetők. A portál használatával közvetlenül a böngészőbe is beszólhat, és kulcsszófelismerési eredményeket kaphat.
Kulcsszó-ellenőrzés
A kulcsszó-ellenőrzés egy felhőalapú szolgáltatás, amely csökkenti az eszközön futó, robusztus, Azure-ban futó modellek hamis elfogadásainak hatását. A kulcsszó-ellenőrzéshez nincs szükség hangolásra vagy betanításra a kulcsszó-ellenőrzéshez. A növekményes modellfrissítések folyamatosan üzembe vannak helyezve a szolgáltatásban a pontosság és a késés javítása érdekében, és transzparensek az ügyfélalkalmazások számára.
Díjszabás
A kulcsszó-ellenőrzés mindig a szöveghez való beszéddel együtt használatos. A kulcsszó-ellenőrzés használata a szöveghez való beszéd költségén túl nem jár költséggel.
Kulcsszó-ellenőrzés és szövegfelolvasás
Ha kulcsszóellenőrzést használ, az mindig a szöveghez való beszéddel együtt történik. Mindkét szolgáltatás párhuzamosan fut, ami azt jelenti, hogy a hang mindkét szolgáltatásnak egyidejű feldolgozás céljából lesz elküldve.
A kulcsszó-ellenőrzés és a szöveghez való beszéd párhuzamos futtatása a következő előnyökkel jár:
- Nincs más késés a szöveghez való beszédben: A párhuzamos végrehajtás azt jelenti, hogy a kulcsszó-ellenőrzés nem jár késéssel. Az ügyfél gyorsan megkapja a szöveges beszéd eredményeit. Ha a kulcsszó-ellenőrzés megállapítja, hogy a kulcsszó nem volt jelen a hangban, a szövegfeldolgozás leáll. Ez a művelet védelmet nyújt a szövegfeldolgozás szükségtelen beszéde ellen. A hálózati és felhőmodellek feldolgozása növeli a hangaktiválás felhasználó által érzékelt késését. További információ: Javaslatok és irányelvek.
- Kényszerített kulcsszóelőtag a beszéd szöveggé alakításához: A szövegfeldolgozáshoz való beszéd biztosítja, hogy az ügyfélnek küldött eredmények előtagként szerepeljenek a kulcsszóval. Ez a viselkedés nagyobb pontosságot tesz lehetővé a kulcsszót követő beszéd és szöveg eredményében.
- Beszéd és szöveg közötti időtúllépés: Mivel a kulcsszó a hang elején várhatóan jelen van, a szöveghez való beszéd hosszabb, legfeljebb öt másodperces szünetet tesz lehetővé a kulcsszó után, mielőtt meghatározza a beszéd végét, és megszakítja a beszédet a szövegfeldolgozással. Ez a viselkedés biztosítja, hogy a felhasználói élmény megfelelően legyen kezelve a szakaszos parancsok (kulcsszó-szüneteltetési><<>parancs>) és a láncolt parancsok (<kulcsszóparancs>><) esetében.<
Kulcsszó-ellenőrzési válaszok és késési szempontok
A szolgáltatásnak küldött minden kérés esetén a kulcsszó-ellenőrzés két válasz egyikét adja vissza: elfogadva vagy elutasítva. A feldolgozási késés a kulcsszó hosszától és annak a hangszegmensnek a hosszától függően változik, amely várhatóan tartalmazza a kulcsszót. A feldolgozási késés nem tartalmazza az ügyfél és a Speech-szolgáltatások közötti hálózati költségeket.
Kulcsszó-ellenőrzési válasz | Leírás |
---|---|
Elfogadva | Azt jelzi, hogy a szolgáltatás úgy gondolta, hogy a kulcsszó megtalálható a kérés részeként megadott hangstreamben. |
Elutasítva | Azt jelzi, hogy a szolgáltatás úgy véli, hogy a kulcsszó nem szerepel a kérés részeként megadott hangstreamben. |
Az elutasított esetek gyakran nagyobb késést eredményeznek, mivel a szolgáltatás több hangot dolgoz fel, mint az elfogadott eseteket. Alapértelmezés szerint a kulcsszó-ellenőrzés legfeljebb két másodpercnyi hanganyagot dolgoz fel a kulcsszó kereséséhez. Ha a kulcsszó két másodperc alatt nem található, a szolgáltatás időtúllépést jelez, és elutasított választ jelez az ügyfélnek.
Kulcsszó-ellenőrzés használata egyéni kulcsszóból származó eszközmodellekkel
A Speech SDK lehetővé teszi az egyéni kulcsszóval generált eszközmodellek zökkenőmentes használatát kulcsszó-ellenőrzéssel és szöveggé alakítással. Transzparensen kezeli a következőt:
- Hangbeolvasás kulcsszó-ellenőrzésre és beszédfelismerésre az eszközmodell eredményei alapján.
- A kulcsszó és a kulcsszó ellenőrzése.
- További metaadatok átadása a felhőbe a végpontok közötti forgatókönyv vezényléséhez.
Nem kell explicit módon megadnia semmilyen konfigurációs paramétert. A rendszer automatikusan kinyer minden szükséges információt az egyéni kulcsszó által létrehozott eszközmodellből.
Az itt csatolt minta és oktatóanyagok bemutatják a Speech SDK használatát:
- Hangsegédminták a GitHubon
- Oktatóanyag: Az Azure AI Bot Service használatával készült asszisztens hangalapú engedélyezése a C# Speech SDK-val
A Speech SDK integrációja és forgatókönyvei
A Speech SDK lehetővé teszi az egyéni kulcsszó- és kulcsszóellenőrzéssel létrehozott, személyre szabott eszközalapú kulcsszófelismerési modellek egyszerű használatát. A termék igényeinek kielégítése érdekében az SDK a következő két forgatókönyvet támogatja:
Eset | Leírás | Példák |
---|---|---|
Végpontok közötti kulcsszófelismerés szövegfelolvasással | Leginkább olyan termékekhez ideális, amelyek egyéni kulcsszóellenőrzéssel és beszédalapú szöveggel rendelkező, testre szabott eszközalapú kulcsszómodellt használnak. Ez a forgatókönyv a leggyakoribb. | |
Offline kulcsszófelismerés | Leginkább olyan hálózati kapcsolat nélküli termékekhez ideális, amelyek egyéni kulcsszóból származó, testre szabott eszközalapú kulcsszómodellt használnak. |