Hlasová aktivace

Poznámka:

Tento článek se týká především uživatelských prostředí poskytovaných ve Windows 10 (verze 1909 a starší). Další informace najdete v tématu Konec podpory Cortany.

Cortana, platforma pro řeč ve Windows, využívá všechna prostředí pro řeč ve Windows 10, jako je Cortana a diktování. Aktivace hlasem je funkce, která uživatelům umožňuje vyvolat modul pro rozpoznávání řeči z různých stavů napájení zařízení tím, že řekne konkrétní frázi " Hey Cortana" (Ahoj Cortano). Pokud chcete vytvořit hardware, který podporuje technologii hlasové aktivace, projděte si informace v tomto článku.

Poznámka:

Implementace hlasové aktivace je významným projektem a jde o úkol, který dokončují dodavatelé SoC. OEM mohou kontaktovat dodavatele SoC s žádostí o informace o implementaci hlasové aktivace SoC.

Prostředí koncového uživatele Cortany

Pokud chcete porozumět prostředí hlasové interakce dostupné ve Windows, přečtěte si tyto články.

Article	Popis
Co je Cortana?	Poskytuje a přehled a směr použití Cortany

Úvod k hlasové aktivaci „Hey Cortana“ a „Nauč se můj hlas“

Aktivace hlasem "Hey Cortana"

Funkce "Hey Cortana" Voice Activation (VA) umožňuje uživatelům rychle zapojit prostředí Cortany mimo jejich aktivní kontext (to znamená, co je aktuálně na obrazovce) pomocí hlasu. Uživatelé často chtějí mít okamžitý přístup k prostředí, aniž by museli fyzicky pracovat nebo se dotýkat zařízení. Uživatelé telefonu mohou řídit v autě a mít pozornost a ruce zapojené do provozu vozidla. Uživatel Xboxu nemusí chtít ovladač najít a připojit. Uživatelé počítačů můžou chtít rychlý přístup k prostředí, aniž by museli provádět více akcí myši, dotykového ovládání nebo klávesnice. Například počítač v kuchyni, který se používá při vaření.

Hlasová aktivace poskytuje vždy poslech hlasového vstupu prostřednictvím předdefinovaných klíčových frází nebo aktivačních frází. Klíčové fráze se dají vyslovit samostatně ("Hey Cortana") jako stupňovaný příkaz, nebo následované pokynem řečí, například: "Ahoj Cortano, kde je moje příští schůzka?" jako zřetězený příkaz.

Pojem Detekce klíčových slov popisuje detekci klíčového slova hardwarem nebo softwarem.

Aktivace klíčového slova proběhne pouze, když je řečeno jenom klíčové slovo Cortana. Cortana se spustí a přehraje zvuk EarCon, který označuje, že vstoupila do režimu naslouchání.

Zřetězený příkaz popisuje schopnost vydat příkaz okamžitě po klíčovém slovu (například "Ahoj Cortano, zavolej Johnovi"), aby se Cortana spustila (pokud ještě není spuštěna) a postupovala podle příkazu (zahájení telefonního hovoru s Johnem).

Tento diagram znázorňuje zřetězenou a pouze klíčovou aktivaci.

Diagram znázorňující rozdíl mezi zřetězenou aktivací a aktivací pouze klíčovým slovem s vyrovnávací pamětí a časovou posloupností zvuku

Microsoft poskytuje výchozí detektor klíčových slov pro operační systém (softwarový detektor klíčových slov), který se používá k zajištění kvality detekce klíčových slov u hardwaru a k poskytování funkce Hey Cortana v případech, kdy hardwarová detekce klíčových slov chybí nebo není k dispozici.

Funkce "Learn my voice" (Naučit se můj hlas)

Funkce "Learn my voice" umožňuje uživateli trénovat Cortanu, aby rozpoznal svůj jedinečný hlas. Toho je dosaženo, když uživatel na obrazovce nastavení Cortany vybere možnost "Naučte se, jak říkám 'Hey Cortana'". Uživatel pak opakuje šest pečlivě zvolených frází, které poskytují dostatek fonetických vzorů k identifikaci jedinečných atributů hlasu uživatele.

Snímek obrazovky s nastavením plochy Cortany pro detekci klíčových slov pomocí hardwaru a funkce aktivace hlasem.

Když je aktivace hlasem spárovaná s příkazem "Learn my voice" (Naučit se můj hlas), oba algoritmy spolupracují, aby se snížila počet falešných aktivací. To je zvláště cenné pro scénář zasedací místnosti, kde jedna osoba říká "Hey Cortana" v místnosti plné zařízení. Tato funkce je dostupná jenom pro Windows 10 verze 1903 a starší.

Aktivace hlasem využívá spotter klíčového slova (KWS), který reaguje, pokud se zjistí klíčová fráze. Pokud má KWS probudit zařízení z úsporného režimu, řeší se to pomocí funkce Wake on Voice (WoV). Další informace naleznete v tématu Wake on Voice.

Glosář termínů

Tento glosář shrnuje termíny související s aktivací hlasu.

termín	Příklad/definice
Fázovaný příkaz	Příklad: Hey Cortana <pozastav, počkej na zvuk EarCon> Jaké je počasí? Tento příkaz se někdy označuje jako "Dvojitý příkaz" nebo "Pouze klíčové slovo".
Zřetězený příkaz	Příklad: Hey Cortana, jaké je počasí? Tento příkaz se někdy označuje jako "one-shot command" (Příkaz s jedním snímkem).
Hlasová aktivace	Scénář detekce klíčového slova pomocí předem definované aktivační fráze. Například "Hey Cortana" je scénář aktivace hlasem Microsoftu.
WoV	Wake-on-Voice – technologie, která umožňuje aktivaci hlasu z vypnuté obrazovky, nižšího stavu napájení až po obrazovku v režimu plného napájení.
WoV z moderního pohotovostního režimu	Probuzení hlasem ze stavu moderního pohotovostního režimu (S0ix) vypnuté obrazovky do stavu plného výkonu se zapnutou obrazovkou (S0).
Moderní pohotovostní režim	Infrastruktura Windows Low Power Idle – následník systému Connected Standby (CS) ve Windows 10. První stav moderního pohotovostního režimu je, když je obrazovka vypnutá. Nejsáhlejší stav spánku je v režimu DRIPS/Resiliency. Další informace naleznete v tématu Moderní pohotovostní režim
KWS	Detektor klíčových slov – algoritmus, který zajišťuje detekci "Hey Cortana"
SW KWS	Softwarový vyhledávač klíčových slov – implementace KWS, který běží na hostiteli (CPU). V případě "Hey Cortana" je SW KWS součástí Windows.
HW KWS	Spotter klíčových slov offloadovaný na hardware – implementace KWS, která běží na hardwaru.
Nárazová vyrovnávací paměť	Kruhová vyrovnávací paměť použitá k ukládání dat PCM, která se můžou "navýšit" na detekci KWS, aby byl zahrnut veškerý zvuk, který aktivoval detekci KWS.
Adaptér OEM detektoru klíčových slov	Překrytí na úrovni ovladače, které umožňuje hardwaru s podporou WoV komunikovat s Windows a stackem Cortany.
Vzor	Datový soubor akustického modelu používaný algoritmem KWS. Datový soubor je statický. Modely jsou lokalizovány, jeden pro každou lokalitu.

Integrace hardwarového spotteru klíčových slov

Proveďte následující úlohy pro implementaci detektoru klíčových slov v hardwaru (HW KWS).

Vytvořte vlastní detektor klíčových slov založený na ukázce SYSVAD popsané dále v tomto článku. Tyto metody implementujete v COM DLL, popsané v Keyword Detector OEM Adapter Interface.
Implementujte vylepšení WAVE RT popsaná v vylepšeních WAVERT.
Zadejte položky souboru INF, které popisují všechny vlastní apOs používané k detekci klíčových slov.
Projděte si doporučení k hardwaru a pokyny k testování v doporučení zvukového zařízení. Tento článek obsahuje pokyny a doporučení pro návrh a vývoj zvukových vstupních zařízení určených pro použití s platformou Speech Platform microsoftu.
Podpora fázovaných i zřetězených příkazů
Podpora "Hey Cortana" pro všechna podporovaná lokalit Cortany.
Objekty APO (Objekty pro zpracování zvuku) musí obsahovat následující efekty:
- AEC
- AGC
- NS
Efekty pro režim zpracování řeči musí ohlásit MFX APO.
APO může provádět převod formátu pomocí MFX.
APO musí vypisovat následující formát:
- 16 kHz, mono, FLOAT.
Volitelně můžete navrhnout jakékoli vlastní APOs pro vylepšení procesu záznamu zvuku. Další informace naleznete v tématu Objekty pro zpracování zvuku systému Windows.

Požadavky na rozpoznávání klíčových slov se zatížením přeneseným na hardware (HW KWS) Požadavky na WoV

HW KWS WoV je podporován během pracovního stavu S0 a stavu spánku S0, také známého jako moderní pohotovostní režim.
HW KWS WoV není podporován z S3.

Požadavky AEC pro HW KWS

Pro Windows verze 1709
- Pro podporu HW KWS WoV pro stav spánku S0 (Moderní pohotovostní režim) AEC není potřeba.
- Hw KWS WoV pro S0 pracovní stav není podporován ve Windows verze 1709.
Pro Windows verze 1803
- Podporuje se HW KWS WoV pro pracovní stav S0.
- Aby bylo možné povolit HW KWS WoV pro pracovní stav S0, musí APO podporovat AEC.

Přehled ukázkového kódu

Existuje vzorový kód pro ovladač zvuku, který implementuje aktivaci hlasu na GitHubu jako součást ukázky virtuálního zvukového adaptéru SYSVAD. Tento kód doporučujeme použít jako výchozí bod. Kód je k dispozici na této adrese.

https://github.com/Microsoft/Windows-driver-samples/tree/main/audio/sysvad/

Další informace o ukázkovém zvukovém ovladači SYSVAD naleznete v tématu Ukázkové zvukové ovladače.

Informace o systému rozpoznávání klíčových slov

Podpora zvukové vrstvy pro hlasové spouštění

Vnější rozhraní audio stacku pro povolení hlasové aktivace slouží jako komunikační kanál pro platformu řeči a zvukové ovladače. Externí rozhraní jsou rozdělena do tří částí.

Detektor klíčových slov Device Driver Interface (DDI). Rozhraní ovladače zařízení detektoru klíčových slov je zodpovědné za konfiguraci a aktivaci HW detektoru klíčových slov (KWS). Ovladač ho také používá k oznamování systému událostí detekce.
OEM adaptér detektoru klíčových slov DLL. Tato knihovna DLL implementuje rozhraní COM pro přizpůsobení neprůhledných dat specifických pro ovladač pro použití operačním systémem, aby usnadnila detekci klíčových slov.
Vylepšení streamování WaveRT Tato vylepšení umožňují ovladači zvuku streamovat zvuková data uložená ve vyrovnávací paměti z detekce klíčových slov.

Vlastnosti zvukového koncového bodu

Vytváření grafů zvukového koncového bodu probíhá normálně. Graf je připravený k rychlejšímu zpracování než zachycení v reálném čase. Časová razítka u zachycených bufferů zůstávají přesná. Konkrétně časová razítka správně odrážejí data zachycená v minulosti a uložená do vyrovnávací paměti, která se nyní vyprázdňují.

Teorie obejití streamování zvuku přes Bluetooth

Ovladač jako obvykle zveřejňuje filtr KS pro své zařízení pro zachytávání. Tento filtr podporuje několik vlastností KS a událost KS ke konfiguraci, povolení a signalizaci události detekce. Filtr také obsahuje další zvukový kanál typu pin, identifikovaný jako rozpoznávač klíčových slov (KWS). Tento pin se používá ke streamování zvuku z detektoru klíčových slov.

Vlastnosti zahrnují:

Podporované typy klíčových slov – KSPROPERTY_SOUNDDETECTOR_PATTERNS. Operační systém nastaví tuto vlastnost tak, aby nakonfigurovala klíčová slova, která se mají detekovat.
Seznam vzorů identifikátorů klíčových slov GUID – KSPROPERTY_SOUNDDETECTOR_SUPPORTEDPATTERNS Tato vlastnost slouží k získání seznamu identifikátorů GUID, které identifikují typy podporovaných vzorů.
Ozbrojený - KSPROPERTY_SOUNDDETECTOR_ARMED. Tato vlastnost pro čtení/zápis je logický stav označující, jestli je detektor ozbrojený. Operační systém to nastaví tak, aby zapojuje detektor klíčových slov. Operační systém toto může vymazat, aby došlo k odpojení. Ovladač to automaticky vymaže, když jsou nastaveny vzorce klíčových slov a také po zjištění klíčového slova. (Operační systém se musí znovu nastavit.)
Výsledek shody – KSPROPERTY_SOUNDDETECTOR_MATCHRESULT Tato vlastnost čtení obsahuje výsledná data po zjištění.

Událost, která se aktivuje při zjištění klíčového slova, je KSEVENT_SOUNDDETECTOR_MATCHDETECTED.

Posloupnost operací

Spuštění systému

Operační systém přečte podporované typy klíčových slov a ověří, jestli má v daném formátu klíčová slova.
Operační systém zaregistruje událost změny stavu detektoru.
Operační systém nastaví vzory klíčových slov.
OS aktivuje detektor.

Při přijetí události KS

Řidič odzbroje detektor.
Operační systém přečte stav detektoru klíčových slov, analyzuje vrácená data a určí, který vzor byl zjištěn.
OS znovu aktivuje detektor.

Interní operace ovladače a hardwaru

Když je detektor aktivovaný, hardware může nepřetržitě zachytávat a ukládat zvuková data v malé vyrovnávací paměti FIFO. (Velikost této vyrovnávací paměti FIFO je určena požadavky mimo tento dokument, ale obvykle je v rozsahu od stovek milisekund do několika sekund.) Algoritmus detekce pracuje při streamování dat přes tuto vyrovnávací paměť. Návrh ovladače a hardwaru je navržen tak, že když jsou aktivovány, nedochází k interakci mezi ovladačem a hardwarem a nedochází k přerušení procesorů aplikace, dokud není detekováno klíčové slovo. To umožňuje systému dosáhnout nižšího stavu napájení, pokud neexistuje žádná jiná aktivita.

Když hardware zjistí klíčové slovo, vygeneruje přerušení. Během čekání, až ovladač obsluhuje přerušení, hardware nadále zachytává zvuk do vyrovnávací paměti, čímž se zajišťuje, že po klíčovém slovu nedojde ke ztrátě žádných dat, pokud to dovolí omezení vyrovnávací paměti.

Časové razítka klíčových slov

Po zjištění klíčového slova musí všechna řešení hlasové aktivace ukládat všechna mluvená klíčová slova do vyrovnávací paměti, včetně 250 ms před začátkem klíčového slova. Ovladač zvuku musí poskytovat časová razítka identifikující začátek a konec klíčové fráze ve streamu.

Aby bylo možné podporovat časová razítka začátku a konce klíčového slova, může software DSP potřebovat interně označovat události časovými razítky na základě DSP hodin. Jakmile se zjistí klíčové slovo, software DSP komunikuje s ovladačem a připraví událost KS. Ovladač a software DSP musí mapovat časová razítka DSP na hodnotu ukazatele výkonu Windows. Metoda tohoto postupu je specifická pro návrh hardwaru. Jedním z možných řešení je, že ovladač bude číst aktuální čítač výkonu, dotazovat se na aktuální časové razítko DSP, znovu číst aktuální čítač výkonu a pak odhadnout korelaci mezi čítačem výkonu a časem DSP. Poté může ovladač namapovat časová razítka klíčového slova DSP na časová razítka čítačů výkonu Windows.

OEM rozhraní adaptéru pro detektor klíčových slov

OEM poskytuje implementaci objektu MODELU COM, která funguje jako zprostředkovatel mezi operačním systémem a ovladačem, což pomáhá vypočítat nebo analyzovat neprůsedná data zapsaná a přečtená do zvukového ovladače prostřednictvím KSPROPERTY_SOUNDDETECTOR_PATTERNS a KSPROPERTY_SOUNDDETECTOR_MATCHRESULT.

CLSID objektu COM je identifikátor GUID typu detektoru vrácený KSPROPERTY_SOUNDDETECTOR_SUPPORTEDPATTERNS. OS volá CoCreateInstance a předá GUID vzoru, aby vytvořil instanci odpovídajícího objektu COM, který je kompatibilní s typem klíčového slova, a volá metody rozhraní IKeywordDetectorOemAdapter objektu.

Požadavky na COM vlákencový model

Implementace OEM může zvolit libovolný z modelů vláken COM.

IKeywordDetectorOemAdapter

Návrh rozhraní se pokusí zachovat bezstavovou implementaci objektu. Jinými slovy, implementace by neměla vyžadovat, aby mezi voláními metody nebyl uložen žádný stav. Ve skutečnosti interní třídy C++ pravděpodobně nepotřebují žádné členské proměnné nad rámec těch, které jsou potřeba k implementaci objektu COM obecně.

Metody

Implementujte následující metody.

KEYWORDID

Výčet KEYWORDID identifikuje text fráze nebo funkci klíčového slova a používá se také v adaptérech služby Windows Biometric Service. Další informace naleznete v tématu Přehled biometrické architektury – Základní komponenty platformy

typedef enum  {
  KwInvalid    = 0,
  KwHeyCortana = 1,
  KwSelect     = 2
} KEYWORDID;

Výběr klíčového slova

Struktura KEYWORDSELECTOR je sada ID, které jedinečně vyberou konkrétní klíčové slovo a jazyk.

typedef struct
{
    KEYWORDID KeywordId;
    LANGID LangId;
} KEYWORDSELECTOR;

Zpracování dat modelu

Statický model nezávislý na uživatelích – Knihovna DLL OEM obvykle obsahuje nějaká statická data modelu nezávislá na uživatelích, která jsou součástí knihovny DLL, nebo do samostatného datového souboru, který je součástí knihovny DLL. Sada podporovaných ID klíčových slov vrácených rutinou GetCapabilities by závisela na těchto datech. Pokud například seznam podporovaných ID klíčových slov vrácených funkcí GetCapabilities zahrnuje KwHeyCortana, data statického modelu nezávislého na uživatelích by obsahovala data pro Hey Cortana (nebo jeho překlad) pro všechny podporované jazyky.

Dynamický model závislý na uživatelích – IStream poskytuje model úložiště s náhodným přístupem. OS předává ukazatel na rozhraní IStream mnoha metodám na rozhraní IKeywordDetectorOemAdapter. Operační systém zálohuje implementaci IStream s odpovídajícím úložištěm pro až 1 MB dat.

Obsah a struktura dat v tomto úložišti je definována výrobcem OEM. Zamýšleným účelem je trvalé úložiště dat modelu závislých na uživateli vypočítaných nebo načtených knihovnou DLL OEM.

Operační systém může volat metody rozhraní s prázdným IStreamem, zejména pokud uživatel nikdy nenatrénoval klíčové slovo. Operační systém vytvoří samostatné úložiště IStream pro každého uživatele. Jinými slovy, daná IStream ukládá data modelu pro jednoho a pouze jednoho uživatele.

Vývojář knihovny DLL OEM rozhoduje, jak spravovat nezávislá uživatelská data a data závislá na uživatelích. Nikdy však neukládá uživatelská data kdekoli mimo IStream. Jeden možný návrh knihovny DLL OEM by interně přepínala mezi přístupem k IStream a statickými uživatelsky nezávislými daty v závislosti na parametrech aktuální metody. Alternativní návrh by mohl zkontrolovat IStream na začátku každého volání metody a přidat statická data nezávislá na uživateli do IStreamu, pokud tam ještě nejsou, což umožňuje zbytku metody přístup pouze k IStreamu pro všechna data modelu.

Školení a provoz zpracování zvuku

Jak jsme popsali dříve, tok trénovacího uživatelského rozhraní má za následek, že jsou ve zvukovém streamu k dispozici celé fonesticky bohaté věty. Každá věta je jednotlivě předána IKeywordDetectorOemAdapter::VerifyUserKeyword k ověření, že obsahuje očekávané klíčové slovo a má přijatelnou kvalitu. Po shromáždění a ověření všech vět v uživatelském rozhraní se všechny předávají jedním voláním IKeywordDetectorOemAdapter::ComputeAndAddUserModelData.

Zvuk se zpracovává jedinečným způsobem pro trénování hlasové aktivace. Následující tabulka shrnuje rozdíly mezi trénováním hlasové aktivace a běžným využitím rozpoznávání hlasu.

	Hlasové trénování	Rozpoznávání hlasu
Režim	Syrový	Nezpracovaná data nebo mluvený projev
Připnout	Normální	KWS
Formát zvuku	32bitový float (typ = audio, podtyp = IEEE_FLOAT, vzorkovací frekvence = 16 kHz, bity = 32)	Spravuje se pomocí zvukové vrstvy operačního systému.
Mic	Mikrofon 0	Všechny mikrofony v poli nebo mono

Přehled systému rozpoznávání klíčových slov

Tento diagram poskytuje přehled systému rozpoznávání klíčových slov.

Diagram systému rozpoznávání klíčových slov, včetně komponent Cortany, modulu speech runtime a správce hlasové aktivace

Diagramy sekvence rozpoznávání klíčových slov

V těchto diagramech se modul Speech Runtime zobrazuje jako platforma speech. Jak už jsme zmínili dříve, řečová platforma Pro Windows slouží k výkonu všech hlasových prostředí ve Windows 10, jako je Cortana a diktování.

Během spouštění se shromáždí schopnosti pomocí IKeywordDetectorOemAdapter::GetCapabilities.

Sekvenční diagram rozpoznávání klíčových slov během spuštění, který znázorňuje trénování uživatelského rozhraní, řečové platformy a detektoru klíčových slov OEM

Později, když uživatel vybere možnost Učit se můj hlas, bude vyvolán tréninkový proces.

Sekvenční diagram rozpoznávání klíčových slov během procesu „Nauč se můj hlas“, který znázorňuje výcvik uživatelského rozhraní, hlasovou platformu a OEM detektor klíčových slov.

Tento diagram popisuje proces přípravy k detekci klíčových slov.

Sekvenční diagram rozpoznání klíčových slov při aktivaci detekce, který ukazuje hlasovou platformu, detektor klíčových slov OEM a detektor zvukového disku.

Vylepšení WAVERT

Rozhraní miniportu jsou definována tak, aby byla implementována ovladači miniportu WaveRT. Tato rozhraní poskytují metody pro zjednodušení ovladače zvuku, zlepšení výkonu a spolehlivosti zvukového kanálu operačního systému nebo podporu nových scénářů. Je definována nová vlastnost rozhraní zařízení PnP, která ovladači umožňuje poskytovat statické výrazy omezení velikosti vyrovnávací paměti operačnímu systému.

Velikosti vyrovnávací paměti

Ovladač pracuje s různými omezeními při přesouvání zvukových dat mezi operačním systémem, ovladačem a hardwarem. Tato omezení můžou být způsobená fyzickým hardwarovým přenosem, který přesouvá data mezi pamětí a hardwarem, nebo kvůli modulům zpracování signálu v rámci hardwaru nebo přidruženého DSP.

HW-KWS řešení musí podporovat velikosti zvukového zachytávání nejméně 100 ms a až 200 ms.

Ovladač vyjadřuje omezení velikosti vyrovnávací paměti nastavením vlastnosti zařízení DEVPKEY_KsAudio_PacketSize_Constraints na PnP rozhraní zařízení KSCATEGORY_AUDIO filtru KS, který má KS streamovací piny. Tato vlastnost by měla zůstat platná a stabilní, pokud je povolené rozhraní filtru KS. Operační systém může tuto hodnotu kdykoli přečíst, aniž by musel otevřít popisovač ovladače a zavolat ovladač.

DEVPKEY_KsAudio_PacketSize_Constraints

Hodnota vlastnosti DEVPKEY_KsAudio_PacketSize_Constraints obsahuje strukturu KSAUDIO_PACKETSIZE_CONSTRAINTS popisující omezení fyzického hardwaru (to znamená z důvodu mechaniky přenosu dat z vyrovnávací paměti WaveRT do zvukového hardwaru). Struktura obsahuje pole 0 nebo více KSAUDIO_PACKETSIZE_PROCESSINGMODE_CONSTRAINT struktur popisujících omezení specifická pro všechny režimy zpracování signálu. Ovladač nastaví tuto vlastnost před voláním PcRegisterSubdevice nebo jiným povolením rozhraní filtru KS pro piny streamování.

IMiniportWaveRTInputStream

Ovladač implementuje toto rozhraní pro lepší koordinaci toku zvukových dat z ovladače do operačního systému. Pokud je toto rozhraní k dispozici v datovém proudu zachycení, operační systém používá metody tohoto rozhraní pro přístup k datům ve vyrovnávací paměti WaveRT. Další informace naleznete v tématu IMiniportWaveRTInputStream::GetReadPacket

IMiniportWaveRTOutputStream

Miniport WaveRT volitelně implementuje toto rozhraní, aby bylo informováno o průběhu zápisu z operačního systému a aby mohlo vrátit přesnou pozici proudu. Další informace najdete v IMiniportWaveRTOutputStream::SetWritePacket, IMiniportWaveRTOutputStream::GetOutputStreamPresentationPosition a IMiniportWaveRTOutputStream::GetPacketCount.

Časové razítka čítačů výkonu

Několik rutin ovladačů vrací časové razítko čítače výkonu Windows, které odráží čas, kdy jsou vzorky zachyceny nebo prezentovány zařízením.

V zařízeních, která mají složité kanály DSP a zpracování signálu, může být výpočet přesného časového razítka náročný a měl by být proveden promyšleně. Časová razítka by neměla odrážet čas, kdy byly vzorky přeneseny do nebo z operačního systému do DSP.

V rámci DSP sledujte vzorková časová razítka pomocí interních DSP hodin.
Mezi ovladačem a DSP vypočítejte korelaci mezi čítačem výkonu Windows a hodinou DSP. Postupy mohou být v rozsahu od jednoduchých (ale méně přesných) až po poměrně složité nebo nové (ale přesnější).
Vezměte v úvahu jakákoli konstantní zpoždění způsobená algoritmy zpracování signálu nebo přenosovými kanály či hardwarem, pokud tato zpoždění nejsou jinak zohledněna.

Operace čtení v burst módu

Tato část popisuje interakci operačního systému a ovladače pro shlukové čtení. Nárazové čtení může probíhat mimo scénář hlasové aktivace, pokud ovladač podporuje model WaveRT založený na paketech, včetně funkce IMiniportWaveRTInputStream::GetReadPacket .

Probereme dva ukázkové scénáře čtení s výpadkem. V jednom scénáři, pokud miniport podporuje kategorii pinů KSNODETYPE_AUDIO_KEYWORDDETECTOR, ovladač začne při detekci klíčového slova zachytávat data a interně je ukládat do vyrovnávací paměti. V jiném scénáři může ovladač interně ukládat data mimo vyrovnávací paměť WaveRT, pokud operační systém nečte data dostatečně rychle voláním IMiniportWaveRTInputStream::GetReadPacket.

Aby mohl ovladač zpracovat data zachycená před přechodem na KSSTATE_RUN, musí zachovat přesné informace o časovém razítku vzorku spolu s daty uloženými ve vyrovnávací paměti. Časové razítka identifikují instanci vzorkování zachycených vzorků.

Po přechodu datového proudu na KSSTATE_RUN ovladač ihned nastaví událost upozornění o vyrovnávací paměti, protože už má k dispozici data.
V této události operační systém volá GetReadPacket() k získání informací o dostupných datech.
1. Ovladač vrátí počet paketů platných zachycených dat (0 pro první paket po přechodu z KSSTATE_STOP na KSSTATE_RUN), ze kterých operační systém může odvodit pozici paketu ve vyrovnávací paměti WaveRT a pozici paketu vzhledem ke spuštění datového proudu.
2. Ovladač také vrátí hodnotu čítače výkonu, která odpovídá instanci vzorkování prvního vzorku v paketu. Tato hodnota čítače výkonu může být relativně stará v závislosti na tom, kolik dat zachycení bylo uloženo do vyrovnávací paměti hardwaru nebo ovladače (mimo vyrovnávací paměť WaveRT).
3. Pokud jsou k dispozici další nepřečtená data uložená ve vyrovnávací paměti, ovladač může:
  1. Okamžitě přenese tato data do dostupného prostoru vyrovnávací paměti WaveRT (tj. prostor nevyužitý paketem vráceným z GetReadPacket), vrátí hodnotu true pro MoreData a nastaví událost oznámení vyrovnávací paměti před návratem z této rutiny. Nebo:
  2. Programuje hardware pro rozšíření dalšího paketu do dostupného prostoru vyrovnávací paměti WaveRT, vrátí hodnotu false pro MoreData a později nastaví událost vyrovnávací paměti po dokončení přenosu.
Operační systém čte data z vyrovnávací paměti WaveRT pomocí informací vrácených metodou GetReadPacket().
Operační systém čeká na oznámení o události vyrovnávací paměti. Čekání se může ukončit okamžitě, pokud ovladač nastaví oznámení vyrovnávací paměti ve kroku (2c).
Pokud ovladač okamžitě nenastavil událost v kroku (2c), ovladač nastaví událost po přenosu zachycených dat do vyrovnávací paměti WaveRT a zpřístupní ji operačnímu systému ke čtení.
Přejděte na (2). Pro KSNODETYPE_AUDIO_KEYWORDDETECTOR piny detektoru klíčových slov by ovladače měly přidělit dostatek interní vyrovnávací paměti pro nejméně 5000 ms zvukových dat. Pokud se operačnímu systému nepodaří vytvořit stream na pinu před přetečením vyrovnávací paměti, může ovladač ukončit interní buffering a uvolnit přidružené prostředky.

Probuzení hlasem

Funkce Wake On Voice (WoV) umožňuje uživateli aktivovat a dotazovat modul pro rozpoznávání řeči z vypnuté obrazovky, nižšího stavu napájení na obrazovku, plný stav napájení tím, že řekne určité klíčové slovo, například "Hey Cortana" (Ahoj Cortano).

Tato funkce umožňuje, aby zařízení vždy naslouchá hlasu uživatele, když je zařízení v nízkém stavu napájení, včetně toho, kdy je obrazovka vypnutá a zařízení je nečinné. Dělá to pomocí režimu poslechu, což je nižší výkon oproti vyššímu využití energie, které se zobrazuje při normálním nahrávání mikrofonu. Rozpoznávání řeči s nízkou spotřebou umožňuje uživateli říct předdefinovanou klíčovou frázi, jako je "Hey Cortana," následovanou spojovacím hlasovým příkazem, jako je "kdy je moje další schůzka," k vyvolání řeči bez použití rukou. Funguje to bez ohledu na to, jestli je zařízení používáno nebo nečinné s vypnutou obrazovkou.

Zvukový zásobník zodpovídá za komunikaci dat probuzení (ID mluvčího, trigger klíčového slova, úroveň spolehlivosti) a upozorňování klientů, že se klíčové slovo detekuje.

Ověřování v moderních pohotovostních systémech

WoV ze stavu nečinnosti systému lze ověřit na systémech Modern Standby pomocí testů Modern Standby Wake on Voice Basic Test na AC-napájení a Modern Standby Wake on Voice Basic Test na DC-napájení v HLK. Tyto testy kontrolují, že systém má hardwarový detektor klíčového slova (HW-KWS), dokáže vstoupit do nejhlubšího stavu nečinnosti platformy runtime (DRIPS) a může se probudit z režimu Modern Standby na hlasový příkaz s latencí obnovení systému menší nebo rovnou jedné sekundě.

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-09-19