Zpracování zvuku

Článek
01/18/2024

Microsoft Audio Stack je sada vylepšení optimalizovaných pro scénáře zpracování řeči. To zahrnuje příklady, jako je rozpoznávání klíčových slov a rozpoznávání řeči. Skládá se z různých vylepšení a komponent, které pracují se vstupním zvukovým signálem:

Potlačení šumu – Snižte úroveň šumu na pozadí.
Beamforming - Lokalizace původu zvuku a optimalizace zvukového signálu pomocí více mikrofonů.
Dereverberation - Redukce odrazů zvuku z povrchů v prostředí.
Zrušení akustické ozvěny – Potlačení přehrávaného zvuku ze zařízení, zatímco vstup mikrofonu je aktivní.
Automatické ovládání získání – dynamicky upravte úroveň hlasu osoby tak, aby se zohlednily měkké reproduktory, dlouhé vzdálenosti nebo nekalibované mikrofony.

Různé scénáře a případy použití mohou vyžadovat různé optimalizace, které ovlivňují chování zásobníku zpracování zvuku. Například v telekomunikačních scénářích, jako jsou telefonní hovory, je přijatelné mít menší zkreslení zvukového signálu po použití zpracování. Je to proto, že lidé můžou dál rozumět řeči s vysokou přesností. Je to ale nepřijatelné a rušivé, aby osoba slyšela svůj vlastní hlas v ozvěně. To kontrastuje se scénáři zpracování řeči, kdy zkreslený zvuk může nepříznivě ovlivnit přesnost modelu strojového rozpoznávání řeči, ale je přijatelné mít menší úrovně reziduí ozvěny.

Zpracování se provádí plně místně, kde se používá sada Speech SDK. Microsoft Audio Stack streamuje do cloudových služeb Microsoftu žádná zvuková data ke zpracování. Jedinou výjimkou je služba přepisu konverzace, kde se nezpracovaný zvuk odesílá do cloudových služeb Microsoftu ke zpracování.

Microsoft Audio Stack také využívá širokou škálu produktů Microsoftu:

Windows – Microsoft Audio Stack je výchozí kanál pro zpracování řeči při použití kategorie zvuku služby Speech.
Zařízení Microsoft Teams Displays a Microsoft Teams Rooms – Zařízení Microsoft Teams Displays a Teams Rooms používají Microsoft Audio Stack k zajištění vysoce kvalitních prostředí založených na rukou s Cortanou.

Integrace sady Speech SDK

Sada Speech SDK integruje Microsoft Audio Stack (MAS), která umožňuje libovolné aplikaci nebo produktu používat své možnosti zpracování zvuku na vstupním zvuku. Mezi klíčové funkce Microsoft Audio Stacku, které jsou k dispozici prostřednictvím sady Speech SDK, patří:

Vstup mikrofonu a vstup do souboru v reálném čase – Zpracování microsoft Audio Stacku lze použít na vstup mikrofonu, streamy a vstup založený na souborech v reálném čase.
Výběr vylepšení – Pokud chcete povolit úplnou kontrolu nad vaším scénářem, sada SDK umožňuje zakázat jednotlivá vylepšení, jako je dereverberace, potlačení šumu, automatické získání kontroly a zrušení akustické ozvěny. Pokud váš scénář například neobsahuje vykreslovací výstupní zvuk, který je potřeba potlačit ze vstupního zvuku, máte možnost zakázat zrušení akustické ozvěny.
Vlastní geometrie mikrofonu – Sada SDK umožňuje kromě podpory přednastavených geometrií, jako jsou lineární dvou mikrofonní , lineární čtyř mikrofonní a kruhová pole 7 mikrofonů (další informace o podporovaných přednastavených geometrích najdete v doporučeních pro pole mikrofonu).
Úhly tvarování paprsků - Lze poskytnout specifické úhly tvarování paprsků pro optimalizaci zvukového vstupu pocházejícího z předem určeného umístění vzhledem k mikrofonům.

Minimální požadavky na používání služby Microsoft Audio Stack

Microsoft Audio Stack může používat jakýkoli produkt nebo aplikace, které mohou splňovat následující požadavky:

Nezpracovaný zvuk – Microsoft Audio Stack vyžaduje jako vstup nezpracovaný (nezpracovaný) zvuk, aby bylo možno dosáhnout nejlepších výsledků. Poskytnutí zvuku, který je již zpracován, omezuje schopnost zvukového zásobníku provádět vylepšení ve vysoké kvalitě.
Geometrie mikrofonu – Informace o geometrii o jednotlivých mikrofonech na zařízení se vyžadují k správnému provedení všech vylepšení nabízených službou Microsoft Audio Stack. Informace zahrnují počet mikrofonů, jejich fyzické uspořádání a souřadnic. Podporuje se až 16 vstupních mikrofonových kanálů.
Zpětná smyčka nebo referenční zvuk – zvukový kanál, který představuje zvuk přehrávané ze zařízení, je nutný k provedení zrušení akustické ozvěny.
Vstupní formát – Microsoft Audio Stack podporuje vzorkování pro vzorkovací frekvence, které jsou integrální násobky 16 kHz. Vyžaduje se minimální vzorkovací frekvence 16 kHz. Kromě toho jsou podporovány následující formáty: 32bitové IEEE little endian float, 32bitové bit endian signed int, 24-bit little endian signed int, 16-bit little endian signed int a 8-bit signed int.

Další kroky

Použití sady Speech SDK ke zpracování zvuku

Zpracování zvuku

Integrace sady Speech SDK

Minimální požadavky na používání služby Microsoft Audio Stack

Další kroky

Další materiály