Audioverwerking met de Microsoft Audio Stack

Artikel
10/16/2024

De Microsoft Audio Stack is een set verbeteringen die zijn geoptimaliseerd voor spraakverwerkingsscenario's. Dit omvat voorbeelden zoals trefwoordherkenning en spraakherkenning. Het bestaat uit verschillende verbeteringen/onderdelen die op het invoeraudiosignaal werken:

Ruisonderdrukking - Verminder het niveau van achtergrondruis.
Beamforming - Lokaliseer de oorsprong van geluid en optimaliseer het audiosignaal met meerdere microfoons.
Dereverberation - Verminder de reflecties van geluid van oppervlakken in de omgeving.
Akoestische echo-annulering : onderdrukt audio die wordt afgespeeld op het apparaat terwijl de microfooninvoer actief is.
Automatische controle- dynamisch het stemniveau van de persoon aanpassen om rekening te houden met zachte luidsprekers, lange afstanden of niet-gecalibreerde microfoons.

Verschillende scenario's en use-cases kunnen verschillende optimalisaties vereisen die van invloed zijn op het gedrag van de audioverwerkingsstack. In telecommunicatiescenario's zoals telefoongesprekken is het bijvoorbeeld acceptabel om kleine vervormingen in het audiosignaal te hebben nadat de verwerking is toegepast. Dit komt doordat mensen de spraak met hoge nauwkeurigheid kunnen blijven begrijpen. Het is echter onaanvaardbaar en storend voor een persoon om hun eigen stem in een echo te horen. Dit contrasteert met spraakverwerkingsscenario's, waarbij vervormde audio de nauwkeurigheid van een door de machine geleerde spraakherkenningsmodel nadelig kan beïnvloeden, maar het is acceptabel om kleine niveaus van echoresten te hebben.

Verwerking wordt volledig lokaal uitgevoerd waar de Speech SDK wordt gebruikt. Er worden geen audiogegevens gestreamd naar de cloudservices van Microsoft voor verwerking door de Microsoft Audio Stack. De enige uitzondering hierop is voor de gesprektranscriptieservice, waarbij onbewerkte audio wordt verzonden naar de cloudservices van Microsoft voor verwerking.

De Microsoft Audio Stack biedt ook een breed scala aan Microsoft-producten:

Windows - Microsoft Audio Stack is de standaardpijplijn voor spraakverwerking wanneer u de spraakaudiocategorie gebruikt.
Microsoft Teams Displays and Microsoft Teams-ruimten devices - Microsoft Teams Displays and Teams-ruimten devices use the Microsoft Audio Stack to enable high quality hands-free, voice based experiences with Cortana.

Speech SDK-integratie

De Speech SDK integreert Microsoft Audio Stack (MAS), zodat elke toepassing of elk product de audioverwerkingsmogelijkheden voor invoeraudio kan gebruiken. Enkele van de belangrijkste functies van Microsoft Audio Stack die beschikbaar zijn via de Speech SDK zijn onder andere:

Realtime microfooninvoer en bestandsinvoer - Microsoft Audio Stack-verwerking kan worden toegepast op realtime microfooninvoer, streams en bestandsinvoer.
Selectie van verbeteringen : om volledige controle over uw scenario mogelijk te maken, kunt u met de SDK afzonderlijke verbeteringen uitschakelen, zoals dereverberation, ruisonderdrukking, automatisch versterkingsbeheer en akoestische echo-annulering. Als uw scenario bijvoorbeeld geen renderinguitvoeraudio bevat die moet worden onderdrukt van de invoeraudio, hebt u de mogelijkheid om akoestische echo-annulering uit te schakelen.
Aangepaste microfoongeometrieën : met de SDK kunt u uw eigen aangepaste microfoongeometriegegevens opgeven, naast het ondersteunen van vooraf ingestelde geometrieën zoals lineaire twee microfoons, lineaire vier microfoons en ronde 7 microfoonmatrices (zie meer informatie over ondersteunde vooraf ingestelde geometrieën bij aanbevelingen voor microfoonmatrix).
Stralende hoeken - Specifieke straalvormende hoeken kunnen worden opgegeven om audio-invoer te optimaliseren die afkomstig is van een vooraf bepaalde locatie, ten opzichte van de microfoons.

Minimale vereisten voor het gebruik van Microsoft Audio Stack

Microsoft Audio Stack kan worden gebruikt door elk product of elke toepassing die aan de volgende vereisten kan voldoen:

Onbewerkte audio - Microsoft Audio Stack vereist onbewerkte (niet-verwerkte) audio als invoer om de beste resultaten te beleveren. Het leveren van audio die al is verwerkt, beperkt de mogelijkheid van de audiostack om verbeteringen van hoge kwaliteit uit te voeren.
Microfoongeometrieën - Geometriegegevens over elke microfoon op het apparaat zijn vereist om alle verbeteringen die worden aangeboden door de Microsoft Audio Stack correct uit te voeren. Informatie omvat het aantal microfoons, hun fysieke rangschikking en coördinaten. Er worden maximaal 16 invoermicrofoonkanalen ondersteund.
Loopback of verwijzingsaudio : een audiokanaal dat de audio vertegenwoordigt die wordt afgespeeld op het apparaat, is vereist om akoestische echo-annulering uit te voeren.
Invoerindeling - Microsoft Audio Stack ondersteunt steekproeven voor samplefrequenties die integraal veelvouden van 16 kHz zijn. Er is een minimale steekproefsnelheid van 16 kHz vereist. Daarnaast worden de volgende indelingen ondersteund: 32-bits IEEE little endian float, 32-bits little endian sign int, 24-bits little endian sign int, 16-bits little endian sign int en 8-bits ondertekende int.

De Speech SDK gebruiken voor audioverwerking

Delen via

Audioverwerking met de Microsoft Audio Stack

Speech SDK-integratie

Minimale vereisten voor het gebruik van Microsoft Audio Stack

Feedback

Aanvullende resources

Delen via

Audioverwerking met de Microsoft Audio Stack

Speech SDK-integratie

Minimale vereisten voor het gebruik van Microsoft Audio Stack

Gerelateerde inhoud

Feedback

Aanvullende resources