Microsoft 오디오 스택을 사용하여 오디오 처리

MAS(Microsoft Audio Stack)는 키워드 인식 및 음성 인식과 같은 음성 처리 시나리오에 최적화된 오디오 처리 기능 집합입니다. Speech SDK는 MAS를 통합하여 모든 애플리케이션 또는 제품이 입력 오디오에서 오디오 처리 기능을 사용할 수 있도록 합니다.

오디오 처리 파이프라인

Microsoft 오디오 스택은 각각 다른 시나리오에 최적화된 두 개의 오디오 처리 파이프라인을 제공합니다.

DSP 기반 파이프라인(기본값)

기본 파이프라인(AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT)은 기존의 DSP(디지털 신호 처리) 알고리즘을 사용하며 빔포밍, 역참조, 음향 에코 취소, 자동 게인 제어 및 노이즈 억제와 같은 향상된 기능의 전체 집합을 제공합니다. 시나리오와 일치하도록 개별 향상 기능을 사용하지 않도록 설정할 수 있습니다. 이 파이프라인은 모든 마이크 배열 기하 도형을 지원하며 Windows 및 Linux에서 사용할 수 있습니다.

DSP 개선 사항 및 코드 샘플에 대한 자세한 내용은 Microsoft Audio Stack DSP 기반 오디오 처리를 참조하세요.

모델 기반 에코 취소 파이프라인

모델 기반 파이프라인(AUDIO_INPUT_PROCESSING_ENABLE_V2)은 향상된 에코 억제를 위해 DSP 기반 에코 캔슬러를 기계 학습 모델로 바꿉니다. 이 파이프라인은 특히 음향 에코 취소에 중점을 두고 있으며 에코 억제 품질이 중요한 시나리오를 위해 설계되었습니다.

자세한 내용 및 코드 샘플은 Microsoft Audio Stack을 사용한Model 기반 에코 취소 참조하세요.

파이프라인 비교

오디오 향상

특징 DSP 기반(기본값) 모델 기반(V2)
음향 반향 제거 ✔✔
노이즈 억제
탈반향
자동 게인 제어
빔 형성
향상된 개별 기능 사용 안 함

✔✔ = 기계 학습 향상 ✔ = 지원되는 ✘ = 미지원

플랫폼 및 언어 지원

특징 DSP 기반(기본값) 모델 기반(V2)
Windows x64
Windows ARM64
리눅스
C++
C#
Java

Speech SDK 통합

두 파이프라인은 모두 Speech SDK의 AudioProcessingOptions 클래스를 통해 사용할 수 있습니다. 주요 기능은 다음과 같습니다.

  • 실시간 마이크 입력 및 파일 입력 - 오디오 처리는 실시간 마이크 입력, 스트림 및 파일 기반 입력에 적용할 수 있습니다.
  • 스피커 참조 채널 - 옵션을 사용하여 SpeakerReferenceChannel.LastChannel 에코 취소를 위해 스피커 참조 채널을 지정할 수 있습니다.

개인 정보 및 데이터 처리

Speech SDK를 사용하는 경우에는 처리가 완전히 로컬로 수행됩니다. 오디오 데이터는 Microsoft 오디오 스택에서 처리하기 위해 Microsoft 클라우드 서비스로 스트리밍되지 않습니다. 유일한 예외는 원시 오디오가 처리를 위해 Microsoft 클라우드 서비스로 전송되는 Conversation Transcription Service입니다.