다음을 통해 공유


오디오 처리

Microsoft 오디오 스택은 음성 처리 시나리오에 최적화된 음질 향상 기능의 집합입니다. 여기에는 키워드 인식 및 음성 인식과 같은 예가 포함됩니다. 입력 오디오 신호에 대해 작동하는 다양한 음질 향상 기능/구성 요소로 구성됩니다.

  • 잡음 억제 - 배경 소음 수준을 낮춥니다.
  • 빔 형성 - 여러 개의 마이크를 사용하여 소리의 출처를 파악하고 오디오 신호를 최적화합니다.
  • 탈반향 - 환경의 표면에서 소리의 반사를 줄입니다.
  • 반향 제거 - 마이크 입력이 활성화되어 있는 동안 디바이스에서 오디오가 재생되지 않도록 합니다.
  • 자동 게인 제어 - 소프트 스피커, 장거리 또는 보정되지 않은 마이크를 고려하여 사용자의 음성 수준을 동적으로 조정합니다.

Block diagram of Microsoft Audio Stack's enhancements.

다양한 시나리오와 사용 사례에는 오디오 처리 스택의 동작에 영향을 미치는 다양한 최적화가 필요할 수 있습니다. 예를 들어 전화 통화와 같은 통신 시나리오에서는 처리가 적용된 후 오디오 신호에 약간의 왜곡이 있을 수 있습니다. 이는 사용자가 높은 정확도로 음성을 계속 이해할 수 있기 때문입니다. 그러나 사용자가 자신의 음성을 반향에서 듣는 것은 허용되지 않으며 중단됩니다. 이는 왜곡된 오디오가 음성 인식 모델의 정확도에 부정적인 영향을 미칠 수 있는 음성 처리 시나리오와 대비되지만, 약간의 잔류 반향을 사용할 수 있습니다.

Speech SDK를 사용하는 경우에는 처리가 완전히 로컬로 수행됩니다. 오디오 데이터가 Microsoft 오디오 스택에서 처리하기 위해 Microsoft의 클라우드 서비스로 스트리밍되지 않습니다. 유일한 예외는 대화 전사 서비스로, 처리를 위해 원시 오디오가 Microsoft의 클라우드 서비스로 전송됩니다.

Microsoft 오디오 스택은 또한 광범위한 Microsoft 제품을 공급합니다.

  • Windows - Microsoft 오디오 스택은 음성 오디오 범주를 사용하는 경우 기본 음성 처리 파이프라인입니다.
  • Microsoft Teams 디스플레이 및 Microsoft Teams 룸 디바이스 - Microsoft Teams 디스플레이 및 Microsoft Teams 룸 디바이스는 Microsoft 오디오 스택을 사용하여 Cortana에서 고품질의 핸즈프리 음성 기반 환경을 사용할 수 있도록 합니다.

Speech SDK 통합

Speech SDK는 MAS(Microsoft Audio Stack)를 통합하여 모든 애플리케이션 또는 제품이 입력 오디오에서 오디오 처리 기능을 사용할 수 있도록 합니다. Speech SDK를 통해 사용할 수 있는 주요 Microsoft 오디오 스택 기능 중 일부는 다음과 같습니다.

  • 실시간 마이크 입력 및 파일 입력 - 실시간 마이크 입력, 스트림 및 파일 기반 입력에 Microsoft 오디오 스택 처리를 적용할 수 있습니다.
  • 음질 향상 기능 선택 - 시나리오를 완벽하게 제어할 수 있도록 이 SDK를 사용하여 탈반향, 잡음 제거, 자동 게인 제어 및 반향 제거와 같은 개별 음질 향상 기능을 사용하지 않도록 설정할 수 있습니다. 예를 들어 입력 오디오에서 억제해야 하는 렌더링 출력 오디오가 시나리오에 포함되지 않은 경우 음향 제거를 사용하지 않도록 설정할 수 있습니다.
  • 사용자 지정 마이크 기하 구조 - 이 SDK를 사용하면 선형 2개 마이크, 선형 4개 마이크, 원형 7개 마이크 배열과 같은 미리 설정된 기하 구조뿐만 아니라 고유한 사용자 지정 마이크 기하 구조 정보를 제공할 수 있습니다(마이크 배열 권장 사항에서 지원되는 미리 설정된 기하 구조에 대한 자세한 내용 참조).
  • 빔 형성 - 마이크를 기준으로 미리 결정된 위치에서 시작되는 오디오 입력을 최적화하기 위해 특정 빔 형성 각도를 제공할 수 있습니다.

Microsoft 오디오 스택을 사용하기 위한 최소 요구 사항

Microsoft 오디오 스택은 다음 요구 사항을 충족할 수 있는 모든 제품 또는 애플리케이션에서 사용할 수 있습니다.

  • 원시 오디오 - Microsoft Audio Stack에는 최상의 결과를 생성하기 위해 입력으로 원시(처리되지 않은) 오디오가 필요합니다. 이미 처리된 오디오를 제공하면 고품질에서 음질 향상을 수행하는 오디오 스택의 기능이 제한됩니다.
  • 마이크 기하 구조 - Microsoft 오디오 스택에서 제공하는 모든 음질 향상 기능을 제대로 수행하려면 디바이스의 각 마이크에 대한 기하 구조 정보가 필요합니다. 이 정보에는 마이크 수, 실제 배열 및 좌표가 포함됩니다. 최대 16개의 입력 마이크 채널이 지원됩니다.
  • 루프백 또는 참조 오디오 - 디바이스에서 재생 중인 오디오를 나타내는 오디오 채널은 반향 제거를 수행하는 데 필요합니다.
  • 입력 형식 - Microsoft 오디오 스택은 16kHz의 정수 배수인 샘플링 속도에 대해 다운샘플링을 지원합니다. 최소 16kHz의 샘플링 속도가 필요합니다. 또한 32비트 IEEE little endian float, 32비트 little endian signed int, 24비트 little endian signed int, 16비트 little endian signed int 및 8비트 signed int 형식이 지원됩니다.

다음 단계

오디오 처리에 Speech SDK 사용