使用 Windows Media 音频语音编解码器

Windows Media 音频语音编解码器提供针对包含语音的音频优化的低比特率压缩。 编解码器生成如此小样本的能力是由于人类声音的频率范围有限。 这种优化意味着专用语音编码器会为包含更复杂的声音(如音乐)的内容创建质量不佳的输出。 但是,Windows Media 音频语音编解码器通过为语音、音乐和混合内容提供单独的模式来弥补这种潜在的质量问题。 编解码器分析混合内容,以确定对文件的每个部分使用哪种模式。

Windows Media Audio Voice 编解码器在由类标识符CLSID_CWMSPEncMediaObject2标识的编码器对象中实现,在由类标识符标识的解码器对象中实现CLSID_CWMSPDecMediaObject。 0x00A使用此编解码器的媒体类型的格式标记。

配置编码器

语音编码器支持三种模式:语音、音乐和混合。 每种模式都经过优化,以获得该类型内容的最佳结果。 可以使用 IPropertyStore 的方法设置 MFPKEY_WMAVOICE_ENC_MusicSpeechClassMode 属性来配置语音编码器的模式。

当针对混合内容进行配置时,Windows Media 音频语音编解码器将自动检测内容中音乐的段落。 如果对结果不满意,可以使用编辑决策列表 (EDL) 指定音乐在内容中的位置。 有关详细信息,请参阅 使用编码语音的编辑决策列表

与其他音频编码器不同,可以使用 MFPKEY_WMAVOICE_ENC_BufferWindow 属性设置语音内容的缓冲区窗口值。 但是,在大多数情况下,默认值应正常工作。

注意

   配置语音编码器时,在设置输入类型之前设置输出类型非常重要。 这是所有音频编解码器的建议操作顺序,但如果在调用 IMediaObject::GetOutputTypeIMFTransform::GetOutputType 时设置了输入,语音编码器可能会报告错误的输出类型。

 

解码

解码语音音频没有特殊要求。 有关详细信息,请参阅 配置音频解码

使用音频