你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

speech 包

适用于 Python 的 Microsoft 语音 SDK

模块

audio

与处理各种识别器的音频输入以及语音合成器的音频输出相关的类。

dialog

与对话框服务连接器相关的类。

enums

适用于 Python 的 Microsoft 语音 SDK

intent

与语音中的意向识别相关的类。

interop

适用于 Python 的 Microsoft 语音 SDK

languageconfig

与语言配置处理相关的类

properties

适用于 Python 的 Microsoft 语音 SDK

speech

与从语音中识别文本、从文本合成语音相关的类,以及各种识别器中使用的常规类。

transcription

与会话听录相关的类。

translation

与语音翻译为其他语言相关的类。

version

适用于 Python 的 Microsoft 语音 SDK

AudioDataStream

表示用于以流的形式操作音频数据的音频数据流。

从语音合成结果 (SpeechSynthesisResult) 或 (类型 KeywordRecognitionResult) 的关键字 (keyword) 识别结果生成音频数据流。

AutoDetectSourceLanguageResult

表示自动检测源语言结果。

可以从语音识别结果初始化结果。

CancellationDetails

适用于 Python 的 Microsoft 语音 SDK

Connection

用于管理与指定 Recognizer的语音服务的连接的代理类。

默认情况下, Recognizer 在需要时自主管理与服务的连接。 类 Connection 为用户提供其他方法,以显式打开或关闭连接并订阅连接状态更改。 Connection 的使用是可选的。 它适用于需要根据连接状态微调应用程序行为的情况。 用户可以选择调用 open 以手动启动服务连接,然后开始识别与此 Connection关联的 。Recognizer 开始识别后,调用 openclose 可能会失败。 这不会影响识别器或正在进行的识别。 连接可能因各种原因而断开,识别器将始终尝试根据需要重新建立连接,以保证正在进行的操作。 在所有这些情况下,事件 connected/disconnected 将指示连接状态的更改。

注意

在版本 1.17.0 中更新。

供内部使用的构造函数。

ConnectionEventArgs

为 ConnectionEvent 提供数据。

注意

在版本 1.2.0 中添加

供内部使用的构造函数。

EventSignal

客户端可以连接到事件信号以接收事件,或与事件信号断开连接以停止接收事件。

供内部使用的构造函数。

KeywordRecognitionEventArgs

关键字 (keyword) 识别事件参数的类。

供内部使用的构造函数。

KeywordRecognitionModel

表示关键字 (keyword) 识别模型。

KeywordRecognitionResult

关键字 (keyword) 识别操作的结果。

供内部使用的构造函数。

KeywordRecognizer

关键字 (keyword) 识别器。

NoMatchDetails

适用于 Python 的 Microsoft 语音 SDK

PhraseListGrammar

允许在运行时添加短语提示以帮助语音识别的类。

添加到识别器中的短语在下一次识别开始时或下次语音识别器必须重新连接到语音服务时有效。

注意

在版本 1.5.0 中添加。

供内部使用的构造函数。

PronunciationAssessmentConfig

表示发音评估配置

注意

在版本 1.14.0 中添加。

可以通过两种方式初始化配置:

  • from 参数:传递引用文本、评分系统、粒度、启用错误和方案 ID。

  • from json:传递 json 字符串

有关参数的详细信息,请参阅 https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

包含音素级发音评估结果

注意

在版本 1.14.0 中添加。

PronunciationAssessmentResult

表示发音评估结果。

注意

在版本 1.14.0 中添加。

可以从语音识别结果初始化结果。

PronunciationAssessmentWordResult

包含单词级发音评估结果

注意

在版本 1.14.0 中添加。

PropertyCollection

用于从属性集合中检索或设置属性值的类。

RecognitionEventArgs

为 RecognitionEvent 提供数据。

供内部使用的构造函数。

RecognitionResult

有关识别操作结果的详细信息。

供内部使用的构造函数。

Recognizer

不同识别器的基类

ResultFuture

异步操作的结果。

私有构造函数

SessionEventArgs

会话事件参数的基类。

供内部使用的构造函数。

SourceLanguageRecognizer

源语言识别器 - 独立语言识别器,可用于单语言或连续语言检测。

注意

在版本 1.18.0 中添加。

SpeechConfig

定义语音/意向识别和语音合成配置的类。

可以通过不同的方式初始化配置:

  • 从订阅:传递订阅密钥和区域

  • 从终结点:传递终结点。 订阅密钥或授权令牌是可选的。

  • 从主机:传递主机地址。 订阅密钥或授权令牌是可选的。

  • 从授权令牌:传递授权令牌和区域

SpeechRecognitionCanceledEventArgs

语音识别取消事件参数的类。

供内部使用的构造函数。

SpeechRecognitionEventArgs

语音识别事件参数的类。

供内部使用的构造函数。

SpeechRecognitionResult

语音识别结果的基类。

供内部使用的构造函数。

SpeechRecognizer

语音识别器。 如果需要指定源语言信息,请仅指定这三个参数之一:语言、source_language_config或auto_detect_source_language_config。

SpeechSynthesisBookmarkEventArgs

语音合成书签事件参数的类。

注意

在版本 1.16.0 中添加。

供内部使用的构造函数。

SpeechSynthesisCancellationDetails

包含有关取消结果的原因的详细信息。

SpeechSynthesisEventArgs

语音合成事件参数的类。

供内部使用的构造函数。

SpeechSynthesisResult

语音合成操作的结果。

供内部使用的构造函数。

SpeechSynthesisVisemeEventArgs

语音合成视素事件参数的类。

注意

在版本 1.16.0 中添加。

供内部使用的构造函数。

SpeechSynthesisWordBoundaryEventArgs

语音合成字边界事件参数的类。

注意

在版本 1.21.0 中更新。

供内部使用的构造函数。

SpeechSynthesizer

语音合成器。

SyllableLevelTimingResult

包含音节级别计时结果

注意

在版本 1.20.0 中添加。

SynthesisVoicesResult

包含有关检索到的合成语音列表的详细信息。

注意

在版本 1.16.0 中添加。

供内部使用的构造函数。

VoiceInfo

包含有关合成语音信息的详细信息。

注意

在版本 1.17.0 中更新。

供内部使用的构造函数。

枚举

AudioStreamContainerFormat

定义支持的音频流容器格式。

AudioStreamWaveFormat

表示 WAV 容器中指定的格式。

CancellationErrorCode

定义 CancellationReason 为 Error 的错误代码。

CancellationReason

定义可能取消识别结果的原因。

NoMatchReason

定义无法识别识别结果的可能原因。

OutputFormat

输出格式。

ProfanityOption

删除脏话 (脏话) ,或用星号替换亵渎字词的字母。

PronunciationAssessmentGradingSystem

定义发音分数校准的分数系统;默认值为 FivePoint。

PronunciationAssessmentGranularity

定义发音评估粒度;默认值为 Phoneme。

PropertyId

定义语音属性 ID。

ResultReason

指定生成识别结果的可能原因。

ServicePropertyChannel

定义用于将属性设置传递给服务的通道。

SpeechSynthesisOutputFormat

定义可能的语音合成输出音频格式。

StreamStatus

定义音频数据流的可能状态。

SynthesisVoiceGender

定义合成语音的性别

SynthesisVoiceType

定义合成语音的类型