命名空间 Microsoft::CognitiveServices::Speech

摘要

成员 说明
enum PropertyId 定义语音属性 ID。 在版本 1.4.0 中更改。
enum OutputFormat 输出格式。
enum ProfanityOption 删除脏话 (脏话) ,或用星号替换亵渎字词的字母。 在版本 1.5.0 中添加。
enum ResultReason 指定生成识别结果的可能原因。
枚举 CancellationReason 定义可能取消识别结果的原因。
枚举 CancellationErrorCode 定义 CancellationReason 为 Error 的错误代码。 在版本 1.1.0 中添加。
enum NoMatchReason 定义无法识别识别结果的可能原因。
enum ActivityJSONType 定义活动 json 值的可能类型。 在版本 1.5.0 中添加。
enum SpeechSynthesisOutputFormat 定义可能的语音合成输出音频格式。 在版本 1.19.0 中更新。
enum StreamStatus 定义音频数据流的可能状态。 在版本 1.4.0 中添加。
enum ServicePropertyChannel 定义用于将属性设置传递给服务的通道。 在版本 1.5.0 中添加。
enum VoiceProfileType 定义语音配置文件类型。
枚举 RecognitionFactorScope 定义应用识别因子的范围。
enum 发音AssessmentGradingSystem 定义发音分数校准的分数系统;默认值为 FivePoint。 在版本 1.14.0 中添加。
enum 发音AssessmentGranularity 定义发音评估粒度;默认值为 Phoneme。 在版本 1.14.0 中添加。
enum SynthesisVoiceType 定义版本 1.16.0 中添加的合成语音的类型。
枚举合成VoiceGender 定义版本 1.17.0 中添加的合成语音的性别。
enum SpeechSynthesisBoundaryType 定义版本 1.21.0 中添加的语音合成边界事件的边界类型。
类 AsyncRecognizer AsyncRecognizer 抽象基类。
类 AudioDataStream 表示用于以流的形式操作音频数据的音频数据流。 在版本 1.4.0 中添加。
类 AutoDetectSourceLanguageConfig 定义自动检测源配置的类 在 1.13.0 中更新。
类 AutoDetectSourceLanguageResult 包含在 1.8.0 中添加的自动检测到的源语言结果。
类 BaseAsyncRecognizer BaseAsyncRecognizer 类。
类 CancellationDetails 包含有关取消结果的原因的详细信息。
ClassLanguageModel 类 表示动态语法方案的语法列表。 在版本 1.7.0 中添加。
类连接 Connection 是一个代理类,用于管理与指定识别器语音服务的连接。 默认情况下,识别器在需要时自主管理与服务的连接。 Connection 类为用户提供其他方法,用于显式打开或关闭连接以及订阅连接状态更改。 Connection 的使用是可选的。 它适用于需要根据连接状态微调应用程序行为的情况。 用户可以选择调用 Open () ,以在与此连接关联的识别器上开始识别之前手动启动服务连接。 开始识别后,调用 Open () 或 Close () 可能会失败。 这不会影响识别器或正在进行的识别。 连接可能因各种原因而断开,识别器将始终尝试根据需要重新建立连接,以保证正在进行的操作。 在所有这些情况下,Connected/Disconnected 事件将指示连接状态的更改。 在版本 1.17.0 中更新。
类 ConnectionEventArgs 为 ConnectionEvent 提供数据。 在版本 1.2.0 中添加。
类 ConnectionMessage ConnectionMessage 表示发送到语音服务以及从语音服务接收的特定于实现的消息。 这些消息用于调试目的,不应用于 Azure 认知服务语音服务的生产用例。 发送到语音服务以及从语音服务接收的消息如有更改,恕不另行通知。 这包括消息内容、标头、有效负载、排序等。在版本 1.10.0 中添加。
类 ConnectionMessageEventArgs 为 ConnectionMessageEvent 提供数据。
类 EmbeddedSpeechConfig 定义嵌入式 (脱机) 语音配置的类。
类 EventArgs 事件参数的基类。
类 EventSignal 客户端可以连接到事件信号以接收事件,或与事件信号断开连接以停止接收事件。
类 EventSignalBase 客户端可以连接到事件信号以接收事件,或与事件信号断开连接以停止接收事件。
类语法 表示用于自定义语音识别的基类语法。 在版本 1.5.0 中添加。
类 GrammarList 表示动态语法方案的语法列表。 在版本 1.7.0 中添加。
类 GrammarPhrase 表示用户可能说出的短语。 在版本 1.5.0 中添加。
Class HybridSpeechConfig 定义用于语音识别或语音合成的混合 (云和嵌入式) 配置的类。
类 KeywordRecognitionEventArgs KeywordRecognizer 派生的事件的类。
类 KeywordRecognitionModel 表示与 StartKeywordRecognitionAsync 方法一起使用的关键字 (keyword) 识别模型。
类 KeywordRecognitionResult 定义 KeywordRecognizer 发出的结果的类。
类 KeywordRecognizer 专用于仅处理关键字 (keyword) 激活的识别器类型。
NoMatchDetails 类 包含 NoMatch 识别结果的详细信息。
类 PhraseListGrammar 表示动态语法方案的短语列表语法。 在版本 1.5.0 中添加。
类发音AssessmentConfig 定义发音评估配置的类 在 1.14.0 中添加。
类发音AssessmentResult 发音评估结果的类。
类发音ContentAssessmentResult 内容评估结果的类。
类 PropertyCollection 用于从属性集合检索或设置属性值的类。
类 RecognitionEventArgs 为 RecognitionEvent 提供数据。
类 RecognitionResult 包含有关识别操作结果的详细信息。
类识别器 识别器基类。
SessionEventArgs 类 会话事件参数的基类。
SmartHandle 类 智能句柄类。
类 SourceLanguageConfig 定义源语言配置的类,在 1.8.0 中添加。
类 SourceLanguageRecognizer 源语言识别器的类。 可以将此类用于独立语言检测。 在版本 1.17.0 中添加。
类 SpeechConfig 定义语音/意向识别或语音合成配置的类。
类 SpeechRecognitionCanceledEventArgs 语音识别取消事件参数的类。
类 SpeechRecognitionEventArgs 语音识别事件参数的类。
类 SpeechRecognitionModel 语音识别模型信息。
类 SpeechRecognitionResult 语音识别结果的基类。
类 SpeechRecognizer 语音识别器的类。
类 SpeechSynthesisBookmarkEventArgs 语音合成书签事件参数的类。 在版本 1.16.0 中添加。
类 SpeechSynthesisCancellationDetails 包含有关取消结果的原因的详细信息。 在版本 1.4.0 中添加。
类 SpeechSynthesisEventArgs 语音合成事件参数的类。 在版本 1.4.0 中添加。
类 SpeechSynthesisResult 包含有关文本到语音合成的结果的信息。 在版本 1.4.0 中添加。
类 SpeechSynthesisVisemeEventArgs 语音合成 viseme 事件参数的类。 在版本 1.16.0 中添加。
类 SpeechSynthesisWordBoundaryEventArgs 语音合成词边界事件参数的类。 在版本 1.7.0 中添加。
类 SpeechSynthesizer 语音合成器类。 在版本 1.14.0 中更新。
类 SpeechTranslationModel 语音翻译模型信息。
类 SynthesisVoicesResult 包含有关语音合成器语音列表的结果的信息。 在版本 1.16.0 中添加。
类 VoiceInfo 包含有关在版本 1.17.0 中更新的合成语音信息的信息。

成员

enum PropertyId

说明
SpeechServiceConnection_Key 认知服务语音服务订阅密钥。 如果使用意向识别器,则需要为特定 LUIS 应用指定 LUIS 终结点密钥。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::FromSubscription
SpeechServiceConnection_Endpoint 认知服务语音服务终结点 (url) 。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::FromEndpoint。 注意:此终结点与用于获取访问令牌的终结点不同。
SpeechServiceConnection_Region 认知服务语音服务区域。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::FromSubscriptionSpeechConfig::FromEndpointSpeechConfig::FromHostSpeechConfig::FromAuthorizationToken
SpeechServiceAuthorization_Token 认知服务语音服务授权令牌 (又名访问令牌) 。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::FromAuthorizationTokenSpeechRecognizer::SetAuthorizationToken、IntentRecognizer::SetAuthorizationToken、TranslationRecognizer::SetAuthorizationToken。
SpeechServiceAuthorization_Type 认知服务语音服务授权类型。 当前未使用。
SpeechServiceConnection_EndpointId 认知服务自定义语音或自定义语音服务终结点 ID。在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::SetEndpointId。 注意:终结点 ID 在“终结点详细信息”下列出的自定义语音门户中可用。
SpeechServiceConnection_Host 认知服务语音服务主机 (url) 。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::FromHost
SpeechServiceConnection_ProxyHostName 用于连接到认知服务语音服务的代理服务器的主机名。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::SetProxy。 注意:此属性 ID 已在版本 1.1.0 中添加。
SpeechServiceConnection_ProxyPort 用于连接到认知服务语音服务的代理服务器的端口。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::SetProxy。 注意:此属性 ID 已在版本 1.1.0 中添加。
SpeechServiceConnection_ProxyUserName 用于连接到认知服务语音服务的代理服务器的用户名。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::SetProxy。 注意:此属性 ID 已在版本 1.1.0 中添加。
SpeechServiceConnection_ProxyPassword 用于连接到认知服务语音服务的代理服务器的密码。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::SetProxy。 注意:此属性 ID 已在版本 1.1.0 中添加。
SpeechServiceConnection_Url 从语音配置生成的 URL 字符串。 此属性应为只读。 SDK 在内部使用它。 注意:在版本 1.5.0 中添加。
SpeechServiceConnection_TranslationToLanguages 用作目标翻译语言的逗号分隔语言的列表。 在正常情况下,不必直接使用此属性。 请改用 SpeechTranslationConfig::AddTargetLanguage 和 SpeechTranslationConfig::GetTargetLanguages。
SpeechServiceConnection_TranslationVoice 认知服务文本转语音服务语音的名称。 在正常情况下,不必直接使用此属性。 请改用 SpeechTranslationConfig::SetVoiceName。 注意:可以 在此处找到有效的语音名称。
SpeechServiceConnection_TranslationFeatures 翻译功能。 供内部使用。
SpeechServiceConnection_IntentRegion 语言理解服务区域。 在正常情况下,不必直接使用此属性。 请改用 LanguageUnderstandingModel。
SpeechServiceConnection_RecoMode 认知服务语音识别服务识别模式。 可以是“INTERACTIVE”、“CONVERSATION”、“DICTATION”。 此属性应为只读。 SDK 在内部使用它。
SpeechServiceConnection_RecoLanguage 要识别的口语 (BCP-47 格式) 。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::SetSpeechRecognitionLanguage
Speech_SessionId 会话 ID。此 ID 是通用唯一标识符 (又名 UUID) 表示音频输入流及其绑定到的基础语音识别实例的特定绑定。 在正常情况下,不必直接使用此属性。 请改用 SessionEventArgs::SessionId
SpeechServiceConnection_UserDefinedQueryParameters 用户提供的查询参数。 它们将作为 URL 查询参数传递给服务。 在版本 1.5.0 中添加。
SpeechServiceConnection_RecoBackend 指定要用于语音识别的后端的字符串;允许的选项包括联机和脱机。 在正常情况下,不应直接使用此属性。 目前,脱机选项仅在使用 EmbeddedSpeechConfig 时有效。 在版本 1.19.0 中添加。
SpeechServiceConnection_RecoModelName 要用于语音识别的模型的名称。 在正常情况下,不应直接使用此属性。 目前,这仅在使用 EmbeddedSpeechConfig 时才有效。 在版本 1.19.0 中添加。
SpeechServiceConnection_RecoModelKey 要用于语音识别的模型的解密密钥。 在正常情况下,不应直接使用此属性。 目前,这仅在使用 EmbeddedSpeechConfig 时才有效。 在版本 1.19.0 中添加。
SpeechServiceConnection_RecoModelIniFile 要用于语音识别的模型的 ini 文件的路径。 在正常情况下,不应直接使用此属性。 目前,这仅在使用 EmbeddedSpeechConfig 时才有效。 在版本 1.19.0 中添加。
SpeechServiceConnection_SynthLanguage 要合成 (口语,例如 1.4.0 版中添加的 en-US) 。
SpeechServiceConnection_SynthVoice 要用于语音合成的 TTS 语音的名称在版本 1.4.0 中添加。
SpeechServiceConnection_SynthOutputFormat 用于指定 1.4.0 版中添加的 TTS 输出音频格式的字符串。
SpeechServiceConnection_SynthEnableCompressedAudioTransmission 指示是否使用压缩的音频格式进行语音合成音频传输。 此属性仅影响SpeechServiceConnection_SynthOutputFormat设置为 pcm 格式时。 如果未设置此属性并且 GStreamer 可用,SDK 将使用压缩格式进行合成音频传输,并对其进行解码。 可以将此属性设置为“false”,以使用原始 pcm 格式进行在线传输。 在版本 1.16.0 中添加。
SpeechServiceConnection_SynthBackend 用于指定 TTS 后端的字符串;有效选项包括联机和脱机。 在正常情况下,不必直接使用此属性。 请改用 EmbeddedSpeechConfig::FromPathEmbeddedSpeechConfig::FromPaths 将合成后端设置为脱机。 在版本 1.19.0 中添加。
SpeechServiceConnection_SynthOfflineDataPath 脱机合成引擎的数据文件路径 () ;仅在合成后端脱机时有效。 在正常情况下,不必直接使用此属性。 请改用 EmbeddedSpeechConfig::FromPathEmbeddedSpeechConfig::FromPaths。 在版本 1.19.0 中添加。
SpeechServiceConnection_SynthOfflineVoice 要用于语音合成的脱机 TTS 语音的名称 在正常情况下,不应直接使用此属性。 请改用 EmbeddedSpeechConfig::SetSpeechSynthesisVoiceEmbeddedSpeechConfig::GetSpeechSynthesisVoiceName。 在版本 1.19.0 中添加。
SpeechServiceConnection_SynthModelKey 要用于语音合成的语音的解密密钥。 在正常情况下,不应直接使用此属性。 请改用 EmbeddedSpeechConfig::SetSpeechSynthesisVoice。 在版本 1.19.0 中添加。
SpeechServiceConnection_VoicesListEndpoint 认知服务语音服务语音列表 api 终结点 (url) 。 在正常情况下,无需指定此属性,SDK 将基于 SpeechConfig 的区域/主机/终结点构造此属性。 在版本 1.16.0 中添加。
SpeechServiceConnection_InitialSilenceTimeoutMs 服务) 使用的初始静音超时值 (以毫秒为单位。 在版本 1.5.0 中添加。
SpeechServiceConnection_EndSilenceTimeoutMs 服务使用的结束静音超时值 (以毫秒为单位) 。 在版本 1.5.0 中添加。
SpeechServiceConnection_EnableAudioLogging 一个布尔值,指定是否在服务中启用音频日志记录。 音频和内容日志存储在 Microsoft 拥有的存储中,或存储在链接到认知服务订阅的自己的存储帐户中, (将自己的存储 (BYOS) 启用的语音资源) 。 在版本 1.5.0 中添加。
SpeechServiceConnection_LanguageIdMode 语音服务连接语言标识符模式。 可以是“AtStart” (默认) ,也可以是“连续”。 请参阅 语言标识 文档。 在 1.25.0 中添加。
SpeechServiceConnection_AutoDetectSourceLanguages 版本 1.8.0 中添加的自动检测源语言。
SpeechServiceConnection_AutoDetectSourceLanguageResult 自动检测源语言结果在版本 1.8.0 中添加。
SpeechServiceResponse_RequestDetailedResultTrueFalse 请求的认知服务语音服务响应输出格式 (简单或详细的) 。 在正常情况下,不必直接使用此属性。 请改用 SpeechConfig::SetOutputFormat
SpeechServiceResponse_RequestProfanityFilterTrueFalse 请求的认知服务语音服务响应输出亵渎级别。 当前未使用。
SpeechServiceResponse_ProfanityOption 请求的认知服务语音服务响应输出不雅内容设置。 允许的值为“masked”、“removed”和“raw”。 在版本 1.5.0 中添加。
SpeechServiceResponse_PostProcessingOption 一个字符串值,指定服务应使用哪个后处理选项。 允许的值为“TrueText”。 在版本 1.5.0 中添加。
SpeechServiceResponse_RequestWordLevelTimestamps 一个布尔值,指定是否在响应结果中包含单词级时间戳。 在版本 1.5.0 中添加。
SpeechServiceResponse_StablePartialResultThreshold 单词必须位于要返回的部分结果中的次数。 在版本 1.5.0 中添加。
SpeechServiceResponse_OutputFormatOption 一个字符串值,指定响应结果中的输出格式选项。 仅限内部使用。 在版本 1.5.0 中添加。
SpeechServiceResponse_RequestSnr 一个布尔值,指定是否在响应结果中包括信噪比 (信噪比) 的 SNR。 在版本 1.18.0 中添加。
SpeechServiceResponse_TranslationRequestStablePartialResult 一个布尔值,用于请求通过省略末尾的单词来稳定翻译部分结果。 在版本 1.5.0 中添加。
SpeechServiceResponse_RequestWordBoundary 一个布尔值,指定是否请求 WordBoundary 事件。 在版本 1.21.0 中添加。
SpeechServiceResponse_RequestPunctuationBoundary 一个布尔值,指定是否请求 WordBoundary Events 中的标点符号边界。 默认为 true。 在版本 1.21.0 中添加。
SpeechServiceResponse_RequestSentenceBoundary 一个布尔值,指定是否在 WordBoundary Events 中请求句子边界。 默认值为 false。 在版本 1.21.0 中添加。
SpeechServiceResponse_SynthesisEventsSyncToAudio 一个布尔值,指定 SDK 是否应同步合成元数据事件, (例如单词边界、视素等 ) 音频播放。 这仅在通过 SDK 播放音频时生效。 默认为 true。 如果设置为 false,SDK 将在事件来自服务时触发事件,这可能与音频播放不同步。 在版本 1.31.0 中添加。
SpeechServiceResponse_JsonResult 认知服务语音服务响应输出 (JSON 格式) 。 此属性仅适用于识别结果对象。
SpeechServiceResponse_JsonErrorDetails 认知服务语音服务错误详细信息 (JSON 格式) 。 在正常情况下,不必直接使用此属性。 请改用 CancellationDetails::ErrorDetails
SpeechServiceResponse_RecognitionLatencyMs 识别延迟(以毫秒为单位)。 只读,可用于最终语音/翻译/意向结果。 这将测量 SDK 接收音频输入与从服务接收最终结果之间的延迟。 SDK 计算最终结果的音频输入中的最后一个音频片段与从语音服务接收最终结果的时间差。 在版本 1.3.0 中添加。
SpeechServiceResponse_RecognitionBackend 识别后端。 只读,可用于语音识别结果。 这指示是使用云 (联机) 还是嵌入式 (脱机) 识别来生成结果。
SpeechServiceResponse_SynthesisFirstByteLatencyMs 语音合成第一个字节延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这将测量开始处理合成与第一个字节音频可用之间的延迟。 在版本 1.17.0 中添加。
SpeechServiceResponse_SynthesisFinishLatencyMs 语音合成所有字节延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这将测量开始处理合成与合成整个音频之间的延迟。 在版本 1.17.0 中添加。
SpeechServiceResponse_SynthesisUnderrunTimeMs 语音合成的运行不足时间(以毫秒为单位)。 只读,可用于 SynthesisCompleted 事件的结果。 这将测量从 PropertyId::AudioConfig_PlaybackBufferLengthInMs 填充到合成完成的总不足时间。 在版本 1.17.0 中添加。
SpeechServiceResponse_SynthesisConnectionLatencyMs 语音合成连接延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这将测量开始处理合成与建立 HTTP/WebSocket 连接之间的延迟。 在版本 1.26.0 中添加。
SpeechServiceResponse_SynthesisNetworkLatencyMs 语音合成网络延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这将测量网络往返时间。 在版本 1.26.0 中添加。
SpeechServiceResponse_SynthesisServiceLatencyMs 语音合成服务延迟(以毫秒为单位)。 只读,可用于最终语音合成结果。 这将测量合成音频第一个字节的服务处理时间。 在版本 1.26.0 中添加。
SpeechServiceResponse_SynthesisBackend 指示合成由哪个后端完成。 只读,可用于语音合成结果,但版本 1.17.0 中添加的 SynthesisStarted 事件中的结果除外。
CancellationDetails_Reason 取消原因。 当前未使用。
CancellationDetails_ReasonText 取消文本。 当前未使用。
CancellationDetails_ReasonDetailedText 取消详细文本。 当前未使用。
LanguageUnderstandingServiceResponse_JsonResult 语言理解服务响应输出 (JSON 格式) 。 可通过 IntentRecognitionResult.Properties 获取。
AudioConfig_DeviceNameForCapture 音频捕获的设备名称。 在正常情况下,不必直接使用此属性。 请改用 AudioConfig::FromMicrophoneInput。 注意:此属性 ID 是在版本 1.3.0 中添加的。
AudioConfig_NumberOfChannelsForCapture 音频捕获的通道数。 仅限内部使用。 注意:此属性 ID 是在版本 1.3.0 中添加的。
AudioConfig_SampleRateForCapture 音频捕获的采样率 (Hz) 。 仅限内部使用。 注意:此属性 ID 是在版本 1.3.0 中添加的。
AudioConfig_BitsPerSampleForCapture 音频捕获的每个样本的位数。 仅限内部使用。 注意:此属性 ID 是在版本 1.3.0 中添加的。
AudioConfig_AudioSource 音频源。 允许的值为“Microphones”、“File”和“Stream”。 在版本 1.3.0 中添加。
AudioConfig_DeviceNameForRender 音频呈现的设备名称。 在正常情况下,不必直接使用此属性。 请改用 AudioConfig::FromSpeakerOutput。 在版本 1.14.0 中添加。
AudioConfig_PlaybackBufferLengthInMs 播放缓冲区长度(以毫秒为单位),默认值为 50 毫秒。
AudioConfig_AudioProcessingOptions JSON 格式的音频处理选项。
Speech_LogFilename 要写入日志的文件名。 在版本 1.4.0 中添加。
Speech_SegmentationSilenceTimeoutMs 检测到的静音持续时间(以毫秒为单位),之后语音转文本将确定语音短语已结束,并生成最终的已识别结果。 如果语音输入明显比平时快或慢,并且默认分段行为始终会产生过长或太短的结果,则配置此超时可能会有所帮助。 不适当的高或低分段超时值可能会对语音转文本的准确性产生负面影响;应仔细配置此属性,并按预期彻底验证生成的行为。
Conversation_ApplicationId 用于连接到后端服务的标识符。 在版本 1.5.0 中添加。
Conversation_DialogType 要连接到的对话后端的类型。 在版本 1.7.0 中添加。
Conversation_Initial_Silence_Timeout 版本 1.5.0 中添加了侦听的静音超时。
Conversation_From_Id 在版本 1.5.0 中添加的用于语音识别活动的 From id。
Conversation_Conversation_Id 会话的 ConversationId。 在版本 1.8.0 中添加。
Conversation_Custom_Voice_Deployment_Ids 自定义语音部署 ID 的逗号分隔列表。 在版本 1.8.0 中添加。
Conversation_Speech_Activity_Template 语音活动模板,为语音服务生成的活动标记模板中的属性。 在版本 1.10.0 中添加。
Conversation_ParticipantId 当前对话中的参与者标识符。 在版本 1.13.0 中添加。
Conversation_Request_Bot_Status_Messages
Conversation_Connection_Id
DataBuffer_TimeStamp 使用拉取/推送音频输入流时,与客户端写入的数据缓冲区关联的时间戳。 时间戳是分辨率为 90 kHz 的 64 位值。 它与 MPEG 传输流中的表示时间戳相同。 请参阅 https://en.wikipedia.org/wiki/Presentation_timestamp 在版本 1.5.0 中添加。
DataBuffer_UserId 使用拉取/推送音频输入流时,与客户端写入的数据缓冲区关联的用户 ID。 在版本 1.5.0 中添加。
PronunciationAssessment_ReferenceText 用于发音评估的音频的参考文本。 有关此和以下发音评估参数,请参阅表 发音评估参数。 在正常情况下,不必直接使用此属性。 请改用 发音AssessmentConfig::Create发音AssessmentConfig::SetReferenceText。 在版本 1.14.0 中添加。
PronunciationAssessment_GradingSystem 用于发音分数校准的分数系统 (FivePoint 或 HundredMark) 。 在正常情况下,不必直接使用此属性。 请改用 发音AssessmentConfig::Create。 在版本 1.14.0 中添加。
PronunciationAssessment_Granularity 发音评估粒度 (音素、Word或全文) 。 在正常情况下,不必直接使用此属性。 请改用 发音AssessmentConfig::Create。 在版本 1.14.0 中添加。
PronunciationAssessment_EnableMiscue 定义是否启用错误计算。 启用此功能后,系统会将发音单词与参考文本进行比较,并会根据比较结果将其标记为省略/插入。 默认设置为“假”。 在正常情况下,不必直接使用此属性。 请改用 发音AssessmentConfig::Create。 在版本 1.14.0 中添加。
PronunciationAssessment_PhonemeAlphabet 发音评估音素字母表。 有效值为“SAPI” (默认) 和“IPA”在正常情况下,不应直接使用此属性。 请改用 发音AssessmentConfig::SetPhonemeAlphabet。 在版本 1.20.0 中添加。
PronunciationAssessment_NBestPhonemeCount 发音评估 nbest 音素计数。 在正常情况下,不必直接使用此属性。 请改用 发音AssessmentConfig::SetNBestPhonemeCount。 在版本 1.20.0 中添加。
PronunciationAssessment_EnableProsodyAssessment 是否启用韵事评估。 在正常情况下,不必直接使用此属性。 请改用 发音AssessmentConfig::EnableProsodyAssessment。 在版本 1.33.0 中添加。
PronunciationAssessment_Json 发音评估参数的 json 字符串 在正常情况下,不必直接使用此属性。 请改用 发音AssessmentConfig::Create。 在版本 1.14.0 中添加。
PronunciationAssessment_Params 发音评估参数。 此属性应为只读。 SDK 在内部使用它。 在版本 1.14.0 中添加。
PronunciationAssessment_ContentTopic 发音评估的内容主题。 在正常情况下,不必直接使用此属性。 请改用 发音AssessmentConfig::EnableContentAssessmentWithTopic。 在版本 1.33.0 中添加。
SpeakerRecognition_Api_Version 说话人识别后端 API 版本。 添加此属性以允许测试和使用早期版本的说话人识别 API(如果适用)。 在版本 1.18.0 中添加。
SpeechTranslation_ModelName 要用于语音翻译的模型的名称。 请勿直接使用此属性。 目前,这仅在使用 EmbeddedSpeechConfig 时有效。
SpeechTranslation_ModelKey 用于语音翻译的模型的解密密钥。 请勿直接使用此属性。 目前,这仅在使用 EmbeddedSpeechConfig 时有效。
KeywordRecognition_ModelName 用于关键字 (keyword) 识别的模型的名称。 请勿直接使用此属性。 目前,这仅在使用 EmbeddedSpeechConfig 时有效。
KeywordRecognition_ModelKey 要用于关键字 (keyword) 识别的模型的解密密钥。 请勿直接使用此属性。 目前,这仅在使用 EmbeddedSpeechConfig 时有效。
EmbeddedSpeech_EnablePerformanceMetrics 启用嵌入式语音性能指标的集合,这些指标可用于评估设备使用嵌入式语音的能力。 收集的数据包含在语音识别等特定方案的结果中。 默认设置为“false”。 请注意,指标可能并非在所有嵌入式语音方案中都可用。

定义语音属性 ID。 在版本 1.4.0 中更改。

enum OutputFormat

说明
简单
详细

输出格式。

enum ProfanityOption

说明
已屏蔽 将不雅字词中的字母替换为star字符。
已删除 删除不雅字词。
原始 对亵渎字词不执行任何处理。

删除脏话 (脏话) ,或用星号替换亵渎字词的字母。 在版本 1.5.0 中添加。

enum ResultReason

说明
NoMatch 指示无法识别语音。 可以在 NoMatchDetails 对象中找到更多详细信息。
已取消 指示已取消识别。 可以使用 CancellationDetails 对象找到更多详细信息。
RecognizingSpeech 指示语音结果包含假设文本。
RecognizedSpeech 指示语音结果包含已识别的最终文本。 此短语的语音识别现已完成。
RecognizingIntent 指示意向结果包含假设文本和意向。
RecognizedIntent 指示意向结果包含最终文本和意向。 此短语的语音识别和意向确定现已完成。
翻译Pepeech 指示翻译结果包含假设文本及其翻译 (s) 。
TranslatedSpeech 指示翻译结果包含最终文本和相应的翻译 () 。 此短语的语音识别和翻译现已完成。
SynthesizingAudio 指示合成的音频结果包含非零量的音频数据。
SynthesizingAudioCompleted 指示此短语的合成音频现已完成。
RecognizingKeyword 指示语音结果包含 (未经验证) 关键字 (keyword) 文本。 在版本 1.3.0 中添加。
RecognizedKeyword 指示关键字 (keyword) 识别已完成对给定关键字 (keyword) 的识别。 在版本 1.3.0 中添加。
SynthesizingAudioStarted 指示语音合成现已在版本 1.4.0 中添加。
翻译ParticipantSpeech 指示听录结果包含假设文本及其翻译 (会话中其他参与者的) 。 在版本 1.8.0 中添加。
TranslatedParticipantSpeech 指示听录结果包含会话中其他参与者的最终文本和相应的翻译 () 。 此短语的语音识别和翻译现已完成。 在版本 1.8.0 中添加。
TranslatedInstantMessage 指示听录结果包含即时消息和相应的翻译 () 。 在版本 1.8.0 中添加。
TranslatedParticipantInstantMessage 指示听录结果包含对话中其他参与者的即时消息和相应的翻译 () 。 在版本 1.8.0 中添加。
EnrollingVoiceProfile 指示正在注册语音配置文件,客户需要发送更多音频才能创建语音配置文件。 在版本 1.12.0 中添加。
EnrolledVoiceProfile 语音配置文件已注册。 在版本 1.12.0 中添加。
RecognizedSpeakers 指示成功识别某些说话人。 在版本 1.12.0 中添加。
RecognizedSpeaker 指示已成功验证一个说话人。 在版本 1.12.0 中添加。
ResetVoiceProfile 指示已成功重置语音配置文件。 在版本 1.12.0 中添加。
DeletedVoiceProfile 指示已成功删除语音配置文件。 在版本 1.12.0 中添加。
VoicesListRetrieved 指示已成功检索语音列表。 在版本 1.16.0 中添加。

指定生成识别结果的可能原因。

枚举 CancellationReason

说明
错误 指示语音识别期间发生错误。
EndOfStream 指示已到达音频流的末尾。
CancelledByUser 指示请求已被用户取消。 在版本 1.14.0 中添加。

定义可能取消识别结果的原因。

枚举 CancellationErrorCode

说明
NoError 无错误。 如果 CancellationReason 为 EndOfStream,则 CancellationErrorCode 设置为 NoError。
AuthenticationFailure 指示身份验证错误。 如果订阅密钥或授权令牌无效、已过期或与使用的区域不匹配,则会发生身份验证错误。
BadRequest 指示一个或多个识别参数无效或不支持音频格式。
TooManyRequests 指示并行请求数超过了订阅允许的并发听录数。
禁止 指示请求使用的免费订阅已超出配额。
ConnectionFailure 指示连接错误。
ServiceTimeout 指示等待服务响应时出现超时错误。
ServiceError 指示服务返回错误。
ServiceUnavailable 指示服务当前不可用。
RuntimeError 指示意外的运行时错误。
ServiceRedirectTemporary 指示语音服务正在暂时请求重新连接到其他终结点。
ServiceRedirectPermanent 指示语音服务正在永久请求重新连接到其他终结点。
EmbeddedModelError 指示嵌入的语音 (SR 或 TTS) 模型不可用或已损坏。

定义 CancellationReason 为 Error 的错误代码。 在版本 1.1.0 中添加。

enum NoMatchReason

说明
NotRecognized 指示已检测到语音,但未识别。
InitialSilenceTimeout 指示音频流的开头仅包含静音,并且服务在等待语音时超时。
InitialBabbleTimeout 指示音频流的开头仅包含噪音,并且服务在等待语音时超时。
KeywordNotRecognized 指示已发现关键字 (keyword) 已被关键字 (keyword) 验证服务拒绝。 在版本 1.5.0 中添加。
EndSilenceTimeout 指示音频流仅包含最后一个识别短语之后的静音。

定义无法识别识别结果的可能原因。

enum ActivityJSONType

说明
Null
Object
Array
字符串
Double
UInt
int
布尔

定义活动 json 值的可能类型。 在版本 1.5.0 中添加。

enum SpeechSynthesisOutputFormat

说明
Raw8Khz8BitMonoMULaw raw-8khz-8bit-mono-mulaw
Riff16Khz16KbpsMonoSiren riff-16khz-16kbps-mono-siren 不受服务支持。 请勿使用此值。
Audio16Khz16KbpsMonoSiren audio-16khz-16kbps-mono-siren 不受服务支持。 请勿使用此值。
Audio16Khz32KBitRateMonoMp3 audio-16khz-32kbitrate-mono-mp3
Audio16Khz128KBitRateMonoMp3 audio-16khz-128kbitrate-mono-mp3
Audio16Khz64KBitRateMonoMp3 audio-16khz-64kbitrate-mono-mp3
Audio24Khz48KBitRateMonoMp3 audio-24khz-48kbitrate-mono-mp3
Audio24Khz96KBitRateMonoMp3 audio-24khz-96kbitrate-mono-mp3
Audio24Khz160KBitRateMonoMp3 audio-24khz-160kbitrate-mono-mp3
Raw16Khz16BitMonoTrueSilk raw-16khz-16bit-mono-truesilk
Riff16Khz16BitMonoPcm riff-16khz-16bit-mono-pcm
Riff8Khz16BitMonoPcm riff-8khz-16bit-mono-pcm
Riff24Khz16BitMonoPcm riff-24khz-16bit-mono-pcm
Riff8Khz8BitMonoMULaw riff-8khz-8bit-mono-mulaw
Raw16Khz16BitMonoPcm raw-16khz-16bit-mono-pcm
Raw24Khz16BitMonoPcm raw-24khz-16bit-mono-pcm
Raw8Khz16BitMonoPcm raw-8khz-16bit-mono-pcm
Ogg16Khz16BitMonoOpus ogg-16khz-16bit-mono-opus
Ogg24Khz16BitMonoOpus ogg-24khz-16bit-mono-opus
Raw48Khz16BitMonoPcm raw-48khz-16bit-mono-pcm
Riff48Khz16BitMonoPcm riff-48khz-16bit-mono-pcm
Audio48Khz96KBitRateMonoMp3 audio-48khz-96kbitrate-mono-mp3
Audio48Khz192KBitRateMonoMp3 audio-48khz-192kbitrate-mono-mp3
Ogg48Khz16BitMonoOpus ogg-48khz-16bit-mono-opus 在版本 1.16.0 中添加
Webm16Khz16BitMonoOpus webm-16khz-16bit-mono-opus 在版本 1.16.0 中添加
Webm24Khz16BitMonoOpus webm-24khz-16bit-mono-opus 在版本 1.16.0 中添加
Raw24Khz16BitMonoTrueSilk raw-24khz-16bit-mono-truesilk 在版本 1.17.0 中添加
Raw8Khz8BitMonoALaw raw-8khz-8bit-mono-alaw 在版本 1.17.0 中添加
Riff8Khz8BitMonoALaw riff-8khz-8bit-mono-alaw 在版本 1.17.0 中添加
Webm24Khz16Bit24KbpsMonoOpus webm-24khz-16bit-24kbps-mono-opus 音频在 WebM 容器中由 OPUS 编解码器压缩,比特率为 24kbps,针对 IoT 方案进行了优化。 (在 1.19.0) 中添加
Audio16Khz16Bit32KbpsMonoOpus audio-16khz-16bit-32kbps-mono-opus 音频由 OPUS 编解码器压缩,无容器,比特率为 32kbps。 (在 1.20.0) 中添加
Audio24Khz16Bit48KbpsMonoOpus audio-24khz-16bit-48kbps-mono-opus 音频由 OPUS 编解码器压缩,无容器,比特率为 48kbps。 (在 1.20.0) 中添加
Audio24Khz16Bit24KbpsMonoOpus audio-24khz-16bit-24kbps-mono-opus 音频由 OPUS 编解码器压缩,无容器,比特率为 24kbps。 (在 1.20.0) 中添加
Raw22050Hz16BitMonoPcm raw-22050hz-16bit-mono-pcm 原始 PCM 音频,采样速率为 22050Hz,深度为 16 位。 (在 1.22.0) 中添加
Riff22050Hz16BitMonoPcm riff-22050hz-16bit-mono-pcm PCM 音频,采样速率为 22050Hz,深度为 16 位,带有 RIFF 标头。 (在 1.22.0) 中添加
Raw44100Hz16BitMonoPcm raw-44100hz-16bit-mono-pcm 原始 PCM 音频,采样速率为 44100Hz,深度为 16 位。 (在 1.22.0) 中添加
Riff44100Hz16BitMonoPcm riff-44100hz-16bit-mono-pcm PCM 音频,采样速率为 44100Hz,深度为 16 位,带有 RIFF 标头。 (在 1.22.0) 中添加
AmrWb16000Hz amr-wb-16000hz AMR-WB 音频,采样速率为 16kHz。 (已添加到 1.24.0)

定义可能的语音合成输出音频格式。 在版本 1.19.0 中更新。

enum StreamStatus

说明
未知 音频数据流状态未知。
NoData 音频数据流不包含任何数据。
PartialData 音频数据流包含说话请求的部分数据。
AllData 音频数据流包含说话请求的所有数据。
已取消 音频数据流已取消。

定义音频数据流的可能状态。 在版本 1.4.0 中添加。

enum ServicePropertyChannel

说明
UriQueryParameter 使用 URI 查询参数将属性设置传递给服务。
HttpHeader 使用 HttpHeader 在 HTTP 标头中设置键/值。

定义用于将属性设置传递给服务的通道。 在版本 1.5.0 中添加。

enum VoiceProfileType

说明
TextIndependentIdentification 独立于文本的说话人识别。
TextDependentVerification 文本相关说话人验证。
TextIndependentVerification 文本独立验证。

定义语音配置文件类型。

enum RecognitionFactorScope

说明
PartialPhrase 识别因子将应用于可以作为单个部分短语引用的语法。

定义应用识别因子的范围。

enum 发音AssessmentGradingSystem

说明
FivePoint 五点校准。
HundredMark 百马克。

定义用于发音分数校准的分数系统;默认值为 FivePoint。 在版本 1.14.0 中添加。

enum 发音AssessmentGranularity

说明
音素 显示全文、单词和音素级别的分数。
Word 显示全文和单词级别的分数。
FullText 仅显示全文级别的分数。

定义发音评估粒度;默认值为 Phoneme。 在版本 1.14.0 中添加。

enum SynthesisVoiceType

说明
OnlineNeural 联机神经语音。
OnlineStandard 联机标准语音。
OfflineNeural 脱机神经语音。
OfflineStandard 脱机标准语音。

定义在版本 1.16.0 中添加的合成语音的类型。

enum SynthesisVoiceGender

说明
未知 性别未知。
Female 女性的声音。
男性的声音。

定义在版本 1.17.0 中添加的合成语音的性别。

enum SpeechSynthesisBoundaryType

说明
Word Word边界。
标点 标点边界。
句子 句子边界。

定义在版本 1.21.0 中添加的语音合成边界事件的边界类型。