你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
microsoft-cognitiveservices-speech-sdk package
类
ActivityReceivedEventArgs |
定义收到的消息/事件的内容。 |
AudioConfig |
表示用于指定要使用哪种类型的输入 (麦克风、文件、流) 的音频输入配置。 |
AudioInputStream |
表示用于自定义音频输入配置的音频输入流。 |
AudioOutputStream |
表示用于自定义音频输出配置的音频输出流。 |
AudioStreamFormat |
表示用于自定义音频输入配置的音频流格式。 |
AutoDetectSourceLanguageConfig |
语言自动检测配置。 |
AutoDetectSourceLanguageResult |
输出格式 |
AvatarConfig |
定义对话头像配置。 |
AvatarEventArgs |
定义用于谈话头像事件的内容。 |
AvatarSynthesizer |
定义头像合成器。 |
AvatarVideoFormat |
定义头像输出视频格式。 |
AvatarWebRTCConnectionResult |
定义虚拟形象 WebRTC 连接结果。 |
BaseAudioPlayer |
基本音频播放器类 TODO:目前仅播放 PCM。 |
BotFrameworkConfig |
定义对话服务连接器对象的配置以使用 Bot Framework 后端的类。 |
CancellationDetails |
包含有关取消结果的原因的详细信息。 |
CancellationDetailsBase |
包含有关取消结果的原因的详细信息。 |
Connection |
Connection 是一个代理类,用于管理与指定识别器语音服务的连接。 默认情况下,识别器会在需要时自主管理与服务的连接。 Connection 类为用户提供其他方法,用于显式打开或关闭连接以及订阅连接状态更改。 Connection 的使用是可选的,主要用于需要根据连接状态微调应用程序行为的情况。 用户可以选择调用 Open () 以在与此连接关联的识别器上开始识别之前提前手动设置连接。 如果识别器需要连接到服务或断开连接,它将独立设置或关闭连接。 在这种情况下,将通过连接/断开连接事件更改连接状态来通知连接。 在版本 1.2.1 中添加。 |
ConnectionEventArgs |
定义连接/断开连接等连接事件的有效负载。 在版本 1.2.0 中添加 |
ConnectionMessage |
ConnectionMessage 表示发送到语音服务以及从语音服务接收的特定实现消息。 这些消息用于调试目的,不应用于 Azure 认知服务语音服务的生产用例。 发送到语音服务以及从语音服务接收的消息可能会发生更改,而不作通知。 这包括消息内容、标头、有效负载、排序等。在版本 1.11.0 中添加。 |
ConnectionMessageEventArgs | |
Conversation | |
ConversationExpirationEventArgs |
定义会话事件的内容,如 SessionStarted/Stopped、SoundStarted/Stopped。 |
ConversationParticipantsChangedEventArgs |
定义会话事件的内容,如 SessionStarted/Stopped、SoundStarted/Stopped。 |
ConversationTranscriber |
使用说话人与麦克风、文件或其他音频输入流分离来执行语音识别,并获取转录文本作为结果。 |
ConversationTranscriptionCanceledEventArgs |
定义 RecognitionErrorEvent 的内容。 |
ConversationTranscriptionEventArgs |
定义对话转录/转录事件的内容。 |
ConversationTranscriptionResult |
定义对话听录的结果。 |
ConversationTranslationCanceledEventArgs | |
ConversationTranslationEventArgs |
定义会话事件的有效负载,例如检测到语音开始/结束 |
ConversationTranslationResult |
翻译文本结果。 |
ConversationTranslator |
加入、离开或连接到对话。 |
Coordinate |
定义 2D 空间中的坐标。 |
CustomCommandsConfig |
定义对话服务连接器对象的配置的类,以便使用 CustomCommands 后端。 |
Diagnostics |
定义 诊断 API,用于在版本 1.21.0 中添加的控制台输出 |
DialogServiceConfig |
定义对话服务连接器的基本配置的类 |
DialogServiceConnector |
对话框服务连接器 |
IntentRecognitionCanceledEventArgs |
定义意向识别取消结果事件的有效负载。 |
IntentRecognitionEventArgs |
意向识别结果事件参数。 |
IntentRecognitionResult |
意向识别结果。 |
IntentRecognizer |
意向识别器。 |
KeywordRecognitionModel |
表示一个关键字 (keyword) 识别模型,用于在用户说出启动进一步语音识别关键字 (keyword) 时进行识别。 |
LanguageUnderstandingModel |
语言理解模型 |
Meeting | |
MeetingTranscriber | |
MeetingTranscriptionCanceledEventArgs |
定义 MeetingTranscriptionCanceledEvent 的内容。 |
MeetingTranscriptionEventArgs |
定义会议转录/转录事件的内容。 |
NoMatchDetails |
包含 NoMatch 识别结果的详细信息。 |
Participant |
表示对话中的参与者。 在版本 1.4.0 中添加 |
PhraseListGrammar |
允许添加新短语以改进语音识别。 添加到识别器中的短语在下一次识别开始时或下次 SpeechSDK 必须重新连接到语音服务时有效。 |
PronunciationAssessmentConfig |
发音评估配置。 |
PronunciationAssessmentResult |
发音评估结果。 |
PropertyCollection |
表示属性及其值的集合。 |
PullAudioInputStream |
表示用于自定义音频输入配置的音频输入流。 |
PullAudioInputStreamCallback |
一个抽象基类,用于定义自定义音频输入流的回调方法 (read () 和 close () ) ) 。 |
PullAudioOutputStream |
表示用于自定义音频输出配置的内存支持的推送音频输出流。 |
PushAudioInputStream |
表示用于自定义音频输入配置的内存支持的推送音频输入流。 |
PushAudioOutputStream |
表示用于自定义音频输出配置的音频输出流。 |
PushAudioOutputStreamCallback |
一个抽象基类,用于定义自定义音频输出流的回调方法 (write () 和 close () ) ) 。 |
RecognitionEventArgs |
定义会话事件的有效负载,例如检测到语音开始/结束 |
RecognitionResult |
定义语音识别的结果。 |
Recognizer |
定义基类识别器,它主要包含常见事件处理程序。 |
ServiceEventArgs |
为版本 1.9.0 中添加的任何服务消息事件定义有效负载 |
SessionEventArgs |
定义会话事件的内容,如 SessionStarted/Stopped、SoundStarted/Stopped。 |
SourceLanguageConfig |
源语言配置。 |
SpeakerAudioDestination |
表示仅在浏览器中工作的扬声器播放音频目标。 注意:SDK 将尝试使用 媒体源扩展 来播放音频。 Mp3 格式在 Microsoft Edge、Chrome 和 Safari (桌面) 上具有更好的支持,因此最好指定 mp3 格式进行播放。 |
SpeakerIdentificationModel |
为说话人识别模型定义 SpeakerIdentificationModel 类,其中包含一组用于标识说话人 () |
SpeakerRecognitionCancellationDetails | |
SpeakerRecognitionResult |
输出格式 |
SpeakerRecognizer |
定义 SpeakerRecognizer 类,用于说话人识别处理用户语音配置文件操作 (例如 createProfile、deleteProfile) |
SpeakerVerificationModel |
为说话人识别模型定义 SpeakerVerificationModel 类,该类包含用于验证说话人的配置文件 |
SpeechConfig |
语音配置。 |
SpeechConfigImpl | |
SpeechRecognitionCanceledEventArgs | |
SpeechRecognitionEventArgs |
定义语音识别/识别事件的内容。 |
SpeechRecognitionResult |
定义语音识别的结果。 |
SpeechRecognizer |
从麦克风、文件或其他音频输入流执行语音识别,并获取转录文本作为结果。 |
SpeechSynthesisBookmarkEventArgs |
定义语音合成书签事件的内容。 |
SpeechSynthesisEventArgs |
定义语音合成事件的内容。 |
SpeechSynthesisResult |
定义语音合成的结果。 |
SpeechSynthesisVisemeEventArgs |
定义语音合成 viseme 事件的内容。 |
SpeechSynthesisWordBoundaryEventArgs |
定义语音合成字边界事件的内容。 |
SpeechSynthesizer |
定义用于文本转语音的类 SpeechSynthesizer。 在版本 1.16.0 中更新 |
SpeechTranslationConfig |
语音翻译配置。 |
SynthesisResult |
合成结果的基类 |
SynthesisVoicesResult |
定义语音合成的结果。 |
Synthesizer | |
TranslationRecognitionCanceledEventArgs |
定义语音识别取消结果事件的有效负载。 |
TranslationRecognitionEventArgs |
转换文本结果事件参数。 |
TranslationRecognitionResult |
翻译文本结果。 |
TranslationRecognizer |
翻译识别器 |
TranslationSynthesisEventArgs |
翻译合成事件参数 |
TranslationSynthesisResult |
定义翻译合成结果,即目标语言翻译文本的语音输出。 |
Translations |
表示参数及其值的集合。 |
TurnStatusReceivedEventArgs |
定义收到的消息/事件的内容。 |
User | |
VoiceInfo |
有关版本 1.20.0 中添加的语音合成语音的信息。 |
VoiceProfile |
定义说话人识别的语音配置文件类 |
VoiceProfileCancellationDetails | |
VoiceProfileClient |
为说话人识别定义 VoiceProfileClient 类 处理来自用户的语音配置文件操作 (例如 createProfile、deleteProfile) |
VoiceProfileEnrollmentCancellationDetails | |
VoiceProfileEnrollmentResult |
输出格式 |
VoiceProfilePhraseResult |
输出格式 |
VoiceProfileResult |
输出格式 |
接口
CancellationEventArgs | |
ConversationInfo | |
IParticipant |
表示对话中的参与者。 在版本 1.4.0 中添加 |
IPlayer |
表示用于控制音频播放的音频播放器接口,例如暂停、恢复等。 |
IVoiceJson | |
MeetingInfo | |
VoiceSignature |
枚举
AudioFormatTag | |
CancellationErrorCode |
定义错误代码,以防 CancellationReason 为 Error。 在版本 1.1.0 中添加。 |
CancellationReason |
定义可能取消识别结果的原因。 |
LanguageIdMode |
语言识别模式 |
LogLevel | |
NoMatchReason |
定义无法识别识别结果的可能原因。 |
OutputFormat |
定义语音识别器输出格式。 |
ParticipantChangedReason | |
ProfanityOption |
不雅选项。 在版本 1.7.0 中添加。 |
PronunciationAssessmentGradingSystem |
定义用于发音分数校准的分数系统;默认值为 FivePoint。 在版本 1.15.0 中添加 |
PronunciationAssessmentGranularity |
定义发音评估粒度;默认值为 Phoneme。 在版本 1.15.0 中添加 |
PropertyId |
定义语音属性 ID。 |
ResultReason |
定义可能生成识别结果的原因。 |
ServicePropertyChannel |
定义用于将属性设置传递给服务的通道。 在版本 1.7.0 中添加。 |
SpeakerRecognitionResultType | |
SpeechSynthesisBoundaryType |
定义语音合成边界事件的边界类型。 |
SpeechSynthesisOutputFormat |
定义语音合成音频输出格式。 SpeechSynthesisOutputFormat 在版本 1.17.0 中更新 |
VoiceProfileType |
输出格式 |