你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

microsoft-cognitiveservices-speech-sdk package

ActivityReceivedEventArgs

定义收到的消息/事件的内容。

AudioConfig

表示用于指定要使用哪种类型的输入 (麦克风、文件、流) 的音频输入配置。

AudioInputStream

表示用于自定义音频输入配置的音频输入流。

AudioOutputStream

表示用于自定义音频输出配置的音频输出流。

AudioStreamFormat

表示用于自定义音频输入配置的音频流格式。

AutoDetectSourceLanguageConfig

语言自动检测配置。

AutoDetectSourceLanguageResult

输出格式

AvatarConfig

定义对话头像配置。

AvatarEventArgs

定义用于谈话头像事件的内容。

AvatarSynthesizer

定义头像合成器。

AvatarVideoFormat

定义头像输出视频格式。

AvatarWebRTCConnectionResult

定义虚拟形象 WebRTC 连接结果。

BaseAudioPlayer

基本音频播放器类 TODO:目前仅播放 PCM。

BotFrameworkConfig

定义对话服务连接器对象的配置以使用 Bot Framework 后端的类。

CancellationDetails

包含有关取消结果的原因的详细信息。

CancellationDetailsBase

包含有关取消结果的原因的详细信息。

Connection

Connection 是一个代理类,用于管理与指定识别器语音服务的连接。 默认情况下,识别器会在需要时自主管理与服务的连接。 Connection 类为用户提供其他方法,用于显式打开或关闭连接以及订阅连接状态更改。 Connection 的使用是可选的,主要用于需要根据连接状态微调应用程序行为的情况。 用户可以选择调用 Open () 以在与此连接关联的识别器上开始识别之前提前手动设置连接。 如果识别器需要连接到服务或断开连接,它将独立设置或关闭连接。 在这种情况下,将通过连接/断开连接事件更改连接状态来通知连接。 在版本 1.2.1 中添加。

ConnectionEventArgs

定义连接/断开连接等连接事件的有效负载。 在版本 1.2.0 中添加

ConnectionMessage

ConnectionMessage 表示发送到语音服务以及从语音服务接收的特定实现消息。 这些消息用于调试目的,不应用于 Azure 认知服务语音服务的生产用例。 发送到语音服务以及从语音服务接收的消息可能会发生更改,而不作通知。 这包括消息内容、标头、有效负载、排序等。在版本 1.11.0 中添加。

ConnectionMessageEventArgs
Conversation
ConversationExpirationEventArgs

定义会话事件的内容,如 SessionStarted/Stopped、SoundStarted/Stopped。

ConversationParticipantsChangedEventArgs

定义会话事件的内容,如 SessionStarted/Stopped、SoundStarted/Stopped。

ConversationTranscriber

使用说话人与麦克风、文件或其他音频输入流分离来执行语音识别,并获取转录文本作为结果。

ConversationTranscriptionCanceledEventArgs

定义 RecognitionErrorEvent 的内容。

ConversationTranscriptionEventArgs

定义对话转录/转录事件的内容。

ConversationTranscriptionResult

定义对话听录的结果。

ConversationTranslationCanceledEventArgs
ConversationTranslationEventArgs

定义会话事件的有效负载,例如检测到语音开始/结束

ConversationTranslationResult

翻译文本结果。

ConversationTranslator

加入、离开或连接到对话。

Coordinate

定义 2D 空间中的坐标。

CustomCommandsConfig

定义对话服务连接器对象的配置的类,以便使用 CustomCommands 后端。

Diagnostics

定义 诊断 API,用于在版本 1.21.0 中添加的控制台输出

DialogServiceConfig

定义对话服务连接器的基本配置的类

DialogServiceConnector

对话框服务连接器

IntentRecognitionCanceledEventArgs

定义意向识别取消结果事件的有效负载。

IntentRecognitionEventArgs

意向识别结果事件参数。

IntentRecognitionResult

意向识别结果。

IntentRecognizer

意向识别器。

KeywordRecognitionModel

表示一个关键字 (keyword) 识别模型,用于在用户说出启动进一步语音识别关键字 (keyword) 时进行识别。

LanguageUnderstandingModel

语言理解模型

Meeting
MeetingTranscriber
MeetingTranscriptionCanceledEventArgs

定义 MeetingTranscriptionCanceledEvent 的内容。

MeetingTranscriptionEventArgs

定义会议转录/转录事件的内容。

NoMatchDetails

包含 NoMatch 识别结果的详细信息。

Participant

表示对话中的参与者。 在版本 1.4.0 中添加

PhraseListGrammar

允许添加新短语以改进语音识别。

添加到识别器中的短语在下一次识别开始时或下次 SpeechSDK 必须重新连接到语音服务时有效。

PronunciationAssessmentConfig

发音评估配置。

PronunciationAssessmentResult

发音评估结果。

PropertyCollection

表示属性及其值的集合。

PullAudioInputStream

表示用于自定义音频输入配置的音频输入流。

PullAudioInputStreamCallback

一个抽象基类,用于定义自定义音频输入流的回调方法 (read () 和 close () ) ) 。

PullAudioOutputStream

表示用于自定义音频输出配置的内存支持的推送音频输出流。

PushAudioInputStream

表示用于自定义音频输入配置的内存支持的推送音频输入流。

PushAudioOutputStream

表示用于自定义音频输出配置的音频输出流。

PushAudioOutputStreamCallback

一个抽象基类,用于定义自定义音频输出流的回调方法 (write () 和 close () ) ) 。

RecognitionEventArgs

定义会话事件的有效负载,例如检测到语音开始/结束

RecognitionResult

定义语音识别的结果。

Recognizer

定义基类识别器,它主要包含常见事件处理程序。

ServiceEventArgs

为版本 1.9.0 中添加的任何服务消息事件定义有效负载

SessionEventArgs

定义会话事件的内容,如 SessionStarted/Stopped、SoundStarted/Stopped。

SourceLanguageConfig

源语言配置。

SpeakerAudioDestination

表示仅在浏览器中工作的扬声器播放音频目标。 注意:SDK 将尝试使用 媒体源扩展 来播放音频。 Mp3 格式在 Microsoft Edge、Chrome 和 Safari (桌面) 上具有更好的支持,因此最好指定 mp3 格式进行播放。

SpeakerIdentificationModel

为说话人识别模型定义 SpeakerIdentificationModel 类,其中包含一组用于标识说话人 ()

SpeakerRecognitionCancellationDetails
SpeakerRecognitionResult

输出格式

SpeakerRecognizer

定义 SpeakerRecognizer 类,用于说话人识别处理用户语音配置文件操作 (例如 createProfile、deleteProfile)

SpeakerVerificationModel

为说话人识别模型定义 SpeakerVerificationModel 类,该类包含用于验证说话人的配置文件

SpeechConfig

语音配置。

SpeechConfigImpl
SpeechRecognitionCanceledEventArgs
SpeechRecognitionEventArgs

定义语音识别/识别事件的内容。

SpeechRecognitionResult

定义语音识别的结果。

SpeechRecognizer

从麦克风、文件或其他音频输入流执行语音识别,并获取转录文本作为结果。

SpeechSynthesisBookmarkEventArgs

定义语音合成书签事件的内容。

SpeechSynthesisEventArgs

定义语音合成事件的内容。

SpeechSynthesisResult

定义语音合成的结果。

SpeechSynthesisVisemeEventArgs

定义语音合成 viseme 事件的内容。

SpeechSynthesisWordBoundaryEventArgs

定义语音合成字边界事件的内容。

SpeechSynthesizer

定义用于文本转语音的类 SpeechSynthesizer。 在版本 1.16.0 中更新

SpeechTranslationConfig

语音翻译配置。

SynthesisResult

合成结果的基类

SynthesisVoicesResult

定义语音合成的结果。

Synthesizer
TranslationRecognitionCanceledEventArgs

定义语音识别取消结果事件的有效负载。

TranslationRecognitionEventArgs

转换文本结果事件参数。

TranslationRecognitionResult

翻译文本结果。

TranslationRecognizer

翻译识别器

TranslationSynthesisEventArgs

翻译合成事件参数

TranslationSynthesisResult

定义翻译合成结果,即目标语言翻译文本的语音输出。

Translations

表示参数及其值的集合。

TurnStatusReceivedEventArgs

定义收到的消息/事件的内容。

User
VoiceInfo

有关版本 1.20.0 中添加的语音合成语音的信息。

VoiceProfile

定义说话人识别的语音配置文件类

VoiceProfileCancellationDetails
VoiceProfileClient

为说话人识别定义 VoiceProfileClient 类 处理来自用户的语音配置文件操作 (例如 createProfile、deleteProfile)

VoiceProfileEnrollmentCancellationDetails
VoiceProfileEnrollmentResult

输出格式

VoiceProfilePhraseResult

输出格式

VoiceProfileResult

输出格式

接口

CancellationEventArgs
ConversationInfo
IParticipant

表示对话中的参与者。 在版本 1.4.0 中添加

IPlayer

表示用于控制音频播放的音频播放器接口,例如暂停、恢复等。

IVoiceJson
MeetingInfo
VoiceSignature

枚举

AudioFormatTag
CancellationErrorCode

定义错误代码,以防 CancellationReason 为 Error。 在版本 1.1.0 中添加。

CancellationReason

定义可能取消识别结果的原因。

LanguageIdMode

语言识别模式

LogLevel
NoMatchReason

定义无法识别识别结果的可能原因。

OutputFormat

定义语音识别器输出格式。

ParticipantChangedReason
ProfanityOption

不雅选项。 在版本 1.7.0 中添加。

PronunciationAssessmentGradingSystem

定义用于发音分数校准的分数系统;默认值为 FivePoint。 在版本 1.15.0 中添加

PronunciationAssessmentGranularity

定义发音评估粒度;默认值为 Phoneme。 在版本 1.15.0 中添加

PropertyId

定义语音属性 ID。

ResultReason

定义可能生成识别结果的原因。

ServicePropertyChannel

定义用于将属性设置传递给服务的通道。 在版本 1.7.0 中添加。

SpeakerRecognitionResultType
SpeechSynthesisBoundaryType

定义语音合成边界事件的边界类型。

SpeechSynthesisOutputFormat

定义语音合成音频输出格式。 SpeechSynthesisOutputFormat 在版本 1.17.0 中更新

VoiceProfileType

输出格式