microsoft-cognitiveservices-speech-sdk package

Clases

ActivityReceivedEventArgs

Define el contenido de los eventos o mensajes recibidos.

AudioConfig

Representa la configuración de entrada de audio que se usa para especificar qué tipo de entrada se va a usar (micrófono, archivo, secuencia).

AudioInputStream

Representa el flujo de entrada de audio usado para configuraciones de entrada de audio personalizadas.

AudioOutputStream

Representa la secuencia de salida de audio usada para configuraciones de salida de audio personalizadas.

AudioStreamFormat

Representa el formato de secuencia de audio usado para configuraciones de entrada de audio personalizadas.

AutoDetectSourceLanguageConfig

Configuración de detección automática del idioma.

AutoDetectSourceLanguageResult

Formato de salida

AvatarConfig

Define la configuración del avatar de conversación.

AvatarEventArgs

Define el contenido para los eventos de avatar de conversación.

AvatarSynthesizer

Define el sintetizador de avatar.

AvatarVideoFormat

Define el formato de vídeo de salida del avatar.

AvatarWebRTCConnectionResult

Define el resultado de la conexión WebRTC del avatar.

BaseAudioPlayer

Clase TODO del reproductor de audio base: reproduce solo PCM por ahora.

BotFrameworkConfig

Clase que define configuraciones para el objeto de conector de servicio de diálogo para usar un back-end de Bot Framework.

CancellationDetails

Contiene información detallada sobre por qué se canceló un resultado.

CancellationDetailsBase

Contiene información detallada sobre por qué se canceló un resultado.

Connection

Connection es una clase de proxy para administrar la conexión al servicio de voz del reconocedor especificado. De forma predeterminada, un reconocedor administra de forma autónoma la conexión al servicio cuando sea necesario. La clase Connection proporciona métodos adicionales para que los usuarios abran o cierren explícitamente una conexión y se suscriba a los cambios de estado de conexión. El uso de Connection es opcional y principalmente para escenarios en los que se necesita un ajuste preciso del comportamiento de la aplicación en función del estado de conexión. Opcionalmente, los usuarios pueden llamar a Open() para configurar manualmente una conexión de antemano antes de iniciar el reconocimiento en el reconocedor asociado a esta conexión. Si Recognizer necesita conectarse o desconectarse al servicio, configurará o apagará la conexión de forma independiente. En este caso, el cambio de estado de la conexión se notificará a través de eventos conectados o desconectados. Se agregó en la versión 1.2.1.

ConnectionEventArgs

Define la carga de los eventos de conexión, como Connected/Disconnected. Agregado en la versión 1.2.0

ConnectionMessage

ConnectionMessage representa mensajes específicos de implementación enviados y recibidos del servicio de voz. Estos mensajes se proporcionan con fines de depuración y no deben usarse para casos de uso de producción con El servicio voz de Azure Cognitive Services. Los mensajes enviados y recibidos desde el servicio voz están sujetos a cambios sin previo aviso. Esto incluye el contenido del mensaje, los encabezados, las cargas, la ordenación, etc. Se agregó en la versión 1.11.0.

ConnectionMessageEventArgs
Conversation
ConversationExpirationEventArgs

Define contenido para eventos de sesión como SessionStarted/Stopped, SoundStarted/Stopped.

ConversationParticipantsChangedEventArgs

Define contenido para eventos de sesión como SessionStarted/Stopped, SoundStarted/Stopped.

ConversationTranscriber

Realiza el reconocimiento de voz con separación del hablante del micrófono, el archivo u otras secuencias de entrada de audio y obtiene texto transcrito como resultado.

ConversationTranscriptionCanceledEventArgs

Define el contenido de recognitionErrorEvent.

ConversationTranscriptionEventArgs

Define el contenido del evento transcribir o transcribir la conversación.

ConversationTranscriptionResult

Define el resultado de la transcripción de conversaciones.

ConversationTranslationCanceledEventArgs
ConversationTranslationEventArgs

Define la carga de eventos de sesión, como inicio y finalización de voz detectados.

ConversationTranslationResult

Resultado del texto de traducción.

ConversationTranslator

Únase, deje o conéctese a una conversación.

Coordinate

Define una coordenada en el espacio 2D.

CustomCommandsConfig

Clase que define configuraciones para el objeto de conector de servicio de diálogo para usar un back-end CustomCommands.

Diagnostics

Define la API de diagnóstico para administrar la salida de la consola agregada en la versión 1.21.0.

DialogServiceConfig

Clase que define configuraciones base para el conector del servicio de diálogo

DialogServiceConnector

Conector de servicio de cuadros de diálogo

IntentRecognitionCanceledEventArgs

Defina la carga de los eventos de resultado cancelados del reconocimiento de intenciones.

IntentRecognitionEventArgs

Argumentos de evento de resultado de reconocimiento de intenciones.

IntentRecognitionResult

Resultado del reconocimiento de intenciones.

IntentRecognizer

Reconocedor de intenciones.

KeywordRecognitionModel

Representa un modelo de reconocimiento de palabras clave para reconocer cuándo el usuario dice una palabra clave para iniciar el reconocimiento de voz adicional.

LanguageUnderstandingModel

Modelo de Language Understanding

Meeting
MeetingTranscriber
MeetingTranscriptionCanceledEventArgs

Define el contenido de un meetingTranscriptionCanceledEvent.

MeetingTranscriptionEventArgs

Define el contenido del evento transcribir o transcribir la reunión.

NoMatchDetails

Contiene información detallada sobre los resultados de reconocimiento de NoMatch.

Participant

Representa un participante en una conversación. Se agregó en la versión 1.4.0

PhraseListGrammar

Permite adiciones de frases nuevas para mejorar el reconocimiento de voz.

Las frases agregadas al reconocedor son efectivas al principio del siguiente reconocimiento o la próxima vez que SpeechSDK debe volver a conectarse al servicio de voz.

PronunciationAssessmentConfig

Configuración de evaluación de pronunciación.

PronunciationAssessmentResult

Resultados de la evaluación de pronunciación.

PropertyCollection

Representa la colección de propiedades y sus valores.

PullAudioInputStream

Representa el flujo de entrada de audio usado para configuraciones de entrada de audio personalizadas.

PullAudioInputStreamCallback

Clase base abstracta que define métodos de devolución de llamada (read() y close()) para secuencias de entrada de audio personalizadas).

PullAudioOutputStream

Representa la secuencia de salida de audio push respaldada por memoria utilizada para configuraciones de salida de audio personalizadas.

PushAudioInputStream

Representa la secuencia de entrada de audio de inserción respaldada por memoria que se usa para configuraciones de entrada de audio personalizadas.

PushAudioOutputStream

Representa la secuencia de salida de audio usada para configuraciones de salida de audio personalizadas.

PushAudioOutputStreamCallback

Clase base abstracta que define métodos de devolución de llamada (write() y close()) para secuencias de salida de audio personalizadas).

RecognitionEventArgs

Define la carga de eventos de sesión, como inicio y finalización de voz detectados.

RecognitionResult

Define el resultado del reconocimiento de voz.

Recognizer

Define la clase base Recognizer que contiene principalmente controladores de eventos comunes.

ServiceEventArgs

Define la carga de cualquier evento de mensaje de servicio agregado en la versión 1.9.0.

SessionEventArgs

Define contenido para eventos de sesión como SessionStarted/Stopped, SoundStarted/Stopped.

SourceLanguageConfig

Configuración del idioma de origen.

SpeakerAudioDestination

Representa el destino de audio de reproducción del altavoz, que solo funciona en el explorador. Nota: el SDK intentará usar extensiones de origen multimedia para reproducir audio. El formato Mp3 es mejor compatible con Microsoft Edge, Chrome y Safari (escritorio), por lo que es mejor especificar el formato mp3 para la reproducción.

SpeakerIdentificationModel

Define la clase SpeakerIdentificationModel para Speaker Recognition Model contiene un conjunto de perfiles en los que se identifican los hablantes.

SpeakerRecognitionCancellationDetails
SpeakerRecognitionResult

Formato de salida

SpeakerRecognizer

Define la clase SpeakerRecognizer para las operaciones speaker Recognition handles from user for Voice Profile operations (por ejemplo, createProfile, deleteProfile)

SpeakerVerificationModel

Define la clase SpeakerVerificationModel para speaker Recognition Model contiene un perfil con el que comprobar un hablante

SpeechConfig

Configuración de voz.

SpeechConfigImpl
SpeechRecognitionCanceledEventArgs
SpeechRecognitionEventArgs

Define el contenido del evento de reconocimiento o reconocimiento de voz.

SpeechRecognitionResult

Define el resultado del reconocimiento de voz.

SpeechRecognizer

Realiza el reconocimiento de voz desde micrófono, archivo u otras secuencias de entrada de audio y obtiene texto transcrito como resultado.

SpeechSynthesisBookmarkEventArgs

Define el contenido del evento de marcador de síntesis de voz.

SpeechSynthesisEventArgs

Define el contenido de los eventos de síntesis de voz.

SpeechSynthesisResult

Define el resultado de la síntesis de voz.

SpeechSynthesisVisemeEventArgs

Define el contenido del evento viseme de síntesis de voz.

SpeechSynthesisWordBoundaryEventArgs

Define el contenido del evento de límite de palabras de síntesis de voz.

SpeechSynthesizer

Define la clase SpeechSynthesizer para texto a voz. Actualizado en la versión 1.16.0

SpeechTranslationConfig

Configuración de traducción de voz.

SynthesisResult

Clase base para resultados de síntesis

SynthesisVoicesResult

Define el resultado de la síntesis de voz.

Synthesizer
TranslationRecognitionCanceledEventArgs

Defina la carga de eventos de resultados cancelados del reconocimiento de voz.

TranslationRecognitionEventArgs

Argumentos de evento de resultado de texto de traducción.

TranslationRecognitionResult

Resultado del texto de traducción.

TranslationRecognizer

Reconocedor de traducción

TranslationSynthesisEventArgs

Argumentos de evento De síntesis de traducción

TranslationSynthesisResult

Define el resultado de síntesis de traducción, es decir, la salida de voz del texto traducido en el idioma de destino.

Translations

Representa la colección de parámetros y sus valores.

TurnStatusReceivedEventArgs

Define el contenido de los eventos o mensajes recibidos.

User
VoiceInfo

Información sobre la voz de síntesis de voz agregada en la versión 1.20.0.

VoiceProfile

Define la clase de perfil de voz para Speaker Recognition.

VoiceProfileCancellationDetails
VoiceProfileClient

Define la clase VoiceProfileClient para speaker Recognition Controla las operaciones del usuario para las operaciones de perfil de voz (por ejemplo, createProfile, deleteProfile)

VoiceProfileEnrollmentCancellationDetails
VoiceProfileEnrollmentResult

Formato de salida

VoiceProfilePhraseResult

Formato de salida

VoiceProfileResult

Formato de salida

Interfaces

CancellationEventArgs
ConversationInfo
IParticipant

Representa un participante en una conversación. Se agregó en la versión 1.4.0

IPlayer

Representa la interfaz del reproductor de audio para controlar la reproducción de audio, como pausa, reanudación, etc.

MeetingInfo
VoiceSignature

Enumeraciones

AudioFormatTag
CancellationErrorCode

Define el código de error en caso de que CancellationReason sea Error. Se agregó en la versión 1.1.0.

CancellationReason

Define las posibles razones por las que se puede cancelar un resultado de reconocimiento.

LanguageIdMode

Modo de identificación de idioma

LogLevel
NoMatchReason

Define las posibles razones por las que podría no reconocerse un resultado de reconocimiento.

OutputFormat

Defina los formatos de salida de Speech Recognizer.

ParticipantChangedReason
ProfanityOption

Opción soece. Se agregó en la versión 1.7.0.

PronunciationAssessmentGradingSystem

Define el sistema de puntos para la calibración de la puntuación de pronunciación; el valor predeterminado es FivePoint. Agregado en la versión 1.15.0

PronunciationAssessmentGranularity

Define la granularidad de evaluación de pronunciación; el valor predeterminado es Phoneme. Agregado en la versión 1.15.0

PropertyId

Define los identificadores de propiedad de voz.

ResultReason

Define las posibles razones por las que se puede generar un resultado de reconocimiento.

ServicePropertyChannel

Define los canales usados para pasar la configuración de propiedad al servicio. Se agregó en la versión 1.7.0.

SpeakerRecognitionResultType
SpeechSynthesisBoundaryType

Define el tipo de límite del evento de límite de síntesis de voz.

SpeechSynthesisOutputFormat

Defina los formatos de salida de audio de síntesis de voz. SpeechSynthesisOutputFormat actualizado en la versión 1.17.0

VoiceProfileType

Formato de salida