Compartir a través de


speech Paquete

SDK de Voz de Microsoft para Python

Módulos

audio

Clases que están relacionadas con el control de la entrada de audio en los distintos reconocedores y la salida de audio del sintetizador de voz.

dialog

Clases relacionadas con el conector del servicio de diálogo.

enums

SDK de Voz de Microsoft para Python

intent

Clases relacionadas con el reconocimiento de intenciones de voz.

interop

SDK de Voz de Microsoft para Python

languageconfig

Clases que están relacionadas con el control de configuraciones de idioma

properties

SDK de Voz de Microsoft para Python

speech

Clases relacionadas con el reconocimiento de texto a partir de voz, sintetización de voz a partir de texto y clases generales usadas en los distintos reconocedores.

transcription

Clases relacionadas con la transcripción de conversaciones.

translation

Clases relacionadas con la traducción de voz a otros idiomas.

version

SDK de Voz de Microsoft para Python

Clases

AudioDataStream

Representa el flujo de datos de audio usado para operar los datos de audio como una secuencia.

Genera un flujo de datos de audio a partir de un resultado de síntesis de voz (tipo SpeechSynthesisResult) o un resultado de reconocimiento de palabras clave (tipo KeywordRecognitionResult).

AutoDetectSourceLanguageResult

Representa el resultado del idioma de origen de detección automática.

El resultado se puede inicializar a partir de un resultado de reconocimiento de voz.

CancellationDetails

SDK de Voz de Microsoft para Python

Connection

Clase de proxy para administrar la conexión al servicio de voz del especificado Recognizer.

De forma predeterminada, un objeto Recognizer administra de forma autónoma la conexión al servicio cuando es necesario. La Connection clase proporciona métodos adicionales para que los usuarios abran o cierren explícitamente una conexión y se suscriban a los cambios de estado de conexión. El uso de Connection es opcional. Está pensado para escenarios en los que se necesita un ajuste preciso del comportamiento de la aplicación en función del estado de conexión. Opcionalmente, los usuarios pueden llamar open a para iniciar manualmente una conexión de servicio antes de iniciar el reconocimiento en el Recognizer asociado a este Connection. Después de iniciar un reconocimiento, llamar open a o close podría producir un error. Esto no afectará al reconocedor ni al reconocimiento continuo. La conexión puede quitarse por varias razones, el reconocedor siempre intentará reinstitutar la conexión según sea necesario para garantizar las operaciones en curso. En todos estos casos connected/disconnected , los eventos indicarán el cambio del estado de conexión.

Nota

Actualizado en la versión 1.17.0.

Constructor para uso interno.

ConnectionEventArgs

Proporciona datos para ConnectionEvent.

Nota

Se agregó en la versión 1.2.0

Constructor para uso interno.

EventSignal

Los clientes pueden conectarse a la señal de evento para recibir eventos o desconectarse de la señal de evento para dejar de recibir eventos.

Constructor para uso interno.

KeywordRecognitionEventArgs

Clase para argumentos de evento de reconocimiento de palabras clave.

Constructor para uso interno.

KeywordRecognitionModel

Representa un modelo de reconocimiento de palabras clave.

KeywordRecognitionResult

Resultado de una operación de reconocimiento de palabras clave.

Constructor para uso interno.

KeywordRecognizer

Reconocedor de palabras clave.

NoMatchDetails

SDK de Voz de Microsoft para Python

PhraseListGrammar

Clase que permite la adición en tiempo de ejecución de sugerencias de frases para ayudar en el reconocimiento de voz.

Las frases agregadas al reconocedor son efectivas al principio del siguiente reconocimiento o la próxima vez que el reconocedor de voz debe volver a conectarse al servicio de voz.

Nota

Se agregó en la versión 1.5.0.

Constructor para uso interno.

PronunciationAssessmentConfig

Representa la configuración de evaluación de pronunciación.

Nota

Se agregó en la versión 1.14.0.

La configuración se puede inicializar de dos maneras:

  • from parameters:pass reference text, grading system, granularity, enable miscue and scenario id.

  • from json: pasar una cadena json

Para obtener los detalles de los parámetros, consulte https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

Contiene el resultado de la evaluación de pronunciación de nivel de phoneme

Nota

Se agregó en la versión 1.14.0.

PronunciationAssessmentResult

Representa el resultado de la evaluación de pronunciación.

Nota

Se agregó en la versión 1.14.0.

El resultado se puede inicializar a partir de un resultado de reconocimiento de voz.

PronunciationAssessmentWordResult

Contiene el resultado de la evaluación de pronunciación de nivel de palabra

Nota

Se agregó en la versión 1.14.0.

PropertyCollection

Clase para recuperar o establecer un valor de propiedad de una colección de propiedades.

RecognitionEventArgs

Proporciona datos para RecognitionEvent.

Constructor para uso interno.

RecognitionResult

Información detallada sobre el resultado de una operación de reconocimiento.

Constructor para uso interno.

Recognizer

Clase base para distintos reconocedores

ResultFuture

Resultado de una operación asincrónica.

constructor privado

SessionEventArgs

Clase base para argumentos de evento de sesión.

Constructor para uso interno.

SourceLanguageRecognizer

Un reconocedor de idioma de origen: reconocedor de idioma independiente, se puede usar para la detección de idioma único o de idioma continuo.

Nota

Se agregó en la versión 1.18.0.

SpeechConfig

Clase que define las configuraciones para el reconocimiento de voz/intención y la síntesis de voz.

La configuración se puede inicializar de diferentes maneras:

  • from subscription: pase una clave de suscripción y una región.

  • desde el punto de conexión: pase un punto de conexión. La clave de suscripción o el token de autorización son opcionales.

  • from host: pase una dirección de host. La clave de suscripción o el token de autorización son opcionales.

  • del token de autorización: pase un token de autorización y una región.

SpeechRecognitionCanceledEventArgs

Clase para los argumentos de evento cancelados de reconocimiento de voz.

Constructor para uso interno.

SpeechRecognitionEventArgs

Clase para argumentos de eventos de reconocimiento de voz.

Constructor para uso interno.

SpeechRecognitionResult

Clase base para los resultados del reconocimiento de voz.

Constructor para uso interno.

SpeechRecognizer

Un reconocedor de voz. Si necesita especificar información de idioma de origen, especifique solo uno de estos tres parámetros, idioma, source_language_config o auto_detect_source_language_config.

SpeechSynthesisBookmarkEventArgs

Clase para argumentos de evento de marcador de síntesis de voz.

Nota

Se agregó en la versión 1.16.0.

Constructor para uso interno.

SpeechSynthesisCancellationDetails

Contiene información detallada sobre por qué se canceló un resultado.

SpeechSynthesisEventArgs

Clase para argumentos de evento de síntesis de voz.

Constructor para uso interno.

SpeechSynthesisResult

Resultado de una operación de síntesis de voz.

Constructor para uso interno.

SpeechSynthesisVisemeEventArgs

Clase para argumentos de evento de visema de síntesis de voz.

Nota

Se agregó en la versión 1.16.0.

Constructor para uso interno.

SpeechSynthesisWordBoundaryEventArgs

Clase para argumentos de evento de límite de palabras de síntesis de voz.

Nota

Actualizado en la versión 1.21.0.

Constructor para uso interno.

SpeechSynthesizer

Sintetizador de voz.

SyllableLevelTimingResult

Contiene el resultado de control de tiempo de nivel de sílaba

Nota

Se agregó en la versión 1.20.0.

SynthesisVoicesResult

Contiene información detallada sobre la lista de voces de síntesis recuperadas.

Nota

Se agregó en la versión 1.16.0.

Constructor para uso interno.

VoiceInfo

Contiene información detallada sobre la información de voz de síntesis.

Nota

Actualizado en la versión 1.17.0.

Constructor para uso interno.

Enumeraciones

AudioStreamContainerFormat

Define el formato de contenedor de secuencias de audio admitido.

AudioStreamWaveFormat

Representa el formato especificado dentro del contenedor WAV.

CancellationErrorCode

Define el código de error en caso de que CancellationReason sea Error.

CancellationReason

Define los posibles motivos por los que se puede cancelar un resultado de reconocimiento.

NoMatchReason

Define los posibles motivos por los que podría no reconocerse un resultado de reconocimiento.

OutputFormat

Formato de salida.

ProfanityOption

Quita palabras soeces (jurando) o reemplaza letras de palabras soeces por estrellas.

PronunciationAssessmentGradingSystem

Define el sistema de puntos para calibrar la puntuación de pronunciación; el valor predeterminado es FivePoint.

PronunciationAssessmentGranularity

Define la granularidad de evaluación de pronunciación; el valor predeterminado es Phoneme.

PropertyId

Define los identificadores de propiedad de voz.

ResultReason

Especifica los posibles motivos por los que se puede generar un resultado de reconocimiento.

ServicePropertyChannel

Define los canales usados para pasar la configuración de propiedades al servicio.

SpeechSynthesisOutputFormat

Define los posibles formatos de audio de salida de síntesis de voz.

StreamStatus

Define el estado posible de la secuencia de datos de audio.

SynthesisVoiceGender

Define el género de las voces de síntesis.

SynthesisVoiceType

Define el tipo de voces de síntesis