Partilhar via


speech Pacote

SDK de Voz da Microsoft para Python

Módulos

audio

Classes que se preocupam com o processamento de entrada de áudio para os vários reconhecedores e saída de áudio do sintetizador de voz.

dialog

Classes relacionadas com o conector do serviço de caixa de diálogo.

enums

SDK de Voz da Microsoft para Python

intent

Classes relacionadas com o reconhecimento de intenções da voz.

interop

SDK de Voz da Microsoft para Python

languageconfig

Classes que se preocupam com o processamento de configurações de idioma

properties

SDK de Voz da Microsoft para Python

speech

Classes relacionadas com o reconhecimento de texto da voz, a sintetização da voz a partir do texto e as classes gerais utilizadas nos vários reconhecedores.

transcription

Classes relacionadas com transcrição de conversação.

translation

Classes relacionadas com a tradução de voz para outros idiomas.

version

SDK de Voz da Microsoft para Python

Classes

AudioDataStream

Representa o fluxo de dados de áudio utilizado para operar dados de áudio como um fluxo.

Gera um fluxo de dados de áudio a partir de um resultado de sintetização de voz (escreva SpeechSynthesisResult) ou um resultado de reconhecimento de palavra-chave (escreva KeywordRecognitionResult).

AutoDetectSourceLanguageResult

Representa o resultado da linguagem de origem de deteção automática.

O resultado pode ser inicializado a partir de um resultado de reconhecimento de voz.

CancellationDetails

SDK de Voz da Microsoft para Python

Connection

Classe de proxy para gerir a ligação ao serviço de voz do especificado Recognizer.

Por predefinição, uma Recognizer ligação ao serviço é gerida de forma autónoma quando necessário. A Connection classe fornece métodos adicionais para os utilizadores abrirem ou fecharem explicitamente uma ligação e subscreverem as alterações ao estado da ligação. A utilização de Connection é opcional. Destina-se a cenários em que é necessária uma otimização do comportamento da aplicação com base no estado da ligação. Opcionalmente, os utilizadores podem chamar open para iniciar manualmente uma ligação de serviço antes de iniciar o reconhecimento no associado a Recognizer este Connection. Depois de iniciar um reconhecimento, chamar open ou close pode falhar. Isto não afetará o Reconhecedor ou o reconhecimento contínuo. A ligação pode ser perdida por vários motivos. O Reconhecedor tentará sempre reinstituir a ligação conforme necessário para garantir operações em curso. Em todos estes casos connected/disconnected , os eventos indicarão a alteração do estado da ligação.

Nota

Atualizado na versão 1.17.0.

Construtor para utilização interna.

ConnectionEventArgs

Fornece dados para o ConnectionEvent.

Nota

Adicionado na versão 1.2.0

Construtor para utilização interna.

EventSignal

Os clientes podem ligar ao sinal de evento para receber eventos ou desligar do sinal de evento para deixar de receber eventos.

Construtor para utilização interna.

KeywordRecognitionEventArgs

Classe para argumentos de eventos de reconhecimento de palavras-chave.

Construtor para utilização interna.

KeywordRecognitionModel

Representa um modelo de reconhecimento de palavras-chave.

KeywordRecognitionResult

Resultado de uma operação de reconhecimento de palavras-chave.

Construtor para utilização interna.

KeywordRecognizer

Um reconhecedor de palavras-chave.

NoMatchDetails

SDK de Voz da Microsoft para Python

PhraseListGrammar

Classe que permite a adição de runtime de sugestões de expressões para ajudar no reconhecimento de voz.

As expressões adicionadas ao reconhecedor são eficazes no início do próximo reconhecimento ou da próxima vez que o reconhecedor de voz tiver de voltar a ligar-se ao serviço de voz.

Nota

Adicionado na versão 1.5.0.

Construtor para utilização interna.

PronunciationAssessmentConfig

Representa a configuração da avaliação da pronúncia

Nota

Adicionado na versão 1.14.0.

A configuração pode ser inicializada de duas formas:

  • dos parâmetros: transmita o texto de referência, o sistema de classificação, a granularidade, ative miscue e id do cenário.

  • de json: passar uma cadeia json

Para obter os detalhes dos parâmetros, veja https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

Contém o resultado da avaliação da pronúncia ao nível do phoneme

Nota

Adicionado na versão 1.14.0.

PronunciationAssessmentResult

Representa o resultado da avaliação da pronúncia.

Nota

Adicionado na versão 1.14.0.

O resultado pode ser inicializado a partir de um resultado de reconhecimento de voz.

PronunciationAssessmentWordResult

Contém o resultado da avaliação da pronúncia ao nível da palavra

Nota

Adicionado na versão 1.14.0.

PropertyCollection

Classe para obter ou definir um valor de propriedade de uma coleção de propriedades.

RecognitionEventArgs

Fornece dados para o RecognitionEvent.

Construtor para utilização interna.

RecognitionResult

Informações detalhadas sobre o resultado de uma operação de reconhecimento.

Construtor para utilização interna.

Recognizer

Classe base para diferentes reconhecedores

ResultFuture

O resultado de uma operação assíncrona.

construtor privado

SessionEventArgs

Classe base para argumentos de eventos de sessão.

Construtor para utilização interna.

SourceLanguageRecognizer

Um reconhecedor de idioma de origem – reconhecedor de idioma autónomo, pode ser utilizado para deteção de idioma único ou contínuo.

Nota

Adicionado na versão 1.18.0.

SpeechConfig

Classe que define configurações para reconhecimento de voz/intenção e sintetização de voz.

A configuração pode ser inicializada de diferentes formas:

  • da subscrição: transmitir uma chave de subscrição e uma região

  • do ponto final: transmita um ponto final. A chave de subscrição ou o token de autorização são opcionais.

  • do anfitrião: transmita um endereço de anfitrião. A chave de subscrição ou o token de autorização são opcionais.

  • do token de autorização: transmitir um token de autorização e uma região

SpeechRecognitionCanceledEventArgs

Classe para argumentos de eventos cancelados do reconhecimento de voz.

Construtor para utilização interna.

SpeechRecognitionEventArgs

Classe para argumentos de eventos de reconhecimento de voz.

Construtor para utilização interna.

SpeechRecognitionResult

Classe base para resultados de reconhecimento de voz.

Construtor para utilização interna.

SpeechRecognizer

Um reconhecedor de voz. Se precisar de especificar informações de idioma de origem, especifique apenas um destes três parâmetros, idioma, source_language_config ou auto_detect_source_language_config.

SpeechSynthesisBookmarkEventArgs

Classe para argumentos de eventos de marcadores de sintetização de voz.

Nota

Adicionado na versão 1.16.0.

Construtor para utilização interna.

SpeechSynthesisCancellationDetails

Contém informações detalhadas sobre o motivo pelo qual um resultado foi cancelado.

SpeechSynthesisEventArgs

Classe para argumentos de eventos de sintetização de voz.

Construtor para utilização interna.

SpeechSynthesisResult

Resultado de uma operação de sintetização de voz.

Construtor para utilização interna.

SpeechSynthesisVisemeEventArgs

Classe para sintetização de voz viseme argumentos de eventos.

Nota

Adicionado na versão 1.16.0.

Construtor para utilização interna.

SpeechSynthesisWordBoundaryEventArgs

Classe para sintetização de voz – argumentos de eventos de limite de palavras.

Nota

Atualizado na versão 1.21.0.

Construtor para utilização interna.

SpeechSynthesizer

Um sintetizador de voz.

SyllableLevelTimingResult

Contém o resultado de temporização de nível sílaba

Nota

Adicionado na versão 1.20.0.

SynthesisVoicesResult

Contém informações detalhadas sobre a lista de vozes de sintetização obtidas.

Nota

Adicionado na versão 1.16.0.

Construtor para utilização interna.

VoiceInfo

Contém informações detalhadas sobre as informações de voz da sintetização.

Nota

Atualizado na versão 1.17.0.

Construtor para utilização interna.

Enumerações

AudioStreamContainerFormat

Define o formato de contentor de fluxo de áudio suportado.

AudioStreamWaveFormat

Representa o formato especificado no contentor WAV.

CancellationErrorCode

Define o código de erro no caso de CancellationReason ser Erro.

CancellationReason

Define os possíveis motivos pelos quais um resultado de reconhecimento pode ser cancelado.

NoMatchReason

Define as possíveis razões pelas quais um resultado de reconhecimento pode não ser reconhecido.

OutputFormat

Formato de saída.

ProfanityOption

Remove palavras ofensivas (palavrões) ou substitui letras de palavras ofensivas por estrelas.

PronunciationAssessmentGradingSystem

Define o sistema de pontos para a calibragem da pontuação de pronúncia; o valor predefinido é FivePoint.

PronunciationAssessmentGranularity

Define a granularidade da avaliação da pronúncia; o valor predefinido é Phoneme.

PropertyId

Define ids de propriedade de voz.

ResultReason

Especifica as possíveis razões pelas quais um resultado de reconhecimento pode ser gerado.

ServicePropertyChannel

Define os canais utilizados para transmitir as definições de propriedades para o serviço.

SpeechSynthesisOutputFormat

Define os formatos de áudio de saída de sintetização de voz possíveis.

StreamStatus

Define o possível estado do fluxo de dados de áudio.

SynthesisVoiceGender

Define o sexo das vozes de sintetização

SynthesisVoiceType

Define o tipo de vozes de sintetização