Condividi tramite


speech Pacchetto

Microsoft Speech SDK per Python

Moduli

audio

Classi che si occupano della gestione dell'input audio ai vari riconoscitori e dell'output audio del sintetizzatore vocale.

dialog

Classi correlate al connettore del servizio di dialogo.

enums

Microsoft Speech SDK per Python

intent

Classi correlate al riconoscimento finalità dal riconoscimento vocale.

interop

Microsoft Speech SDK per Python

languageconfig

Classi che si occupano della gestione delle configurazioni del linguaggio

properties

Microsoft Speech SDK per Python

speech

Classi correlate al riconoscimento del testo dal riconoscimento vocale, alla sintesi vocale dal testo e alle classi generali usate nei vari riconoscitori.

transcription

Classi correlate alla trascrizione della conversazione.

translation

Classi correlate alla traduzione vocale in altre lingue.

version

Microsoft Speech SDK per Python

Classi

AudioDataStream

Rappresenta il flusso di dati audio utilizzato per il funzionamento dei dati audio come flusso.

Genera un flusso di dati audio da un risultato di sintesi vocale (digitare SpeechSynthesisResult) o un risultato di riconoscimento delle parole chiave (tipo KeywordRecognitionResult).

AutoDetectSourceLanguageResult

Rappresenta il risultato della lingua di origine del rilevamento automatico.

Il risultato può essere inizializzato da un risultato del riconoscimento vocale.

CancellationDetails

Microsoft Speech SDK per Python

Connection

Classe proxy per la gestione della connessione al servizio voce dell'oggetto specificato Recognizer.

Per impostazione predefinita, una connessione Recognizer al servizio viene gestita in modo autonomo quando necessario. La Connection classe fornisce metodi aggiuntivi per consentire agli utenti di aprire o chiudere in modo esplicito una connessione e di sottoscrivere le modifiche dello stato della connessione. L'uso di Connection è facoltativo. È destinato agli scenari in cui è necessaria l'ottimizzazione del comportamento dell'applicazione in base allo stato della connessione. Gli utenti possono facoltativamente chiamare open per avviare manualmente una connessione al servizio prima di avviare il riconoscimento sull'oggetto Recognizer associato a .Connection Dopo l'avvio di un riconoscimento, la chiamata open o close potrebbe non riuscire. Questo non influirà sul riconoscimento o sul riconoscimento in corso. La connessione potrebbe cadere per vari motivi, il sistema di riconoscimento tenterà sempre di reinstituire la connessione in base alle esigenze per garantire le operazioni in corso. In tutti questi casi connected/disconnected gli eventi indicherà la modifica dello stato della connessione.

Nota

Aggiornato nella versione 1.17.0.

Costruttore per l'uso interno.

ConnectionEventArgs

Fornisce i dati per ConnectionEvent.

Nota

Aggiunta nella versione 1.2.0

Costruttore per l'uso interno.

EventSignal

I client possono connettersi al segnale di evento per ricevere eventi o disconnettersi dal segnale dell'evento per interrompere la ricezione di eventi.

Costruttore per l'uso interno.

KeywordRecognitionEventArgs

Classe per gli argomenti dell'evento di riconoscimento delle parole chiave.

Costruttore per l'uso interno.

KeywordRecognitionModel

Rappresenta un modello di riconoscimento delle parole chiave.

KeywordRecognitionResult

Risultato di un'operazione di riconoscimento delle parole chiave.

Costruttore per l'uso interno.

KeywordRecognizer

Riconoscitore di parole chiave.

NoMatchDetails

Microsoft Speech SDK per Python

PhraseListGrammar

Classe che consente l'aggiunta in fase di esecuzione di hint di frase per facilitare il riconoscimento vocale.

Le frasi aggiunte al riconoscitore sono valide all'inizio del riconoscimento successivo o alla successiva riconnessione del riconoscimento vocale al servizio di riconoscimento vocale.

Nota

Aggiunta nella versione 1.5.0.

Costruttore per l'uso interno.

PronunciationAssessmentConfig

Rappresenta la configurazione della valutazione della pronuncia

Nota

Aggiunta nella versione 1.14.0.

La configurazione può essere inizializzata in due modi:

  • dai parametri: passare testo di riferimento, sistema di classificazione, granularità, abilitare miscue e ID scenario.

  • da json: passare una stringa JSON

Per informazioni dettagliate sui parametri, vedere https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

Contiene il risultato della valutazione della pronuncia a livello di fonema

Nota

Aggiunta nella versione 1.14.0.

PronunciationAssessmentResult

Rappresenta il risultato della valutazione della pronuncia.

Nota

Aggiunta nella versione 1.14.0.

Il risultato può essere inizializzato da un risultato del riconoscimento vocale.

PronunciationAssessmentWordResult

Contiene il risultato della valutazione della pronuncia a livello di parola

Nota

Aggiunta nella versione 1.14.0.

PropertyCollection

Classe per recuperare o impostare un valore di proprietà da una raccolta di proprietà.

RecognitionEventArgs

Fornisce i dati per RecognitionEvent.

Costruttore per l'uso interno.

RecognitionResult

Informazioni dettagliate sul risultato di un'operazione di riconoscimento.

Costruttore per l'uso interno.

Recognizer

Classe di base per riconoscitori diversi

ResultFuture

Risultato di un'operazione asincrona.

costruttore privato

SessionEventArgs

Classe di base per gli argomenti dell'evento di sessione.

Costruttore per l'uso interno.

SourceLanguageRecognizer

Uno strumento di riconoscimento della lingua di origine, ovvero lo strumento di riconoscimento del linguaggio autonomo, può essere usato per il rilevamento di una lingua singola o di una lingua continua.

Nota

Aggiunta nella versione 1.18.0.

SpeechConfig

Classe che definisce le configurazioni per il riconoscimento vocale/finalità e la sintesi vocale.

La configurazione può essere inizializzata in modi diversi:

  • dalla sottoscrizione: passare una chiave di sottoscrizione e un'area

  • dall'endpoint: passare un endpoint. La chiave di sottoscrizione o il token di autorizzazione sono facoltativi.

  • dall'host: passare un indirizzo host. La chiave di sottoscrizione o il token di autorizzazione sono facoltativi.

  • dal token di autorizzazione: passare un token di autorizzazione e un'area

SpeechRecognitionCanceledEventArgs

Classe per gli argomenti dell'evento annullato per il riconoscimento vocale.

Costruttore per l'uso interno.

SpeechRecognitionEventArgs

Classe per gli argomenti dell'evento di riconoscimento vocale.

Costruttore per l'uso interno.

SpeechRecognitionResult

Classe di base per i risultati del riconoscimento vocale.

Costruttore per l'uso interno.

SpeechRecognizer

Riconoscimento vocale. Se è necessario specificare le informazioni sulla lingua di origine, specificare solo uno di questi tre parametri, lingua, source_language_config o auto_detect_source_language_config.

SpeechSynthesisBookmarkEventArgs

Classe per gli argomenti dell'evento del segnalibro di sintesi vocale.

Nota

Aggiunta nella versione 1.16.0.

Costruttore per l'uso interno.

SpeechSynthesisCancellationDetails

Contiene informazioni dettagliate sul motivo per cui un risultato è stato annullato.

SpeechSynthesisEventArgs

Classe per gli argomenti dell'evento di sintesi vocale.

Costruttore per l'uso interno.

SpeechSynthesisResult

Risultato di un'operazione di sintesi vocale.

Costruttore per l'uso interno.

SpeechSynthesisVisemeEventArgs

Classe per gli argomenti dell'evento viseme della sintesi vocale.

Nota

Aggiunta nella versione 1.16.0.

Costruttore per l'uso interno.

SpeechSynthesisWordBoundaryEventArgs

Classe per gli argomenti dell'evento limite della parola di sintesi vocale.

Nota

Aggiornato nella versione 1.21.0.

Costruttore per l'uso interno.

SpeechSynthesizer

Sintetizzatore vocale.

SyllableLevelTimingResult

Contiene risultati di intervallo a livello di sillaba

Nota

Aggiunta nella versione 1.20.0.

SynthesisVoicesResult

Contiene informazioni dettagliate sull'elenco delle voci di sintesi recuperate.

Nota

Aggiunta nella versione 1.16.0.

Costruttore per l'uso interno.

VoiceInfo

Contiene informazioni dettagliate sulle informazioni vocali di sintesi.

Nota

Aggiornato nella versione 1.17.0.

Costruttore per l'uso interno.

Enumerazioni

AudioStreamContainerFormat

Definisce il formato del contenitore del flusso audio supportato.

AudioStreamWaveFormat

Rappresenta il formato specificato all'interno del contenitore WAV.

CancellationErrorCode

Definisce il codice di errore nel caso in cui CancellationReason sia Error.

CancellationReason

Definisce i possibili motivi per cui un risultato di riconoscimento potrebbe essere annullato.

NoMatchReason

Definisce i possibili motivi per cui un risultato di riconoscimento potrebbe non essere riconosciuto.

OutputFormat

Formato di output.

ProfanityOption

Rimuove il contenuto volgare (indossando) o sostituisce lettere di parole volgari con stelle.

PronunciationAssessmentGradingSystem

Definisce il sistema di punti per la calibrazione del punteggio di pronuncia; il valore predefinito è FivePoint.

PronunciationAssessmentGranularity

Definisce la granularità della valutazione della pronuncia; il valore predefinito è Phoneme.

PropertyId

Definisce gli ID proprietà voce.

ResultReason

Specifica i possibili motivi per cui potrebbe essere generato un risultato di riconoscimento.

ServicePropertyChannel

Definisce i canali usati per passare le impostazioni delle proprietà al servizio.

SpeechSynthesisOutputFormat

Definisce i possibili formati audio di output di sintesi vocale.

StreamStatus

Definisce lo stato possibile del flusso di dati audio.

SynthesisVoiceGender

Definisce il genere delle voci di sintesi

SynthesisVoiceType

Definisce il tipo di voci di sintesi