O que há de novo no Azure AI Speech?

O Azure AI Speech é atualizado continuamente. Para se manter atualizado com os desenvolvimentos recentes, este artigo fornece informações sobre novas versões e recursos.

Destaques recentes

Notas de versão

Escolha um serviço ou recurso

Próximos planos para usuários Linux e Android:

Atenção

Este artigo faz referência ao CentOS, uma distribuição Linux que está se aproximando do status de Fim da Vida Útil (EOL). Por favor, considere o seu uso e planejamento de acordo. Para obter mais informações, consulte as diretrizes de Fim da Vida Útil do CentOS.

  • O Ubuntu 18.04 também chegou ao fim da vida útil em abril de 2023, então nossos usuários devem se preparar para movermos nossa versão mínima até o Ubuntu 20.04.

SDK de fala 1.37.0: versão de abril de 2024

Novas funcionalidades

  • Adicione suporte para streaming de texto de entrada na síntese de fala.
  • Altere a voz de síntese de fala padrão para en-US-AvaMultilingualNeural.
  • Atualize as compilações do Android para usar o OpenSSL 3.x.

Correções de erros

Exemplos

  • Atualizado para novos recursos.

Speech SDK 1.36.0: versão de março de 2024

Novas funcionalidades

  • Adicione suporte para identificação de idioma em tradução multilíngue em pontos de extremidade v2 usando AutoDetectSourceLanguageConfig::FromOpenRange().

Correções de erros

  • Corrija o evento SynthesisCanceled não acionado se parar for chamado durante o evento SynthesisStarted.

  • Corrija um problema de ruído na síntese de fala incorporada.

  • Corrija uma falha no reconhecimento de fala incorporado ao executar vários reconhecedores em paralelo.

  • Corrija a configuração do modo de deteção de frase nos pontos de extremidade v1/v2.

  • Correções para vários problemas com o Microsoft Audio Stack.

Exemplos

  • Atualizações para novos recursos.

Speech SDK 1.35.0: versão de fevereiro de 2024

Novas funcionalidades

  • Altere o texto padrão para voz de fala de en-US-JennyMultilingualNeural para en-US-AvaNeural.
  • Suporta detalhes em nível de palavra em resultados de tradução de fala incorporados usando o formato de saída detalhado.

Correções de erros

  • Corrija a API getter de posição AudioDataStream em Python.
  • Corrija a tradução de fala usando pontos de extremidade v2 sem deteção de idioma.
  • Corrija uma falha aleatória e duplique eventos de limite de palavras em texto incorporado para fala.
  • Retornar um código de erro de cancelamento correto para um erro interno do servidor em conexões WebSocket.
  • Corrija a falha ao carregar FPIEProcessor.dll biblioteca quando o MAS é usado com C#.

Exemplos

  • Pequenas atualizações de formatação para exemplos de reconhecimento incorporado.

Speech SDK 1.34.1: versão de janeiro de 2024

Alterações interruptivas

  • Apenas correções de bugs

Novas funcionalidades

  • Apenas correções de bugs

Correções de erros

  • Corrija a regressão introduzida na versão 1.34.0, onde a url do ponto de extremidade do serviço foi construída com informações de localidade incorretas para usuários em várias regiões da China.

Speech SDK 1.34.0: versão de novembro de 2023

Alterações interruptivas

  • O SpeechRecognizer foi atualizado para usar um novo ponto de extremidade por padrão (ou seja, quando não especifica explicitamente uma URL) que não suporta mais parâmetros de cadeia de caracteres de consulta para a maioria das propriedades. Em vez de definir parâmetros de cadeia de caracteres de consulta diretamente com ServicePropertyChannel.UriQueryParameter, use as funções de API correspondentes.

Novas funcionalidades

  • Compatibilidade com .NET 8 (Correção para https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 exceto para aviso sobre centos7-x64)
  • Suporte para métricas de desempenho de fala incorporadas que podem ser usadas para avaliar a capacidade de um dispositivo executar fala incorporada.
  • Suporte para identificação da língua de partida em tradução multilingue incorporada.
  • Suporte para conversão de fala para texto, texto para fala e tradução para iOS e Swift/Objective-C lançado em visualização.
  • O suporte incorporado é fornecido no MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Correções de erros

  • Correção para iOS SDK x2 vezes o crescimento do tamanho binário · Edição #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Correção para Não é possível obter carimbos de data/hora no nível do Word do azure speech para a API de texto · Edição #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Correção para a fase de destruição do DialogServiceConnector para desconectar eventos corretamente. Isso estava causando acidentes ocasionalmente.
  • Correção para exceção durante a criação de um reconhecedor quando o MAS é usado.
  • FPIEProcessor.dll do pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS para Windows UWP x64 e ARM64 dependia de bibliotecas de tempo de execução VC para C++ nativo. O problema foi corrigido atualizando a dependência para corrigir bibliotecas de tempo de execução do VC (para UWP).
  • Correção para [MAS] Chamadas recorrentes para reconhecer OnceAsync levam a SPXERR_ALREADY_INITIALIZED ao usar o MAS · Edição #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Correção para falha de reconhecimento de fala incorporada quando listas de frases são usadas.

Exemplos

  • Exemplos iOS incorporados para conversão de voz em texto, texto em fala e tradução.

CLI de fala 1.34.0: versão de novembro de 2023

Novas funcionalidades

  • Ofereça suporte à saída de eventos de limite de palavras ao sintetizar fala.

Correções de erros

  • Dependência JMESPath atualizada para a versão mais recente, melhora as avaliações de cadeia de caracteres

Speech SDK 1.33.0: versão de outubro de 2023

Aviso de alteração de quebra

  • O novo pacote NuGet adicionado para o Microsoft Audio Stack (MAS) agora precisa ser incluído por aplicativos que estão usando o MAS em seus arquivos de configuração de pacote.

Novas funcionalidades

  • Adicionado o novo pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, que oferece melhor desempenho de cancelamento de eco ao usar o Microsoft Audio Stack
  • Avaliação de Pronúncia: suporte adicional para avaliação de prosódia e conteúdo, que pode avaliar a fala falada em termos de prosódia, vocabulário, gramática e tópico.

Correções de erros

Exemplos

CLI de fala 1.33.0: versão de outubro de 2023

Novas funcionalidades

  • Ofereça suporte à saída de eventos de limite de palavras ao sintetizar fala.

Correções de erros

  • nenhum

Speech SDK 1.32.1: versão de setembro de 2023

Correções de erros

  • Atualizações de pacotes Android com as últimas correções de segurança do OpenSSL1.1.1v
  • JS – Propriedade WebWorkerLoadType adicionada para permitir o desvio da carga de URL de dados para o trabalhador de tempo limite
  • JS – Corrigir a desconexão da tradução da conversação após 10 minutos
  • JS – O token de autenticação de tradução de conversação do Conversation agora se propaga para a conexão do serviço de tradução

Exemplos

Speech SDK 1.31.0: versão de agosto de 2023

Novos recursos

  • O suporte para diarização em tempo real está disponível em pré-visualização pública com o Speech SDK 1.31.0. Esse recurso está disponível nos seguintes SDKs: C#, C++, Java, JavaScript, Python e Objective-C/Swift.

  • Síntese de fala sincronizada, limite de palavras e eventos viseme com reprodução de áudio

Alterações interruptivas

  • O antigo cenário de "transcrição de conversa" é renomeado para "transcrição de reunião". Por exemplo, use MeetingTranscriber em vez de ConversationTranscriber, e use CreateMeetingAsync em vez de CreateConversationAsync. Embora os nomes dos objetos e métodos SDK tenham sido alterados, a renomeação não altera o recurso em si. Use objetos de transcrição de reunião para transcrição de reuniões com perfis de usuário e assinaturas de voz. Consulte Transcrição da reunião para obter mais informações. Os objetos e métodos de "tradução de conversa" não são afetados por essas alterações. Você ainda pode usar o ConversationTranslator objeto e seus métodos para atender cenários de tradução.
  • Para diarização em tempo real, um novo ConversationTranscriber objeto é introduzido. O novo modelo de objeto de "transcrição de conversa" e os padrões de chamada são semelhantes ao reconhecimento contínuo com o SpeechRecognizer objeto. Uma diferença fundamental é que o ConversationTranscriber objeto é projetado para ser usado em um cenário de conversação onde você deseja diferenciar vários falantes (diarização). Perfis de usuário e assinaturas de voz não são aplicáveis. Consulte o guia de início rápido de diarização em tempo real para obter mais informações.

Esta tabela mostra os nomes de objetos anteriores e novos para diarização em tempo real e transcrição de reuniões. O nome do cenário está na primeira coluna, os nomes de objeto anteriores estão na segunda coluna e os novos nomes de objeto estão na terceira coluna.
Nome do cenário Nomes de objetos anteriores Novos nomes de objetos
Diarização em tempo real N/A ConversationTranscriber
Transcrição da reunião ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 O Participant, ParticipantChangedReasone os User objetos são aplicáveis tanto à transcrição da reunião quanto aos cenários de tradução da reunião.

2 O Meeting objeto é novo e é usado com o MeetingTranscriber objeto.

Correções de erros

Exemplos

Speech SDK 1.30.0: versão de julho de 2023

Novos recursos

  • C++, C#, Java - Adicionado suporte para DisplayWords o resultado detalhado do Embedded Speech Recognition.
  • Objective-C/Swift - Adicionado suporte para ConnectionMessageReceived evento em Objective-C/Swift.
  • Objective-C/Swift - Modelos melhorados de deteção de palavras-chave para iOS. Essa alteração aumentou o tamanho de certos pacotes, que contêm binários do iOS (como NuGet, XCFramework). Estamos trabalhando para reduzir o tamanho para lançamentos futuros.

Correções de erros

  • Corrigido um vazamento de memória ao usar o reconhecedor de fala com PhraseListGrammar, conforme relatado por um cliente (problema do GitHub).
  • Corrigido um impasse na API de conexão aberta de texto para fala.

Notas adicionais

  • Java - Alguns métodos de API Java usados public internamente foram alterados para pacote internal, protected ou private. Essa alteração não deve ter um efeito sobre os desenvolvedores, pois não esperamos que os aplicativos os utilizem. Notado aqui pela transparência.

Exemplos

  • Novos exemplos de Avaliação de Pronúncia sobre como especificar um idioma de aprendizagem em seu próprio aplicativo

Speech SDK 1.29.0: versão de junho de 2023

Novos recursos

  • C++, C#, Java - Pré-visualização de APIs de tradução de voz incorporadas. Agora você pode fazer tradução de fala sem conexão com a nuvem!
  • JavaScript - Continuous Language Identification (LID) agora ativado para tradução de fala.
  • JavaScript - Contribuição da comunidade para adicionar LocaleName propriedade à VoiceInfo classe. Obrigado usuário do GitHub shivsarthak pela solicitação pull.
  • C++, C#, Java - Adicionado suporte para reamostragem de texto incorporado para saída de fala de 16 kHz a 48 kHz.
  • Adicionado suporte para hi-IN localidade no Intent Recognizer com Simple Pattern Matching.

Correções de erros

  • Corrigido um acidente causado por uma condição de corrida no Reconhecimento de Fala durante a destruição de objetos, como visto em alguns de nossos testes do Android
  • Corrigidos possíveis impasses no Reconhecedor de Intenção com o Simple Pattern Matcher

Exemplos

  • Novos exemplos de tradução de fala incorporada

Speech SDK 1.28.0: versão de maio de 2023

Quebrando a mudança

  • JavaScript SDK: Online Certificate Status Protocol (OCSP) foi removido. Isso permite que os clientes estejam em melhor conformidade com os padrões do navegador e do nó para o tratamento de certificados. A versão 1.28 e posteriores não incluirá mais nosso módulo OCSP personalizado.

Novos recursos

  • O Reconhecimento de Fala incorporado agora retorna NoMatchReason::EndSilenceTimeout quando ocorre um tempo limite de silêncio no final de uma declaração. Isso corresponde ao comportamento ao fazer o reconhecimento usando o serviço de fala em tempo real.
  • JavaScript SDK: defina propriedades ao SpeechTranslationConfig usar PropertyId valores enum.

Correções de erros

  • C# no Windows - Corrija a condição de corrida potencial / deadlock na extensão de áudio do Windows. Em cenários que descartam o renderizador de áudio rapidamente e também usam o método Synthesizer para parar de falar, o evento subjacente não foi redefinido por parada e pode fazer com que o objeto do renderizador nunca seja descartado, enquanto ele pode estar segurando um bloqueio global para eliminação, congelando o thread GC dotnet.

Exemplos

  • Adicionado um exemplo de fala incorporado para MAUI.
  • Atualizado o exemplo de fala incorporada para Android Java para incluir conversão de texto em fala.

Speech SDK 1.27.0: versão de abril de 2023

Notificação sobre alterações futuras

  • Planejamos remover o OCSP (Online Certificate Status Protocol) na próxima versão do JavaScript SDK. Isso permite que os clientes estejam em melhor conformidade com os padrões do navegador e do nó para o tratamento de certificados. A versão 1.27 é a última versão que inclui nosso módulo OCSP personalizado.

Novos recursos

  • JavaScript – Adicionado suporte para entrada de microfone a partir do navegador com identificação e verificação de alto-falante.
  • Reconhecimento de Fala Incorporado - Suporte de atualização para PropertyId::Speech_SegmentationSilenceTimeoutMs configuração.

Correções de erros

  • Geral - Atualizações de confiabilidade na lógica de reconexão de serviço (todas as linguagens de programação, exceto JavaScript).
  • Geral - Corrija conversões de string que vazam memória no Windows (todas as linguagens de programação relevantes, exceto JavaScript).
  • Reconhecimento de Fala Incorporado - Corrija falhas no Reconhecimento de Fala em Francês ao usar determinadas entradas da lista gramatical.
  • Documentação do código-fonte - Correções nos comentários da documentação de referência do SDK relacionados ao registro de áudio no serviço.
  • Reconhecimento de intenção - Corrigir prioridades do Pattern Matcher relacionadas a entidades de lista.

Exemplos

  • Manipule corretamente a falha de autenticação no exemplo CTS (Conversation Transcription) em C#.
  • Adicionado exemplo de avaliação de pronúncia de streaming para Python, JavaScript, Objective-C e Swift.

Speech SDK 1.26.0: versão de março de 2023

Alterações interruptivas

  • O Bitcode foi desativado em todos os destinos iOS nos seguintes pacotes: Cocoapod com xcframework, NuGet (para Xamarin e MAUI) e Unity. A mudança deve-se à descontinuação do suporte a bitcode da Apple a partir do Xcode 14. Essa alteração também significa que, se você estiver usando a versão do Xcode 13 ou tiver ativado explicitamente o bitcode em seu aplicativo usando o SDK de fala, poderá encontrar um erro dizendo "framework doesn't contain bitcode and you must rebuild it". Para resolver esse problema, certifique-se de que seus destinos têm bitcode desativado.
  • O destino mínimo de implantação do iOS foi atualizado para 11.0 nesta versão, o que significa que o armv7 HW não é mais suportado.

Novas funcionalidades

  • O Reconhecimento de Voz incorporado (no dispositivo) suporta agora áudio de entrada com taxa de amostragem de 8 e 16 kHz (16 bits por amostra, PCM mono).
  • O Speech Synthesis agora relata latências de conexão, rede e serviço no resultado para ajudar na otimização de latência de ponta a ponta.
  • Novas regras de desempate para reconhecimento de intenção com correspondência de padrões simples. Quanto mais bytes de caracteres forem correspondidos, vencerá as correspondências de padrão com menor contagem de bytes de caracteres. Exemplo: O padrão "Select {something} in the top right" vencerá "Select {something}"

Correções de erros

  • Síntese de fala: corrija um bug em que o emoji não está correto em eventos de limite de palavras.
  • Reconhecimento de intenção com compreensão de linguagem conversacional (CLU):
    • As intenções do fluxo de trabalho do CLU Orchestrator agora aparecem corretamente.
    • O resultado JSON agora está disponível através do ID LanguageUnderstandingServiceResponse_JsonResultda propriedade.
  • Reconhecimento de fala com ativação de palavra-chave: Correção para áudio ausente ~ 150 ms após um reconhecimento de palavra-chave.
  • Correção para o Speech SDK NuGet iOS MAUI Release build, relatado pelo cliente (problema do GitHub)

Exemplos

  • Correção para amostra do Swift iOS, relatada pelo cliente (problema do GitHub)

Speech SDK 1.25.0: versão de janeiro de 2023

Alterações interruptivas

  • As APIs de identificação de idioma (visualização) foram simplificadas. Se você atualizar para o Speech SDK 1.25 e vir uma quebra de compilação, visite a página Identificação de idioma para saber mais sobre a nova propriedadeSpeechServiceConnection_LanguageIdMode. Esta única propriedade substitui as duas anteriores SpeechServiceConnection_SingleLanguageIdPriority e SpeechServiceConnection_ContinuousLanguageIdPriority. A priorização entre baixa latência e alta precisão não é mais necessária após as recentes melhorias do modelo. Agora, você só precisa selecionar se deseja executar a Identificação de Idioma inicial ou contínua ao fazer reconhecimento de fala contínuo ou tradução.

Novas funcionalidades

  • C#/C++/Java: o SDK de Fala Incorporado agora é lançado em visualização pública fechada. Consulte a documentação de Fala incorporada (visualização). Agora você pode fazer fala para texto no dispositivo e texto para fala quando a conectividade na nuvem é intermitente ou indisponível. Compatível com plataformas Android, Linux, macOS e Windows
  • MAUI em C#: Suporte adicionado para destinos iOS e Mac Catalyst no Speech SDK NuGet (problema do cliente)
  • Unity: arquitetura x86_64 Android adicionada ao pacote Unity (problema do cliente)
  • Vai:
    • Suporte de streaming direto ALAW/MULAW adicionado para reconhecimento de fala (problema do cliente)
    • Adicionado suporte para PhraseListGrammar. Obrigado usuário do GitHub czkoko pela contribuição da comunidade!
  • C#/C++: O Intent Recognizer agora oferece suporte a modelos de Compreensão de Linguagem Conversacional em C++ e C# com orquestração no serviço da Microsoft

Correções de erros

  • Corrigir um bloqueio ocasional no KeywordRecognizer ao tentar pará-lo
  • Píton:
    • Correção para obter resultados da Avaliação de Pronúncia quando PronunciationAssessmentGranularity.FullText definido (problema do cliente)
    • Correção para a propriedade de gênero para vozes masculinas que não estão sendo recuperadas, ao obter vozes de síntese de fala
  • JavaScript
    • Correção para analisar alguns arquivos WAV que foram gravados em dispositivos iOS (problema do cliente)
    • O JS SDK agora é compilado sem usar npm-force-resolutions (problema do cliente)
    • O Conversor de Conversação agora define corretamente o ponto de extremidade do serviço ao usar uma instância speechConfig criada usando SpeechConfig.fromEndpoint()

Exemplos

  • Exemplos adicionados mostrando como usar a Fala Incorporada

  • Adicionado exemplo de fala ao texto para MAUI

    Consulte Repositório de exemplos do SDK de fala.

Speech SDK 1.24.2: versão de novembro de 2022

Novas funcionalidades

  • Sem novos recursos, apenas uma correção de mecanismo incorporado para suportar novos arquivos de modelo.

Correções de erros

  • Todas as linguagens de programação
    • Corrigido um problema com a encriptação de modelos de reconhecimento de voz incorporados.

Speech SDK 1.24.1: versão de novembro de 2022

Novas funcionalidades

Correções de erros

  • Todas as linguagens de programação
    • Corrigir falha de TTS incorporado quando a fonte de voz não é suportada
    • Fix stopSpeaking() não pode parar a reprodução no Linux (#1686)
  • SDK JavaScript
    • Regressão fixa na forma como a conversação transcreve áudio fechado.
  • Java
    • Arquivos POM e Javadocs atualizados publicados temporariamente no Maven Central para permitir que o pipeline de documentos atualize documentos de referência on-line.
  • Python
    • Corrija a regressão onde Python speak_text(ssml) retorna void.

Speech SDK 1.24.0: versão de outubro de 2022

Novas funcionalidades

  • Todos os idiomas de programação: AMR-WB (16khz) adicionado à lista suportada de formatos de saída de áudio de texto para fala
  • Python: Pacote adicionado para Linux ARM64 para distribuições Linux suportadas.
  • C#/C++/Java/Python: Suporte adicionado para ALAW & MULAW streaming direto para o serviço de fala (além do fluxo PCM existente) usando AudioStreamWaveFormat.
  • MAUI em C#: pacote NuGet atualizado para oferecer suporte a destinos Android para desenvolvedores .NET MAUI (problema do cliente)
  • Mac: Adicionado XCframework separado para Mac, que não contém binários do iOS. Isso oferece uma opção para desenvolvedores que precisam apenas de binários do Mac usando um pacote XCframework menor.
  • Pilha de áudio da Microsoft (MAS):
    • Quando os ângulos de formação de feixe são especificados, o som originado fora do intervalo especificado será melhor suprimido.
    • Aproximadamente 70% de redução no tamanho do libMicrosoft.CognitiveServices.Speech.extension.mas.so Linux ARM32 e Linux ARM64.
  • Reconhecimento de intenção usando correspondência de padrões:
    • Adicionar suporte ortográfico para os idiomas fr, de, es, jp
    • Adicionado suporte de inteiro pré-construído para o idioma es.

Correções de erros

  • iOS: corrigir erro de síntese de fala no iOS 16 causado por falha de decodificação de áudio comprimido (problema do cliente).
  • JavaScript:
    • Corrija o token de autenticação que não funciona ao obter a lista de voz de síntese de fala (problema do cliente).
    • Use a URL de dados para o carregamento do trabalhador (problema do cliente).
    • Crie o worklet do processador de áudio somente quando o AudioWorklet for suportado no navegador (problema do cliente). Esta foi uma contribuição comunitária de William Wong. Obrigado Guilherme!
    • Corrija o retorno de chamada reconhecido quando a resposta connectionMessage do LUIS estiver vazia (problema do cliente).
    • Defina corretamente o tempo limite de segmentação de fala.
  • Reconhecimento de intenção usando correspondência de padrões:
    • Caracteres não-json dentro de modelos agora serão carregados corretamente.
    • Corrigir problema de suspensão quando recognizeOnceAsync(text) foi chamado durante o reconhecimento contínuo.

Speech SDK 1.23.0: versão de julho de 2022

Novas funcionalidades

  • C#, C++, Java: Adicionado suporte para linguagens zh-cn e zh-hk reconhecimento de intenção com correspondência de padrões.
  • C#: Adicionado suporte para AnyCPU compilações do .NET Framework

Correções de erros

  • Android: Corrigida a vulnerabilidade do OpenSSL CVE-2022-2068 atualizando o OpenSSL para 1.1.1q
  • Python: Corrigir falha ao usar PushAudioInputStream
  • iOS: Correção "EXC_BAD_ACCESS: Tentativa de desreferenciar ponteiro nulo" conforme relatado no iOS (problema do GitHub)

Speech SDK 1.22.0: versão de junho de 2022

Novas funcionalidades

  • Java: API IntentRecognitionResult para getEntities(), applyLanguageModels() e recognizeOnceAsync(text) adicionada para suportar o mecanismo de "correspondência de padrão simples".
  • Unity: Adicionado suporte para Mac M1 (Apple Silicon) para o pacote Unity (problema do GitHub)
  • C#: Adicionado suporte para x86_64 para Xamarin Android (problema do GitHub)
  • C#: Versão mínima do .NET Framework atualizada para v4.6.2 para o pacote C# do SDK, pois a v4.6.1 foi desativada (consulte Política de ciclo de vida do componente do Microsoft .NET Framework)
  • Linux: Adicionado suporte para Debian 11 e Ubuntu 22.04 LTS. Ubuntu 22.04 LTS requer a instalação manual de libssl1.1 como um pacote binário a partir daqui (por exemplo, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb ou mais recente para x64), ou compilando a partir de fontes.

Correções de erros

  • UWP: A dependência OpenSSL foi removida das bibliotecas UWP e substituída por APIs HTTP e websocket WinRT para atender à conformidade de segurança e menor espaço binário.
  • Mac: Corrigido o problema "MicrosoftCognitiveServicesSpeech Module Not Found" ao usar projetos Swift direcionados à plataforma macOS
  • Windows, Mac: Corrigido um problema específico da plataforma em que as fontes de áudio que eram configuradas por meio de propriedades para transmitir em tempo real às vezes ficavam para trás e, eventualmente, excediam a capacidade

Amostras (GitHub)

  • C#: Exemplos do .NET Framework atualizados para usar v4.6.2
  • Unity: Exemplo de assistente virtual corrigido para Android e UWP
  • Unity: Amostras Unity atualizadas para a versão Unity 2020 LTS

Speech SDK 1.21.0: versão de abril de 2022

Novas funcionalidades

  • Java & JavaScript: Adicionado suporte para identificação contínua de linguagem ao usar o objeto SpeechRecognizer
  • JavaScript: APIs de diagnóstico adicionadas para habilitar o nível de log do console e o log de arquivos (somente nós), para ajudar a Microsoft a solucionar problemas relatados pelo cliente
  • Python: Adicionado suporte para transcrição de conversas
  • Go: Adicionado suporte para reconhecimento de alto-falante
  • C++ & C#: Adicionado suporte para um grupo necessário de palavras no Intent Recognizer (correspondência de padrão simples). Por exemplo: "(set|start|begin) a timer" onde "set", "start" ou "begin" devem estar presentes para que a intenção seja reconhecida.
  • Todas as linguagens de programação, Síntese de Fala: Adicionada propriedade de duração em eventos de limite de palavras. Adicionado suporte para limite de pontuação e limite de frase
  • Objective-C/Swift/Java: Adicionados resultados no nível da palavra no objeto de resultado da Avaliação de Pronúncia (semelhante ao C#). O aplicativo não precisa mais analisar uma cadeia de caracteres de resultado JSON para obter informações no nível da palavra (problema do GitHub)
  • Plataforma iOS: Adicionado suporte experimental para arquitetura ARMv7

Correções de erros

  • Plataforma iOS: Correção para permitir a construção para o alvo "Qualquer dispositivo iOS", ao usar o CocoaPod (problema do GitHub)
  • Plataforma Android: a versão OpenSSL foi atualizada para 1.1.1n para corrigir a vulnerabilidade de segurança CVE-2022-0778
  • JavaScript: Corrigir problema em que o cabeçalho wav não foi atualizado com o tamanho do arquivo (problema do GitHub)
  • JavaScript: Corrigir problemas de dessincronização de ID de solicitação que quebram cenários de tradução (problema do GitHub)
  • JavaScript: Corrija o problema ao instanciar SpeakerAudioDestination sem fluxo (problema do GitHub)
  • C++: Corrija cabeçalhos C++ para remover um aviso ao compilar para C++17 ou mais recente

Exemplos GitHub

  • Novos exemplos Java para reconhecimento de fala com identificação de linguagem
  • Novos exemplos de Python e Java para transcrição de conversas
  • Novo exemplo Go para reconhecimento de alto-falantes
  • Nova ferramenta C++ e C# para Windows que enumera todos os dispositivos de captura e renderização de áudio, para encontrar sua ID de dispositivo. Essa ID é necessária para o SDK de fala se você planeja capturar áudio ou renderizar áudio para um dispositivo não padrão.

Speech SDK 1.20.0: versão de janeiro de 2022

Novas funcionalidades

  • Objective-C, Swift e Python: adicionado suporte para DialogServiceConnector, usado para cenários de Assistente de Voz.
  • Python: Suporte para Python 3.10 foi adicionado. O suporte para Python 3.6 foi removido, de acordo com o fim de vida útil do Python para 3.6.
  • Unity: O Speech SDK agora é suportado para aplicativos Unity no Linux.
  • C++, C#: IntentRecognizer usando correspondência de padrões agora é suportado em C#. Além disso, cenários com entidades personalizadas, grupos opcionais e funções de entidade agora são suportados em C++ e C#.
  • C++, C#: Registro de rastreamento de diagnóstico aprimorado usando novas classes FileLogger, MemoryLogger e EventLogger. Os logs do SDK são uma ferramenta importante para a Microsoft diagnosticar problemas relatados pelo cliente. Essas novas classes tornam mais fácil para os clientes integrar os logs do Speech SDK em seu próprio sistema de registro.
  • Todas as linguagens de programação: PronunciationAssessmentConfig agora tem propriedades para definir o alfabeto fonema desejado (IPA ou SAPI) e N-Best Phoneme Count (evitando a necessidade de criar uma configuração JSON de acordo com a edição 1284 do GitHub). Além disso, a saída de nível de sílaba agora é suportada.
  • Android, iOS e macOS (todas as linguagens de programação): o GStreamer não é mais necessário para suportar redes de largura de banda limitada. O SpeechSynthesizer agora usa os recursos de decodificação de áudio do sistema operacional para decodificar áudio compactado transmitido do serviço de texto para fala.
  • Todas as linguagens de programação: SpeechSynthesizer agora suporta três novos formatos Opus de saída bruta (sem contêiner), que são amplamente utilizados em cenários de transmissão ao vivo.
  • JavaScript: Adicionada API getVoicesAsync() ao SpeechSynthesizer para recuperar a lista de vozes de síntese suportadas (edição 1350 do GitHub)
  • JavaScript: Adicionada API getWaveFormat() ao AudioStreamFormat para suportar formatos de onda não-PCM (edição 452 do GitHub)
  • JavaScript: Adicionadas APIs de getter/setter de volume e mute()/unmute() ao SpeakerAudioDestination (problema 463 do GitHub)

Correções de erros

  • C++, C#, Java, JavaScript, Objective-C e Swift: Correção para remover um atraso de 10 segundos ao parar um reconhecedor de fala que usa um PushAudioInputStream. Isso ocorre para o caso em que nenhum novo áudio é enviado depois que StopContinuousRecognition é chamado (edições 1318, 331 do GitHub)
  • Unity no Android e UWP: os metaarquivos Unity foram corrigidos para UWP, Android ARM64 e Windows Subsystem for Android (WSA) ARM64 (GitHub issue 1360)
  • iOS: Compilar seu aplicativo Speech SDK em qualquer dispositivo iOS ao usar o CocoaPods agora está corrigido (problema 1320 do GitHub)
  • iOS: Quando o SpeechSynthesizer está configurado para exportar áudio diretamente para um altifalante, a reprodução é interrompida no início em condições raras. Isso foi corrigido.
  • JavaScript: Use fallback do processador de script para entrada de microfone se nenhum worklet de áudio for encontrado (problema 455 do GitHub)
  • JavaScript: Adicionar protocolo ao agente para mitigar bugs encontrados com a integração do Sentry (edição 465 do GitHub)

Exemplos GitHub

  • Exemplos de C++, C#, Python e Java mostrando como obter resultados de reconhecimento detalhados. Os detalhes incluem resultados de reconhecimento alternativos, pontuação de confiança, forma lexical, forma normalizada, formulário normalizado mascarado, com tempo de nível de palavra para cada um.
  • Exemplo de iOS adicionado usando AVFoundation como fonte de áudio externa.
  • Exemplo Java adicionado para mostrar como obter o formato SRT (SubRip Text) usando o evento WordBorder.
  • Amostras Android para Avaliação de Pronúncia.
  • C++, C# mostrando o uso das novas classes de log de diagnóstico.

Speech SDK 1.19.0: versão de novembro de 2021

Destaques

  • O serviço de Reconhecimento de Oradores já está disponível em geral (GA). As APIs do SDK de fala estão disponíveis em C++, C#, Java e JavaScript. Com o Reconhecimento de Altifalantes, pode verificar e identificar com precisão os altifalantes pelas suas características de voz únicas. Para obter mais informações sobre este tópico, consulte a documentação.

  • Abandonamos o suporte para o Ubuntu 16.04 em conjunto com o Azure DevOps e o GitHub. O Ubuntu 16.04 chegou ao fim da vida útil em abril de 2021. Migre seus fluxos de trabalho do Ubuntu 16.04 para o Ubuntu 18.04 ou mais recente.

  • A vinculação OpenSSL em binários Linux mudou para dinâmica. O tamanho binário do Linux foi reduzido em cerca de 50%.

  • Adicionado suporte de silício baseado em ARM para Mac M1.

Novas funcionalidades

  • C++/C#/Java: Novas APIs adicionadas para habilitar o suporte ao processamento de áudio para entrada de fala com o Microsoft Audio Stack. Documentação aqui.

  • C++: Novas APIs para reconhecimento de intenção para facilitar a correspondência de padrões mais avançada. Isso inclui entidades List e Prebuilt Integer, bem como suporte para agrupar intenções e entidades como modelos (Documentação, atualizações e exemplos estão em desenvolvimento e serão publicados em um futuro próximo).

  • Mac: Suporte para silício baseado em ARM64 (M1) para pacotes CocoaPod, Python, Java e NuGet relacionados à edição 1244 do GitHub.

  • iOS/Mac: os binários do iOS e macOS agora são empacotados no xcframework relacionado ao problema 919 do GitHub.

  • iOS/Mac: Suporte para Mac catalyst relacionado ao problema 1171 do GitHub.

  • Linux: Novo pacote tar adicionado para o CentOS7 Sobre o Speech SDK. O pacote Linux .tar agora contém bibliotecas específicas para RHEL/CentOS 7 em lib/centos7-x64. As bibliotecas do SDK de fala na lib/x64 ainda são aplicáveis a todas as outras distribuições Linux x64 suportadas (incluindo RHEL/CentOS 8) e não funcionarão no RHEL/CentOS 7.

  • JavaScript: APIs VoiceProfile & SpeakerRecognizer tornadas assíncronas/esperadas.

  • JavaScript: Suporte adicionado para regiões do Azure do governo dos EUA.

  • Windows: Suporte adicionado para reprodução na Plataforma Universal do Windows (UWP).

Correções de erros

  • Android: Atualização de segurança OpenSSL (atualizada para a versão 1.1.1l) para pacotes Android.

  • Python: Bug resolvido onde a seleção de dispositivo de alto-falante em Python falha.

  • Core: reconecte-se automaticamente quando uma tentativa de conexão falhar.

  • iOS: Compressão de áudio desativada em pacotes iOS devido a instabilidade e problemas de compilação de código de bits ao usar o GStreamer. Os detalhes estão disponíveis na edição 1209 do GitHub.

Exemplos GitHub

  • Mac/iOS: Exemplos atualizados e inícios rápidos para usar o pacote xcframework.

  • .NET: Exemplos atualizados para usar a versão .NET core 3.1.

  • JavaScript: Adicionado exemplo para Assistentes de Voz.

Speech SDK 1.18.0: versão de julho de 2021

Nota: Comece a usar o SDK de fala aqui.

Resumo dos destaques

  • O Ubuntu 16.04 chegou ao fim da vida útil em abril de 2021. Com o Azure DevOps e o GitHub, descartaremos o suporte para a versão 16.04 em setembro de 2021. Migre fluxos de trabalho do ubuntu-16.04 para o ubuntu-18.04 ou mais recente antes disso.

Novas funcionalidades

  • C++: A correspondência de padrão de linguagem simples com o Reconhecedor de Intenção agora facilita a implementação de cenários simples de reconhecimento de intenção.
  • C++/C#/Java: Adicionamos uma nova API GetActivationPhrasesAsync() à VoiceProfileClient classe para receber uma lista de frases de ativação válidas na fase de registro de reconhecimento de alto-falante para cenários de reconhecimento independentes.
    • Importante: A funcionalidade de Reconhecimento de Oradores encontra-se em Pré-visualização. Todos os perfis de voz criados na Pré-visualização serão descontinuados 90 dias após a funcionalidade de Reconhecimento de Altifalantes ser movida da Pré-visualização para a Disponibilidade Geral. Nesse ponto, os perfis de voz de visualização deixarão de funcionar.
  • Python: Adicionado suporte para identificação contínua de linguagem (LID) nos objetos e TranslationRecognizer existentesSpeechRecognizer.
  • Python: Adicionado um novo objeto Python nomeado SourceLanguageRecognizer para fazer LID único ou contínuo (sem reconhecimento ou tradução).
  • JavaScript: getActivationPhrasesAsync API adicionada à VoiceProfileClient classe para receber uma lista de frases de ativação válidas na fase de inscrição de Reconhecimento de Orador para cenários de reconhecimento independentes.
  • A API do enrollProfileAsync JavaScriptVoiceProfileClient agora é assíncrona. Veja este código de identificação independente, por exemplo, uso.

Melhorias

  • Java: Suporte AutoCloseable adicionado a muitos objetos Java. Agora, o modelo try-with-resources é suportado para liberar recursos. Veja este exemplo que usa try-with-resources. Consulte também o tutorial de documentação do Oracle Java para The try-with-resources Statement para saber mais sobre esse padrão.
  • O espaço ocupado pelo disco foi significativamente reduzido para muitas plataformas e arquiteturas. Exemplos para o Microsoft.CognitiveServices.Speech.core binário: x64 Linux é 475KB menor (8,0% de redução); ARM64 Windows UWP é 464KB menor (11,5% de redução); x86 Windows é 343KB menor (17,5% de redução); e o Windows x64 é 451KB menor (redução de 19,4%).

Correções de erros

  • Java: Corrigido erro de síntese quando o texto de síntese contém caracteres substitutos. Detalhes aqui.
  • JavaScript: O processamento de áudio do microfone do navegador agora usa AudioWorkletNode em vez de preterido ScriptProcessorNode. Detalhes aqui.
  • JavaScript: mantenha corretamente as conversas vivas durante cenários de tradução de conversação de longa duração. Detalhes aqui.
  • JavaScript: Corrigido o problema com o reconhecedor reconectando-se a um fluxo de mídia em reconhecimento contínuo. Detalhes aqui.
  • JavaScript: Corrigido o problema com o reconhecedor reconectando-se a um pushStream em reconhecimento contínuo. Detalhes aqui.
  • JavaScript: Cálculo de deslocamento do nível de palavra corrigido em resultados de reconhecimento detalhados. Detalhes aqui.

Exemplos

  • Exemplos de início rápido Java atualizados aqui.
  • Exemplos de reconhecimento de alto-falante JavaScript atualizados para mostrar o novo uso do enrollProfileAsync(). Veja exemplos aqui.

Speech SDK 1.17.0: versão de maio de 2021

Nota

Comece a usar o SDK de fala aqui.

Resumo dos destaques

  • Menor espaço ocupado - continuamos a diminuir a memória e o espaço ocupado pelo disco do Speech SDK e seus componentes.
  • Uma nova API de identificação de idioma independente permite que você reconheça qual idioma está sendo falado.
  • Desenvolva aplicativos de realidade mista e jogos habilitados para fala usando Unity no macOS.
  • Agora você pode usar Text to speech, além do reconhecimento de fala da linguagem de programação Go.
  • Várias correções de bugs para resolver problemas que VOCÊ, nossos estimados clientes, sinalizou no GitHub! OBRIGADO! Mantenha o feedback chegando!

Novas funcionalidades

  • C++/C#: Novo At-Start autônomo e deteção contínua de idioma por meio da SourceLanguageRecognizer API. Se você quiser detetar apenas o(s) idioma(s) falado(s) no conteúdo de áudio, esta é a API para fazer isso. Veja detalhes para C++ e C#.
  • C++/C#: O Reconhecimento de Fala e o Reconhecimento de Tradução agora suportam a Identificação de Idioma inicial e contínua para que você possa determinar programaticamente quais idiomas estão sendo falados antes de serem transcritos ou traduzidos. Consulte a documentação aqui para Reconhecimento de Fala e aqui para Tradução de Fala.
  • C#: Adicionado suporte Unity para macOS (x64). Isso desbloqueia casos de uso de reconhecimento e síntese de fala em realidade mista e jogos!
  • Go: Adicionamos suporte para síntese de fala texto para fala à linguagem de programação Go para tornar a síntese de fala disponível em ainda mais casos de uso. Consulte o nosso guia de início rápido ou a nossa documentação de referência.
  • C++/C#/Java/Python/Objective-C/Go: O sintetizador de fala agora suporta o connection objeto. Isso ajuda você a gerenciar e monitorar a conexão com o serviço de Fala e é especialmente útil para pré-conectar para reduzir a latência. Consulte a documentação aqui.
  • C++/C#/Java/Python/Objective-C/Go: agora expomos a latência e o tempo SpeechSynthesisResult de execução insuficiente para ajudá-lo a monitorar e diagnosticar problemas de latência de síntese de fala. Veja detalhes para C++, C#, Java, Python, Objective-C e Go.
  • C++/C#/Java/Python/Objective-C: Text to speech agora usa vozes neurais por padrão quando você não especifica uma voz a ser usada. Isso oferece uma saída de fidelidade mais alta por padrão, mas também aumenta o preço padrão. Você pode especificar qualquer uma das nossas mais de 70 vozes padrão ou mais de 130 vozes neurais para alterar o padrão.
  • C++/C#/Java/Python/Objective-C/Go: adicionamos uma propriedade Gender às informações de voz de síntese para facilitar a seleção de vozes com base no gênero. Isso resolve o problema #1055 do GitHub.
  • C++, C#, Java, JavaScript: agora suportamos retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsynce getAllProfilesAsync() no Reconhecimento de Oradores para facilitar a gestão de utilizadores de todos os perfis de voz para uma determinada conta. Consulte a documentação para C++, C#, Java, JavaScript. Isso resolve o problema #338 do GitHub.
  • JavaScript: Adicionamos nova tentativa para falhas de conexão que tornarão seus aplicativos de fala baseados em JavaScript mais robustos.

Melhorias

  • Os binários do Linux e Android Speech SDK foram atualizados para usar a versão mais recente do OpenSSL (1.1.1k)
  • Melhorias no tamanho do código:
    • O Language Understanding agora está dividido em uma biblioteca "lu" separada.
    • O tamanho binário do núcleo x64 do Windows diminuiu 14,4%.
    • O tamanho binário do núcleo do Android ARM64 diminuiu 13,7%.
    • outros componentes também diminuíram de tamanho.

Correções de erros

  • Todos: Corrigido o problema #842 do GitHub para ServiceTimeout. Agora você pode transcrever arquivos de áudio longos usando o SDK de fala sem que a conexão com o serviço termine com esse erro. No entanto, ainda recomendamos que você use a transcrição em lote para arquivos longos.
  • C#: Corrigido o problema #947 do GitHub, em que nenhuma entrada de fala podia deixar seu aplicativo em mau estado.
  • Java: Corrigido o problema #997 do GitHub, em que o SDK de fala para Java 1.16 falhava ao usar o DialogServiceConnector sem uma conexão de rede ou uma chave de assinatura inválida.
  • Corrigida uma falha ao interromper abruptamente o reconhecimento de fala (por exemplo, usando CTRL+C no aplicativo de console).
  • Java: Adicionada uma correção para excluir arquivos temporários no Windows ao usar o Speech SDK for Java.
  • Java: Corrigido o problema #994 do GitHub, onde a chamada DialogServiceConnector.stopListeningAsync podia resultar em um erro.
  • Java: Corrigido um problema do cliente no início rápido do assistente virtual.
  • JavaScript: Corrigido o problema #366 do GitHub, onde ConversationTranslator se lançava um erro 'this.cancelSpeech isn't a function'.
  • JavaScript: Corrigido o problema #298 do GitHub, em que a amostra 'Obter resultado como um fluxo na memória' reproduzia som em voz alta.
  • JavaScript: Corrigido o problema #350 do GitHub, onde a chamada AudioConfig podia resultar em um 'ReferenceError: MediaStream não está definido'.
  • JavaScript: Corrigido um aviso UnhandledPromiseRejection no Node.js para sessões de longa duração.

Exemplos

  • Documentação de exemplos Unity atualizada para macOS aqui.
  • Um exemplo do React Native para o serviço de reconhecimento de voz do Azure AI agora está disponível aqui.

Speech SDK 1.16.0: versão de março de 2021

Nota

O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download aqui.

Novas funcionalidades

  • C++/C#/Java/Python: Movido para a versão mais recente do GStreamer (1.18.3) para adicionar suporte para transcrever qualquer formato de mídia no Windows, Linux e Android. Consulte a documentação aqui.
  • C++/C#/Java/Objective-C/Python: Adicionado suporte para decodificação de TTS/áudio sintetizado compactado para o SDK. Se você definir o formato de saída de áudio para PCM e o GStreamer estiver disponível em seu sistema, o SDK solicitará automaticamente áudio compactado do serviço para economizar largura de banda e decodificar o áudio no cliente. Você pode definir SpeechServiceConnection_SynthEnableCompressedAudioTransmission para false desativar esse recurso. Detalhes para C++, C#, Java, Objective-C, Python.
  • JavaScript: Node.js usuários agora podem usar a AudioConfig.fromWavFileInput API. Isso resolve o problema #252 do GitHub.
  • C++/C#/Java/Objective-C/Python: Método adicionado GetVoicesAsync() para TTS retornar todas as vozes de síntese disponíveis. Detalhes para C++, C#, Java, Objective-C e Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: Adicionado VisemeReceived evento para TTS/síntese de fala para retornar animação viseme síncrona. Consulte a documentação aqui.
  • C++/C#/Java/JavaScript/Objective-C/Python: Adicionado BookmarkReached evento para TTS. Você pode definir marcadores no SSML de entrada e obter os deslocamentos de áudio para cada marcador. Consulte a documentação aqui.
  • Java: Adicionado suporte para APIs de reconhecimento de alto-falante. Detalhes aqui.
  • C++/C#/Java/JavaScript/Objective-C/Python: Adicionados dois novos formatos de saída de áudio com contêiner WebM para TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Estes são melhores formatos para streaming de áudio com o codec Opus. Detalhes para C++, C#, Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: Adicionado suporte para recuperar perfil de voz para o cenário de Reconhecimento de Alto-falante. Detalhes para C++, C# e Java.
  • C++/C#/Java/Objective-C/Python: Adicionado suporte para biblioteca compartilhada separada para controle de microfone e alto-falante de áudio. Isso permite que o desenvolvedor use o SDK em ambientes que não têm dependências de biblioteca de áudio necessárias.
  • Objective-C/Swift: Adicionado suporte para framework de módulo com cabeçalho guarda-chuva. Isso permite que o desenvolvedor importe o Speech SDK como um módulo em aplicativos iOS/Mac Objective-C/Swift. Isso resolve o problema #452 do GitHub.
  • Python: Adicionado suporte para Python 3.9 e descartado o suporte para Python 3.5 por fim de vida útil do Python para 3.5.

Problemas conhecidos

  • C++/C#/Java: não é possível usar um CustomCommandsConfig para acessar um aplicativo de Comandos Personalizados e, em vez disso, DialogServiceConnector encontrará um erro de conexão. Isso pode ser resolvido adicionando manualmente o ID do aplicativo à solicitação com config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). O comportamento esperado de CustomCommandsConfig será restaurado na próxima versão.

Melhorias

  • Como parte de nosso esforço de várias versões para reduzir o uso de memória e o espaço ocupado pelo disco do SDK de fala, os binários do Android agora são de 3% a 5% menores.
  • Maior precisão, legibilidade e consulte também as seções de nossa documentação de referência em C# aqui.

Correções de erros

  • JavaScript: Cabeçalhos de arquivo WAV grandes agora são analisados corretamente (aumenta a fatia de cabeçalho para 512 bytes). Isso resolve o problema #962 do GitHub.
  • JavaScript: Corrigido o problema de temporização do microfone se o fluxo de microfone terminar antes de parar o reconhecimento, resolvendo um problema com o Reconhecimento de Fala não funcionando no Firefox.
  • JavaScript: agora lidamos corretamente com a promessa de inicialização quando o navegador força o microfone desligado antes que o turnOn seja concluído.
  • JavaScript: substituímos a dependência de URL por url-parse. Isso resolve o problema #264 do GitHub.
  • Android: Retornos de chamada fixos não funcionam quando minifyEnabled está definido como true.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY será corretamente definido como E/S de soquete subjacente para TTS para reduzir a latência.
  • C++/C#/Java/Python/Objective-C/Go: Corrigido um erro ocasional quando o reconhecedor era destruído logo após iniciar um reconhecimento.
  • C++/C#/Java: Corrigido um acidente ocasional na destruição do reconhecedor de alto-falantes.

Exemplos

  • JavaScript: As amostras de navegador não exigem mais o download de arquivos de biblioteca JavaScript separados.

Speech SDK 1.15.0: versão de janeiro de 2021

Nota

O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download aqui.

Resumo dos destaques

  • Menor espaço ocupado por memória e disco tornando o SDK mais eficiente.
  • Formatos de saída de maior fidelidade disponíveis para visualização privada de voz neural personalizada.
  • O Reconhecedor de Intenção agora pode obter retorno mais do que a intenção principal, dando-lhe a capacidade de fazer uma avaliação separada sobre a intenção do seu cliente.
  • Assistentes de voz e bots agora são mais fáceis de configurar, e você pode fazê-lo parar de ouvir imediatamente e exercer maior controle sobre como ele responde a erros.
  • Desempenho melhorado do dispositivo ao tornar a compressão opcional.
  • Use o SDK de fala no Windows ARM/ARM64.
  • Depuração de baixo nível melhorada.
  • O recurso Avaliação de Pronúncia está agora mais amplamente disponível.
  • Várias correções de bugs para resolver problemas que VOCÊ, nossos estimados clientes, sinalizou no GitHub! OBRIGADO! Mantenha o feedback chegando!

Melhorias

  • O SDK de fala agora é mais eficiente e leve. Iniciamos um esforço de várias versões para reduzir o uso de memória e o espaço ocupado pelo disco do SDK de fala. Como primeiro passo, fizemos reduções significativas no tamanho dos arquivos em bibliotecas compartilhadas na maioria das plataformas. Em comparação com a versão 1.14:
    • As bibliotecas do Windows compatíveis com UWP de 64 bits são cerca de 30% menores.
    • As bibliotecas de 32 bits do Windows ainda não estão vendo uma melhoria de tamanho.
    • As bibliotecas Linux são 20-25% menores.
    • As bibliotecas Android são 3-5% menores.

Novas funcionalidades

  • Todos: Novos formatos de saída de 48 KHz disponíveis para a visualização privada de voz neural personalizada através da API de síntese de fala TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Todos: A voz personalizada também é mais fácil de usar. Adicionado suporte para configuração de voz personalizada via EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Antes dessa alteração, os usuários de voz personalizados precisavam definir a URL do ponto de extremidade por meio do FromEndpoint método. Agora, os clientes podem usar o FromSubscription método como vozes pré-criadas e, em seguida, fornecer a ID de implantação definindo EndpointId. Isso simplifica a configuração de vozes personalizadas.
  • C++/C#/Java/Objective-C/Python: obtenha mais do que a intençãoIntentRecognizer principal. Ele agora suporta a configuração do resultado JSON contendo todas as intenções e não apenas a intenção de pontuação máxima via LanguageUnderstandingModel FromEndpoint método usando verbose=true o parâmetro uri. Isso resolve o problema #880 do GitHub. Consulte a documentação atualizada aqui.
  • C++/C#/Java: Faça com que seu assistente de voz ou bot pare de ouvir imediatamente. DialogServiceConnector (C++, C#, Java) agora tem um StopListeningAsync() método para acompanhar ListenOnceAsync(). Isso interromperá imediatamente a captura de áudio e esperará graciosamente por um resultado, tornando-o perfeito para uso com cenários de pressionar o botão "parar agora".
  • C++/C#/Java/JavaScript: faça com que seu assistente de voz ou bot reaja melhor aos erros subjacentes do sistema. DialogServiceConnector (C++, C#, Java, JavaScript) agora tem um novo TurnStatusReceived manipulador de eventos. Esses eventos opcionais correspondem a todas as ITurnContext resoluções no Bot e relatarão falhas de execução quando elas acontecerem, por exemplo, como resultado de uma exceção não tratada, tempo limite ou queda de rede entre o Direct Line Speech e o bot. TurnStatusReceived facilita a resposta a condições de falha. Por exemplo, se um bot demorar muito tempo em uma consulta de banco de dados de back-end (por exemplo, procurando um produto), TurnStatusReceived permite que o cliente saiba para solicitar novamente com "desculpe, eu não entendi isso, você poderia tentar novamente" ou algo semelhante.
  • C++/C#: Use o SDK de fala em mais plataformas. O pacote NuGet do SDK de Fala agora suporta binários nativos da área de trabalho ARM/ARM64 do Windows (a UWP já era suportada) para tornar o SDK de Fala mais útil em mais tipos de máquina.
  • Java: DialogServiceConnector agora tem um setSpeechActivityTemplate() método que foi involuntariamente excluído da linguagem anteriormente. Isso é equivalente a definir a Conversation_Speech_Activity_Template propriedade e solicitará que todas as atividades futuras do Bot Framework originadas pelo serviço Direct Line Speech mesclem o conteúdo fornecido em suas cargas JSON úteis.
  • Java: Depuração de baixo nível melhorada. A Connection classe agora tem um MessageReceived evento, semelhante a outras linguagens de programação (C++, C#). Esse evento fornece acesso de baixo nível aos dados de entrada do serviço e pode ser útil para diagnóstico e depuração.
  • JavaScript: Configuração mais fácil para assistentes de voz e bots através BotFrameworkConfigdo , que agora tem fromHost() métodos fromEndpoint() de fábrica que simplificam o uso de locais de serviço personalizados versus a configuração manual de propriedades. Também padronizamos a especificação opcional de usar um bot não padrão em todas as fábricas de botId configuração.
  • JavaScript: Melhorado no desempenho do dispositivo através da adição da propriedade de controle de cadeia de caracteres para compactação websocket. Por motivos de desempenho, desativamos a compactação de websocket por padrão. Isso pode ser reativado para cenários de baixa largura de banda. Mais detalhes aqui. Isso resolve o problema #242 do GitHub.
  • JavaScript: Adicionado suporte para lPronunciation Assessment para permitir a avaliação da pronúncia da fala. Veja o início rápido aqui.

Correções de erros

  • Tudo (exceto JavaScript): Corrigida uma regressão na versão 1.14, na qual muita memória era alocada pelo reconhecedor.
  • C++: Corrigido um problema de coleta de lixo com DialogServiceConnectoro , resolvendo o problema #794 do GitHub.
  • C#: Corrigido um problema com o desligamento de thread que fazia com que os objetos bloqueassem por cerca de um segundo quando descartados.
  • C++/C#/Java: Corrigida uma exceção que impedia um aplicativo de definir token de autorização de fala ou modelo de atividade mais de uma vez em um DialogServiceConnectorarquivo .
  • C++/C#/Java: Corrigida uma falha do reconhecedor devido a uma condição de corrida em teardown.
  • JavaScript: DialogServiceConnector não honrava anteriormente o parâmetro opcional botId especificado nas BotFrameworkConfigfábricas do . Isso tornou necessário definir o botId parâmetro de cadeia de caracteres de consulta manualmente para usar um bot não padrão. O bug foi corrigido e botId os valores fornecidos às BotFrameworkConfigfábricas da serão honrados e utilizados, incluindo os novos fromHost() e fromEndpoint() aditivos. Isso também se aplica ao applicationId parâmetro para CustomCommandsConfig.
  • JavaScript: Corrigido o problema #881 do GitHub, que permitia a reutilização do objeto reconhecedor.
  • JavaScript: Corrigido um problema em que o SKD enviava speech.config várias vezes em uma sessão TTS, desperdiçando largura de banda.
  • JavaScript: Tratamento simplificado de erros na autorização do microfone, permitindo que mensagens mais descritivas borbulhem quando o usuário não permite a entrada do microfone em seu navegador.
  • JavaScript: Corrigido o problema #249 do GitHub, em que erros de digitação e ConversationTranslatorConversationTranscriber causavam um erro de compilação para usuários do TypeScript.
  • Objective-C: Corrigido um problema em que a compilação do GStreamer falhava para iOS no Xcode 11.4, resolvendo o problema #911 do GitHub.
  • Python: Corrigido o problema #870 do GitHub, removendo "DeprecationWarning: o módulo imp foi preterido em favor do importlib".

Exemplos

SDK de fala 1.14.0: versão de outubro de 2020

Nota

O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download aqui.

Novas funcionalidades

  • Linux: Adicionado suporte para Debian 10 e Ubuntu 20.04 LTS.
  • Python/Objective-C: Adicionado suporte para a KeywordRecognizer API. A documentação estará aqui.
  • C++/Java/C#: Adicionado suporte para definir qualquer HttpHeader chave/valor via ServicePropertyChannel::HttpHeader.
  • JavaScript: Adicionado suporte para a ConversationTranscriber API. Leia a documentação aqui.
  • C++/C#: Adicionado novo AudioDataStream FromWavFileInput método (para ler . WAV) aqui (C++) e aqui (C#).
  • C++/C#/Java/Python/Objective-C/Swift: Adicionado um método para parar a stopSpeakingAsync() síntese de texto para fala. Leia a documentação de referência aqui (C++), aqui (C#), aqui (Java), aqui (Python) e aqui (Objective-C/Swift).
  • C#, C++, Java: Adicionada uma FromDialogServiceConnector() função à Connection classe que pode ser usada para monitorar eventos de conexão e desconexão para DialogServiceConnector. Leia a documentação de referência aqui (C#), aqui (C++) e aqui (Java).
  • C++/C#/Java/Python/Objective-C/Swift: Adicionado suporte para Avaliação de Pronúncia, que avalia a pronúncia da fala e dá feedback aos falantes sobre a precisão e fluência do áudio falado. Leia a documentação aqui.

Quebrando a mudança

  • JavaScript: PullAudioOutputStream.read() tem uma alteração de tipo de retorno de uma Promise interna para uma Native JavaScript Promise.

Correções de erros

  • Todos: Regressão 1.13 corrigida em SetServiceProperty que os valores com determinados caracteres especiais eram ignorados.
  • C#: Corrigidos exemplos de console do Windows no Visual Studio 2019 que não conseguiram localizar DLLs nativas.
  • C#: Corrigida falha com gerenciamento de memória se o fluxo for usado como KeywordRecognizer entrada.
  • ObjectiveC/Swift: Falha corrigida com gerenciamento de memória se o fluxo for usado como entrada de reconhecimento.
  • Windows: Corrigido o problema de coexistência com BT HFP/A2DP na UWP.
  • JavaScript: Corrigido o mapeamento de IDs de sessão para melhorar o registro em log e ajudar nas correlações internas de depuração/serviço.
  • JavaScript: Adicionada correção para DialogServiceConnector desabilitar ListenOnce chamadas após a primeira chamada.
  • JavaScript: Corrigido problema em que a saída do resultado seria apenas "simples".
  • JavaScript: Corrigido o problema de reconhecimento contínuo no Safari no macOS.
  • JavaScript: mitigação de carga da CPU para cenário de alta taxa de transferência de solicitações.
  • JavaScript: Permite acesso aos detalhes do resultado do Registro de Perfil de Voz.
  • JavaScript: Adicionada correção para reconhecimento contínuo no IntentRecognizer.
  • C++/C#/Java/Python/Swift/ObjectiveC: Corrigido url incorreto para australiaeast e brazilsouth em IntentRecognizer.
  • C++/C#: Adicionado VoiceProfileType como um argumento ao criar um VoiceProfile objeto.
  • C++/C#/Java/Python/Swift/ObjectiveC: Potencial SPX_INVALID_ARG fixo ao tentar ler AudioDataStream a partir de uma determinada posição.
  • IOS: Falha corrigida com reconhecimento de fala no Unity

Exemplos

Problema Conhecido

  • O certificado DigiCert Global Root G2 não é suportado por padrão no HoloLens 2 e Android 4.4 (KitKat) e precisa ser adicionado ao sistema para tornar o SDK de fala funcional. O certificado será adicionado às imagens do sistema operacional HoloLens 2 em um futuro próximo. Os clientes do Android 4.4 precisam adicionar o certificado atualizado ao sistema.

Testes abreviados à COVID-19

Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!

Speech SDK 1.13.0: versão de julho de 2020

Nota

O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download e instale-o a partir daqui.

Novas funcionalidades

  • C#: Adicionado suporte para transcrição assíncrona de conversas. Consulte a documentação aqui.
  • JavaScript: Adicionado suporte de reconhecimento de alto-falante para navegador e Node.js.
  • JavaScript: Adicionado suporte para identificação de idioma/ID de idioma. Consulte a documentação aqui.
  • Objective-C: Adicionado suporte para conversação em vários dispositivos e transcrição de conversas.
  • Python: Adicionado suporte de áudio comprimido para Python no Windows e Linux. Consulte a documentação aqui.

Correções de erros

  • Todos: Corrigido um problema que fazia com que o KeywordRecognizer não avançasse os fluxos após um reconhecimento.
  • Todos: Corrigido um problema que fazia com que o fluxo obtido de um KeywordRecognitionResult não contivesse a palavra-chave.
  • Todos: Corrigido um problema que o SendMessageAsync realmente não envia a mensagem pelo fio depois que os usuários terminam de esperar por ela.
  • Todos: Corrigida uma falha nas APIs de reconhecimento de alto-falante quando os usuários chamam o método VoiceProfileClient::SpeakerRecEnrollProfileAsync várias vezes e não esperaram que as chamadas terminassem.
  • Todos: Corrigido habilitar o registro de arquivos nas classes VoiceProfileClient e SpeakerRecognizer.
  • JavaScript: Corrigido um problema com a limitação quando o navegador é minimizado.
  • JavaScript: Corrigido um problema com uma fuga de memória em fluxos.
  • JavaScript: Adicionado cache para respostas OCSP do NodeJS.
  • Java: Corrigido um problema que fazia com que os campos BigInteger sempre retornassem 0.
  • iOS: Corrigido um problema com a publicação de aplicações baseadas no Speech SDK na iOS App Store.

Exemplos

  • C++: Adicionado código de exemplo para reconhecimento de alto-falante aqui.

Testes abreviados à COVID-19

Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!

SDK de fala 1.12.1: versão de 2020 a junho

Novas funcionalidades

  • C#, C++: Visualização de reconhecimento de alto-falante: esse recurso permite a identificação do orador (quem está falando?) e a verificação do orador (o orador é quem ele afirma ser?). Comece com uma visão geral, leia o artigo Noções básicas de reconhecimento de alto-falante ou os documentos de referência da API.

Correções de erros

  • C#, C++: A gravação do microfone fixo não estava funcionando na versão 1.12 no Reconhecimento de alto-falantes.
  • JavaScript: Correções para conversão de texto em fala no Firefox e Safari no macOS e iOS.
  • Correção para falha de violação de acesso do verificador de aplicativos do Windows na transcrição de conversas ao usar fluxo de oito canais.
  • Correção para falha de violação de acesso do verificador de aplicativos do Windows na tradução de conversação em vários dispositivos.

Exemplos

Testes abreviados à COVID-19

Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!

Speech SDK 1.12.0: versão de maio de 2020

Novas funcionalidades

  • Go: Novo suporte ao idioma Go para Reconhecimento de Fala e assistente de voz personalizado. Configure seu ambiente de desenvolvimento aqui. Para obter um código de exemplo, consulte a seção Exemplos abaixo.
  • JavaScript: Adicionado suporte do navegador para conversão de texto em fala. Consulte a documentação aqui.
  • C++, C#, Java: Novo KeywordRecognizer objeto e APIs suportados nas plataformas Windows, Android, Linux ou iOS. Leia a documentação aqui. Para obter um código de exemplo, consulte a seção Exemplos abaixo.
  • Java: Adicionada conversação multi-dispositivo com suporte de tradução. Veja o documento de referência aqui.

Melhorias e otimizações

  • JavaScript: Implementação otimizada do microfone do navegador melhorando a precisão do reconhecimento de fala.
  • Java: Ligações refatoradas usando implementação JNI direta sem SWIG. Essa alteração reduz em 10x o tamanho das ligações para todos os pacotes Java usados para Windows, Android, Linux e Mac e facilita o desenvolvimento da implementação Java do Speech SDK.
  • Linux: Documentação de suporte atualizada com as notas específicas mais recentes do RHEL 7.
  • Lógica de conexão aprimorada para tentar se conectar várias vezes quando ocorrem erros de serviço e rede.
  • Atualizada a página de Início Rápido de Fala do portal.azure.com para ajudar os desenvolvedores a dar o próximo passo na jornada de Fala da IA do Azure.

Correções de erros

  • C#, Java: Corrigido um problema com o carregamento de bibliotecas SDK no Linux ARM (32 bits e 64 bits).
  • C#: Eliminação explícita fixa de identificadores nativos para objetos TranslationRecognizer, IntentRecognizer e Connection.
  • C#: Gerenciamento fixo do tempo de vida da entrada de áudio para o objeto ConversationTranscriber.
  • Corrigido um problema em que IntentRecognizer o motivo do resultado não era definido corretamente ao reconhecer intenções de frases simples.
  • Corrigido um problema em que SpeechRecognitionEventArgs o deslocamento de resultados não estava definido corretamente.
  • Corrigida uma condição de corrida em que o SDK tentava enviar uma mensagem de rede antes de abrir a conexão websocket. Foi reprodutível durante a TranslationRecognizer adição de participantes.
  • Corrigidas fugas de memória no motor de reconhecimento de palavras-chave.

Exemplos

Testes abreviados à COVID-19

Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. Se perdemos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!

Speech SDK 1.11.0: versão de março de 2020

Novas funcionalidades

  • Linux: Adicionado suporte para Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 com instruções sobre como configurar o sistema para o Speech SDK.
  • Linux: Adicionado suporte para .NET Core C# no Linux ARM32 e ARM64. Leia mais aqui.
  • C#, C++: Adicionado UtteranceId no ConversationTranscriptionResult, um ID consistente em todos os intermediários e o resultado final do reconhecimento de fala. Detalhes para C#, C++.
  • Python: Adicionado suporte para Language ID. Veja speech_sample.py no repositório GitHub.
  • Windows: Adicionado suporte ao formato de entrada de áudio comprimido na plataforma Windows para todas as aplicações de consola win32. Detalhes aqui.
  • JavaScript: Suporta síntese de fala (texto para fala) em NodeJS. Saiba mais aqui.
  • JavaScript: Adicione novas APIs para permitir a inspeção de todas as mensagens enviadas e recebidas. Saiba mais aqui.

Correções de erros

  • C#, C++: Corrigido um problema, então SendMessageAsync agora envia mensagem binária como tipo binário. Detalhes para C#, C++.
  • C#, C++: Corrigido um problema em que o uso do Connection MessageReceived evento pode causar falha se Recognizer for descartado antes Connection do objeto. Detalhes para C#, C++.
  • Android: O tamanho do buffer de áudio do microfone diminuiu de 800 ms para 100 ms para melhorar a latência.
  • Android: Corrigido um problema com o emulador Android x86 no Android Studio.
  • JavaScript: Adicionado suporte para regiões na China com a fromSubscription API. Detalhes aqui.
  • JavaScript: Adicione mais informações de erro para falhas de conexão do NodeJS.

Exemplos

  • Unidade: A amostra pública de reconhecimento de intenção é corrigida, onde a importação json do LUIS estava falhando. Detalhes aqui.
  • Python: Exemplo adicionado para Language ID. Detalhes aqui.

Testes abreviados de Covid19: Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes manuais de verificação de dispositivos como normalmente fazemos. Por exemplo, não foi possível testar a entrada do microfone e a saída do alto-falante no Linux, iOS e macOS. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada nessas plataformas, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, informe-nos no GitHub.
Obrigado pelo vosso apoio contínuo. Como sempre, poste perguntas ou comentários sobre o GitHub ou o Stack Overflow.
Mantenha-se saudável!

Speech SDK 1.10.0: versão de fevereiro de 2020

Novas funcionalidades

  • Adicionados pacotes Python para suportar a nova versão 3.8 do Python.
  • Suporte ao Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

    Nota

    Os clientes devem configurar o OpenSSL de acordo com estas instruções.

  • Suporte Linux ARM32 para Debian e Ubuntu.
  • DialogServiceConnector agora suporta um parâmetro opcional "bot ID" em BotFrameworkConfig. Este parâmetro permite o uso de vários bots de Fala de Linha Direta com um único recurso de Fala. Sem o parâmetro especificado, o bot padrão (conforme determinado pela página de configuração do canal Direct Line Speech) será usado.
  • DialogServiceConnector agora tem uma propriedade SpeechActivityTemplate. O conteúdo dessa cadeia de caracteres JSON será usado pelo Direct Line Speech para preencher previamente uma ampla variedade de campos suportados em todas as atividades que atingem um bot Direct Line Speech, incluindo atividades geradas automaticamente em resposta a eventos como reconhecimento de fala.
  • O TTS agora usa a chave de assinatura para autenticação, reduzindo a latência do primeiro byte do primeiro resultado de síntese após a criação de um sintetizador.
  • Modelos de reconhecimento de fala atualizados para 19 localidades para uma redução média da taxa de erro de palavras de 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Os novos modelos trazem melhorias significativas em vários domínios, incluindo cenários de ditado, transcrição de call center e indexação de vídeo.

Correções de erros

  • Corrigido o bug em que o Transcritor de Conversas não aguardava corretamente nas APIs do JAVA
  • Correção do emulador Android x86 para o problema do Xamarin GitHub
  • Adicionar ausente (Get|Set)Property métodos para AudioConfig
  • Corrigir um bug TTS em que o audioDataStream não pôde ser interrompido quando a conexão falhou
  • Usar um ponto de extremidade sem uma região causaria falhas na USP para o tradutor de conversação
  • A geração de ID em Aplicativos Universais do Windows agora usa um algoritmo GUID apropriado e exclusivo; Anteriormente, e involuntariamente, ele usava uma implementação obstinada que muitas vezes produzia colisões em grandes conjuntos de interações.

Exemplos

Outras alterações

Speech SDK 1.9.0: versão de janeiro de 2020

Novas funcionalidades

  • Conversação multidispositivo: conecte vários dispositivos à mesma fala ou conversa baseada em texto e, opcionalmente, traduza mensagens enviadas entre eles. Saiba mais neste artigo.
  • Suporte de reconhecimento de palavras-chave adicionado para o pacote Android .aar e adicionado suporte para os sabores x86 e x64.
  • Objective-C: SendMessage e SetMessageProperty métodos adicionados ao Connection objeto. Consulte a documentação aqui.
  • A API TTS C++ agora suporta std::wstring como entrada de texto de síntese, removendo a necessidade de converter um wstring em string antes de passá-lo para o SDK. Veja mais detalhes aqui.
  • C#: ID do idioma e configuração do idioma de origem já estão disponíveis.
  • JavaScript: Adicionado um recurso ao Connection objeto para passar mensagens personalizadas do serviço de Fala como retorno receivedServiceMessagede chamada.
  • JavaScript: Adicionado suporte para FromHost API facilitar o uso com contêineres locais e nuvens soberanas. Consulte a documentação aqui.
  • JavaScript: Agora honramos NODE_TLS_REJECT_UNAUTHORIZED graças a uma contribuição de orgads. Veja mais detalhes aqui.

Mudanças significativas

  • OpenSSL foi atualizado para a versão 1.1.1b e está estaticamente vinculado à biblioteca principal do Speech SDK para Linux. Isso pode causar uma quebra se sua /usr/lib/ssl caixa OpenSSL de entrada não tiver sido instalada no diretório do sistema. Consulte a nossa documentação em Documentos do SDK de Fala para contornar o problema.
  • Alteramos o tipo de dados retornado para C# WordLevelTimingResult.Offset de para long permitir o acesso a quando os WordLevelTimingResults dados de int fala tiverem mais de 2 minutos.
  • PushAudioInputStream e PullAudioInputStream agora envie informações de cabeçalho wav para o serviço de Fala com base em AudioStreamFormat, opcionalmente especificado quando eles foram criados. Os clientes agora devem usar o formato de entrada de áudio suportado. Quaisquer outros formatos obterão resultados de reconhecimento abaixo do ideal ou poderão causar outros problemas.

Correções de erros

  • Consulte a OpenSSL atualização em Alterações de quebra acima. Corrigimos uma falha intermitente e um problema de desempenho (contenção de bloqueio sob alta carga) em Linux e Java.
  • Java: Melhorias feitas no fechamento de objetos em cenários de alta simultaneidade.
  • Reestruturou nosso pacote NuGet. Removemos as três cópias de Microsoft.CognitiveServices.Speech.core.dll e Microsoft.CognitiveServices.Speech.extension.kws.dll sob pastas lib, tornando o pacote NuGet menor e mais rápido para download, e adicionamos cabeçalhos necessários para compilar alguns aplicativos nativos do C++.
  • Amostras de início rápido corrigidas aqui. Estes estavam saindo sem exibir a exceção "microfone não encontrado" no Linux, macOS, Windows.
  • Corrigida falha do SDK com resultados longos de reconhecimento de fala em determinados caminhos de código como este exemplo.
  • Corrigido erro de implantação do SDK no ambiente do Aplicativo Web do Azure para resolver esse problema do cliente.
  • Corrigido um erro TTS ao usar várias <voice> tags ou <audio> tags para resolver esse problema do cliente.
  • Corrigido um erro TTS 401 quando o SDK é recuperado da suspensão.
  • JavaScript: Corrigida uma importação circular de dados de áudio graças a uma contribuição do euirim.
  • JavaScript: adicionado suporte para definir propriedades de serviço, conforme adicionado na versão 1.7.
  • JavaScript: corrigido um problema em que um erro de conexão poderia resultar em tentativas contínuas e malsucedidas de reconexão do websocket.

Exemplos

  • Adicionado exemplo de reconhecimento de palavra-chave para Android aqui.
  • Adicionado exemplo de TTS para o cenário de servidor aqui.
  • Adicionados inícios rápidos de conversação em vários dispositivos para C# e C++ aqui.

Outras alterações

  • Tamanho otimizado da biblioteca principal do SDK no Android.
  • O SDK na versão 1.9.0 e posteriores suporta ambos e intstring tipos no campo de versão de assinatura de voz para o Transcritor de Conversa.

Speech SDK 1.8.0: versão de novembro de 2019

Novas funcionalidades

  • Adicionada uma FromHost() API, para facilitar o uso com contêineres locais e nuvens soberanas.
  • Adicionada identificação de idioma de origem para reconhecimento de fala (em Java e C++)
  • Adicionado SourceLanguageConfig objeto para Reconhecimento de Fala, usado para especificar linguagens de origem esperadas (em Java e C++)
  • Adicionado KeywordRecognizer suporte em Windows (UWP), Android e iOS através dos pacotes NuGet e Unity
  • Adicionada API Java de Conversação Remota para fazer Transcrição de Conversação em lotes assíncronos.

Mudanças significativas

  • Funcionalidades do transcritor de conversação movidas sob namespace Microsoft.CognitiveServices.Speech.Transcription.
  • Partes dos métodos do Transcritor de Conversação são movidas para uma nova Conversation classe.
  • Caiu o suporte para iOS de 32 bits (ARMv7 e x86)

Correções de erros

  • Correção de falha se local KeywordRecognizer for usado sem uma chave de assinatura válida do serviço de Fala

Exemplos

  • Exemplo de Xamarin para KeywordRecognizer
  • Amostra de unidade para KeywordRecognizer
  • Exemplos de C++ e Java para identificação automática da linguagem de origem.

Speech SDK 1.7.0: versão de setembro de 2019

Novas funcionalidades

  • Adicionado suporte beta para Xamarin na Plataforma Universal do Windows (UWP), Android e iOS
  • Adicionado suporte iOS para Unity
  • Adicionado Compressed suporte de entrada para ALaw, Mulaw, FLAC, Android, iOS e Linux
  • Adicionado SendMessageAsync na Connection classe para enviar uma mensagem ao serviço
  • Adicionado SetMessageProperty na Connection classe para definir a propriedade de uma mensagem
  • O TTS adicionou ligações para Java (JRE e Android), Python, Swift e Objective-C
  • TTS adicionou suporte de reprodução para macOS, iOS e Android.
  • Adicionadas informações de "limite de palavras" para TTS.

Correções de erros

  • Corrigido o problema de compilação IL2CPP no Unity 2019 para Android
  • Corrigido o problema com cabeçalhos malformados na entrada de arquivo wav sendo processados incorretamente
  • Corrigido o problema com UUIDs não sendo exclusivos em algumas propriedades de conexão
  • Corrigidos alguns avisos sobre especificadores de anulabilidade nas ligações Swift (podem exigir pequenas alterações de código)
  • Corrigido um bug que fazia com que as conexões websocket fossem fechadas ingraciosamente sob carga de rede
  • Corrigido um problema no Android que, por vezes, resultava em IDs de impressão duplicados utilizados por DialogServiceConnector
  • Melhorias na estabilidade das conexões em interações multiturno e no relatório de falhas (via Canceled eventos) quando ocorrem com DialogServiceConnector
  • DialogServiceConnector Os inícios de sessão agora fornecerão eventos corretamente, inclusive ao chamar ListenOnceAsync() durante um ativo StartKeywordRecognitionAsync()
  • Resolução de uma falha associada a DialogServiceConnector atividades recebidas

Exemplos

  • Guia de início rápido para Xamarin
  • Guia de início rápido CPP atualizado com informações do Linux ARM64
  • Guia de início rápido atualizado do Unity com informações do iOS

Speech SDK 1.6.0: versão de junho de 2019

Exemplos

  • Exemplos de início rápido para conversão de texto em fala na UWP e no Unity
  • Exemplo de início rápido para Swift no iOS
  • Exemplos Unity para Reconhecimento de Fala e Intenção e Tradução
  • Exemplos de início rápido atualizados para DialogServiceConnector

Melhorias / Alterações

  • Namespace da caixa de diálogo:
    • SpeechBotConnector mudou de nome para DialogServiceConnector
    • BotConfig mudou de nome para DialogServiceConfig
    • BotConfig::FromChannelSecret() foi remapeado para DialogServiceConfig::FromBotSecret()
    • Todos os clientes de Direct Line Speech existentes continuam a ser suportados após a mudança de nome
  • Atualize o adaptador TTS REST para suportar proxy e conexão persistente
  • Melhorar a mensagem de erro quando uma região inválida é passada
  • Swift/Objectivo-C:
    • Relatório de erros aprimorado: os métodos que podem resultar em um erro agora estão presentes em duas versões: uma que expõe um NSError objeto para tratamento de erros e outra que gera uma exceção. Os primeiros estão expostos a Swift. Esta alteração requer adaptações ao código Swift existente.
    • Tratamento de eventos melhorado

Correções de erros

  • Correção para TTS: onde SpeakTextAsync o futuro retornou sem esperar até que o áudio tenha concluído a renderização
  • Correção para empacotar cadeias de caracteres em C# para habilitar o suporte total a idiomas
  • Correção para o problema do aplicativo principal do .NET para carregar a biblioteca principal com a estrutura de destino net461 em exemplos
  • Correção de problemas ocasionais para implantar bibliotecas nativas na pasta de saída em exemplos
  • Correção para fechamento de soquete da Web de forma confiável
  • Correção para possível falha ao abrir uma conexão sob carga pesada no Linux
  • Correção para metadados ausentes no pacote de estrutura para macOS
  • Correção para problemas com pip install --user no Windows

SDK de fala 1.5.1

Esta é uma versão de correção de bug e afeta apenas o SDK nativo/gerenciado. Isso não está afetando a versão JavaScript do SDK.

Correções de erros

  • Corrija FromSubscription quando usado com a transcrição de conversa.
  • Corrija bug na deteção de palavras-chave para Assistentes de Voz.

Speech SDK 1.5.0: versão de maio de 2019

Novas funcionalidades

  • Keyword spotting (KWS) já está disponível para Windows e Linux. A funcionalidade KWS pode funcionar com qualquer tipo de microfone, no entanto, o suporte oficial do KWS está atualmente limitado às matrizes de microfone encontradas no hardware do Azure Kinect DK ou no SDK de Dispositivos de Fala.
  • A funcionalidade de dica de frase está disponível através do SDK. Para obter mais informações, veja aqui.
  • A funcionalidade de transcrição de conversas está disponível através do SDK.
  • Adicione suporte para Assistentes de Voz usando o canal Direct Line Speech.

Exemplos

  • Exemplos adicionados para novos recursos ou novos serviços suportados pelo SDK.

Melhorias / Alterações

  • Adicionadas várias propriedades do reconhecedor para ajustar o comportamento do serviço ou os resultados do serviço (como mascarar palavrões e outros).
  • Agora você pode configurar o reconhecedor por meio das propriedades de configuração padrão, mesmo que tenha criado o reconhecedor FromEndpoint.
  • Objective-C: OutputFormat propriedade foi adicionada ao SPXSpeechConfiguration.
  • O SDK agora suporta Debian 9 como uma distribuição Linux.

Correções de erros

  • Corrigido um problema em que o recurso de orador era destruído demasiado cedo na conversão de texto em voz.

SDK de fala 1.4.2

Esta é uma versão de correção de bug e afeta apenas o SDK nativo/gerenciado. Isso não está afetando a versão JavaScript do SDK.

SDK de fala 1.4.1

Esta é uma versão somente JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:

  • Impeça que o pacote da Web carregue https-proxy-agent.

Speech SDK 1.4.0: versão de abril de 2019

Novas funcionalidades

  • O SDK agora suporta o serviço de conversão de texto em fala como uma versão beta. É suportado em Windows e Linux Desktop a partir de C++ e C#. Para obter mais informações, consulte a Visão geral de texto para fala.
  • O SDK agora suporta arquivos de áudio MP3 e Opus/OGG como arquivos de entrada de fluxo. Este recurso está disponível apenas no Linux a partir de C++ e C# e está atualmente em versão beta (mais detalhes aqui).
  • O Speech SDK para Java, .NET core, C++ e Objective-C ganharam suporte para macOS. O suporte Objective-C para macOS está atualmente em beta.
  • iOS: O Speech SDK para iOS (Objective-C) agora também é publicado como um CocoaPod.
  • JavaScript: Suporte para microfone não padrão como dispositivo de entrada.
  • JavaScript: Suporte de proxy para Node.js.

Exemplos

  • Foram adicionados exemplos para usar o Speech SDK com C++ e com Objective-C no macOS.
  • Foram adicionados exemplos que demonstram a utilização do serviço Conversão de texto em voz.

Melhorias / Alterações

  • Python: Propriedades adicionais dos resultados de reconhecimento agora são expostas por meio da properties propriedade.
  • Para suporte adicional de desenvolvimento e depuração, você pode redirecionar as informações de log e diagnóstico do SDK para um arquivo de log (mais detalhes aqui).
  • JavaScript: Melhore o desempenho do processamento de áudio.

Correções de erros

  • Mac/iOS: Foi corrigido um bug que levava a uma longa espera quando não era possível estabelecer uma ligação ao serviço de Voz.
  • Python: melhorar o tratamento de erros para argumentos em retornos de chamada Python.
  • JavaScript: Corrigido relatório de estado errado para fala terminada em RequestSession.

SDK de fala 1.3.1: atualização de fevereiro de 2019

Esta é uma versão de correção de bug e afeta apenas o SDK nativo/gerenciado. Isso não está afetando a versão JavaScript do SDK.

Correção de bugs

  • Corrigido um vazamento de memória ao usar a entrada do microfone. A entrada baseada em fluxo ou de arquivo não é afetada.

Speech SDK 1.3.0: versão de fevereiro de 2019

Novas funcionalidades

  • O SDK de fala suporta a seleção do microfone de entrada através da AudioConfig classe. Isso permite que você transmita dados de áudio para o serviço de fala a partir de um microfone não padrão. Para obter mais informações, consulte a documentação que descreve a seleção de dispositivos de entrada de áudio. Esse recurso ainda não está disponível em JavaScript.
  • O SDK de fala agora suporta Unity em uma versão beta. Forneça comentários por meio da seção de problemas no repositório de exemplo do GitHub. Esta versão suporta Unity no Windows x86 e x64 (desktop ou aplicativos da Plataforma Universal do Windows) e Android (ARM32/64, x86). Mais informações estão disponíveis em nosso guia de início rápido Unity.
  • O arquivo Microsoft.CognitiveServices.Speech.csharp.bindings.dll (enviado em versões anteriores) não é mais necessário. A funcionalidade agora está integrada ao SDK principal.

Exemplos

O novo conteúdo a seguir está disponível em nosso repositório de exemplo:

  • Amostras adicionais para AudioConfig.FromMicrophoneInput.
  • Exemplos adicionais de Python para reconhecimento e tradução de intenção.
  • Exemplos adicionais para usar o Connection objeto no iOS.
  • Amostras Java adicionais para tradução com saída de áudio.
  • Novo exemplo para uso da API REST de transcrição em lote.

Melhorias / Alterações

  • Píton
    • Verificação de parâmetros e mensagens de erro aprimoradas no SpeechConfig.
    • Adicione suporte para o Connection objeto.
    • Suporte para Python de 32 bits (x86) no Windows.
    • O SDK de Fala para Python está fora da versão beta.
  • iOS
    • O SDK agora é construído com base no iOS SDK versão 12.1.
    • O SDK agora suporta iOS versões 9.2 e posteriores.
    • Melhore a documentação de referência e corrija vários nomes de propriedades.
  • JavaScript
    • Adicione suporte para o Connection objeto.
    • Adicionar arquivos de definição de tipo para JavaScript incluído
    • Suporte inicial e implementação para dicas de frases.
    • Retornar a coleção de propriedades com o serviço JSON para reconhecimento
  • As DLLs do Windows agora contêm um recurso de versão.
  • Se você criar um reconhecedor FromEndpoint, poderá adicionar parâmetros diretamente à URL do ponto de extremidade. Usando FromEndpoint você não pode configurar o reconhecedor através das propriedades de configuração padrão.

Correções de erros

  • O nome de usuário e a senha do proxy vazios não foram tratados corretamente. Com esta versão, se você definir o nome de usuário e a senha do proxy para uma cadeia de caracteres vazia, eles não serão enviados ao se conectar ao proxy.
  • Os SessionId's criados pelo SDK nem sempre foram verdadeiramente aleatórios para algumas linguagens / ambientes. Adicionada inicialização aleatória do gerador para corrigir esse problema.
  • Melhore o tratamento do token de autorização. Se você quiser usar um token de autorização, especifique e SpeechConfig deixe a chave de assinatura vazia. Em seguida, crie o reconhecedor como de costume.
  • Em alguns casos, o objeto não foi liberado Connection corretamente. Esse problema foi corrigido.
  • A amostra JavaScript foi corrigida para suportar saída de áudio para síntese de tradução também no Safari.

SDK de fala 1.2.1

Esta é uma versão somente JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:

  • Fire end do fluxo em turn.end, não em speech.end.
  • Corrija um bug na bomba de áudio que não agendava o próximo envio se o envio atual falhasse.
  • Corrija o reconhecimento contínuo com o token de autenticação.
  • Correção de bugs para diferentes reconhecedores / endpoints.
  • Melhorias na documentação.

Speech SDK 1.2.0: versão de dezembro de 2018

Novas funcionalidades

  • Píton
    • A versão Beta do suporte Python (3.5 e superior) está disponível com esta versão. Para mais informações, ver aqui](.. /.. /quickstart-python.md).
  • JavaScript
    • O SDK de Fala para JavaScript foi de código aberto. O código-fonte está disponível no GitHub.
    • Agora apoiamos Node.js, mais informações podem ser encontradas aqui.
    • A restrição de duração para sessões de áudio foi removida, a reconexão acontecerá automaticamente sob a cobertura.
  • Connection objeto
    • A partir do Recognizer, você pode acessar um Connection objeto. Este objeto permite que você inicie explicitamente a conexão de serviço e se inscreva para conectar e desconectar eventos. (Este recurso ainda não está disponível em JavaScript e Python.)
  • Suporte para Ubuntu 18.04.
  • Androide
    • Suporte ProGuard ativado durante a geração APK.

Melhorias

  • Melhorias no uso de threads internos, reduzindo o número de threads, bloqueios, mutexes.
  • Relatórios / informações de erros melhorados. Em vários casos, as mensagens de erro não foram propagadas até o fim.
  • Dependências de desenvolvimento atualizadas em JavaScript para usar módulos atualizados.

Correções de erros

  • Corrigidas fugas de memória devido a uma incompatibilidade de tipos no RecognizeAsync.
  • Em alguns casos, foram vazadas exceções.
  • Correção de vazamento de memória em argumentos de evento de tradução.
  • Corrigido um problema de bloqueio na reconexão em sessões de longa duração.
  • Corrigido um problema que poderia levar à falta do resultado final por traduções com falha.
  • C#: Se uma async operação não era esperada no thread principal, era possível que o reconhecedor pudesse ser descartado antes que a tarefa assíncrona fosse concluída.
  • Java: Corrigido um problema que resultava em uma falha da Java VM.
  • Objetivo-C: Mapeamento de enum fixo; RecognizedIntent foi devolvido em vez de RecognizingIntent.
  • JavaScript: defina o formato de saída padrão como 'simples' em SpeechConfig.
  • JavaScript: Removendo a inconsistência entre propriedades no objeto config em JavaScript e outras linguagens.

Exemplos

  • Atualizado e corrigido vários exemplos (por exemplo, vozes de saída para tradução, etc.).
  • Adicionado Node.js amostras no repositório de exemplos.

SDK de fala 1.1.0

Novas funcionalidades

  • Suporte para Android x86/x64.
  • Suporte a proxy: No SpeechConfig objeto, agora você pode chamar uma função para definir as informações de proxy (nome do host, porta, nome de usuário e senha). Esta funcionalidade ainda não está disponível no iOS.
  • Código de erro e mensagens melhorados. Se um reconhecimento retornou um erro, ele já foi definido Reason (no evento cancelado) ou CancellationDetails (no resultado do reconhecimento) como Error. O evento cancelado agora contém dois membros ErrorCode adicionais e ErrorDetails. Se o servidor retornou informações de erro adicionais com o erro relatado, ele estará disponível nos novos membros.

Melhorias

  • Adicionada verificação adicional na configuração do reconhecedor e adicionada mensagem de erro adicional.
  • Tratamento melhorado do silêncio de longa data no meio de um ficheiro de áudio.
  • Pacote NuGet: para projetos do .NET Framework, ele impede a criação com a configuração AnyCPU.

Correções de erros

  • Corrigidas várias exceções encontradas em reconhecedores. Além disso, as exceções são capturadas e convertidas em Canceled evento.
  • Corrija uma fuga de memória na gestão de propriedades.
  • Corrigido bug em que um arquivo de entrada de áudio poderia travar o reconhecedor.
  • Corrigido um bug em que os eventos podiam ser recebidos após um evento de interrupção de sessão.
  • Corrigidas algumas condições de corrida no threading.
  • Corrigido um problema de compatibilidade do iOS que podia resultar numa falha.
  • Melhorias de estabilidade para suporte a microfone Android.
  • Corrigido um bug em que um reconhecedor em JavaScript ignorava a linguagem de reconhecimento.
  • Corrigido um bug que impedia a configuração do EndpointId (em alguns casos) em JavaScript.
  • Alterada a ordem dos parâmetros em AddIntent em JavaScript e adicionada a assinatura JavaScript ausente AddIntent .

Exemplos

  • Adicionados exemplos de C++ e C# para uso de fluxo de pull e push no repositório de exemplo.

SDK de fala 1.0.1

Melhorias de confiabilidade e correções de bugs:

  • Corrigido erro fatal potencial devido à condição de corrida na eliminação do reconhecedor
  • Corrigido erro fatal potencial quando ocorrem propriedades não definidas.
  • Adicionado erro adicional e verificação de parâmetros.
  • Objective-C: Corrigido possível erro fatal causado pela substituição de nome no NSString.
  • Objetivo-C: Visibilidade ajustada da API
  • JavaScript: Corrigido em relação a eventos e suas cargas úteis.
  • Melhorias na documentação.

Em nosso repositório de exemplo, um novo exemplo para JavaScript foi adicionado.

Azure AI Speech SDK 1.0.0: versão de setembro de 2018

Novas funcionalidades

Mudanças significativas

  • Com esta versão, uma série de mudanças de quebra são introduzidas. Consulte esta página para mais detalhes.

Azure AI Speech SDK 0.6.0: versão de agosto de 2018

Novas funcionalidades

  • Os aplicativos UWP criados com o SDK de Fala agora podem passar pelo Kit de Certificação de Aplicativos Windows (WACK). Confira o início rápido da UWP.
  • Suporte para .NET Standard 2.0 no Linux (Ubuntu 16.04 x64).
  • Experimental: Suporte Java 8 no Windows (64-bit) e Linux (Ubuntu 16.04 x64). Confira o início rápido do Java Runtime Environment.

Mudança funcional

  • Exponha informações adicionais de detalhes de erro sobre erros de conexão.

Mudanças significativas

  • Em Java (Android), a SpeechFactory.configureNativePlatformBindingWithDefaultCertificate função não requer mais um parâmetro path. Agora o caminho é detetado automaticamente em todas as plataformas suportadas.
  • O get-accessor da propriedade EndpointUrl em Java e C# foi removido.

Correções de erros

  • Em Java, o resultado da síntese de áudio no reconhecedor de tradução é implementado agora.
  • Corrigido um bug que poderia causar threads inativos e um maior número de soquetes abertos e não utilizados.
  • Corrigido um problema, em que um reconhecimento de longa duração podia terminar no meio da transmissão.
  • Corrigida uma condição de corrida no desligamento do reconhecedor.

Azure AI Speech SDK 0.5.0: versão de julho de 2018

Novas funcionalidades

  • Suporte plataforma Android (API 23: Android 6.0 Marshmallow ou superior). Confira o início rápido do Android.
  • Suporte .NET Standard 2.0 no Windows. Confira o início rápido do .NET Core.
  • Experimental: Suporte UWP no Windows (versão 1709 ou posterior).
    • Confira o início rápido da UWP.
    • Observe que os aplicativos UWP criados com o SDK de Fala ainda não passam pelo Kit de Certificação de Aplicativos Windows (WACK).
  • Suporta reconhecimento de longa duração com reconexão automática.

Alterações funcionais

  • StartContinuousRecognitionAsync() Suporta reconhecimento de longa duração.
  • O resultado do reconhecimento contém mais campos. Eles são deslocados do início e duração do áudio (ambos em ticks) do texto reconhecido e valores adicionais que representam o status de reconhecimento, por exemplo, InitialSilenceTimeout e InitialBabbleTimeout.
  • Suporte AuthorizationToken para criar instâncias de fábrica.

Mudanças significativas

  • Eventos de reconhecimento: NoMatch o tipo de evento foi mesclado ao Error evento.
  • SpeechOutputFormat em C# foi renomeado para OutputFormat permanecer alinhado com C++.
  • O tipo de retorno de alguns métodos da AudioInputStream interface mudou ligeiramente:
    • Em Java, o read método agora retorna long em vez de int.
    • Em C#, o Read método agora retorna uint em vez de int.
    • Em C++, os Read métodos e GetFormat agora retornam size_t em vez de int.
  • C++: Instâncias de fluxos de entrada de áudio agora podem ser passadas apenas como um shared_ptrarquivo .

Correções de erros

  • Corrigidos valores de retorno incorretos no resultado quando RecognizeAsync() o tempo limite expira.
  • A dependência de bibliotecas de fundação de mídia no Windows foi removida. O SDK agora usa APIs de áudio principal.
  • Correção de documentação: adicionada uma página de regiões para descrever as regiões suportadas.

Problema Conhecido

  • O SDK de fala para Android não relata resultados de síntese de fala para tradução. Esse problema será corrigido na próxima versão.

Azure AI Speech SDK 0.4.0: versão de junho de 2018

Alterações funcionais

  • AudioInputStream

    Um reconhecedor agora pode consumir um fluxo como fonte de áudio. Para obter mais informações, consulte o guia de instruções relacionado.

  • Formato de saída detalhado

    Ao criar um SpeechRecognizerformato , você pode solicitar Detailed ou Simple produzir. O DetailedSpeechRecognitionResult contém um escore de confiança, texto reconhecido, forma lexical crua, forma normalizada e forma normalizada com palavrões mascarados.

Quebrando a mudança

  • Alterado para SpeechRecognitionResult.Text de SpeechRecognitionResult.RecognizedText em C#.

Correções de erros

  • Corrigido um possível problema de retorno de chamada na camada USP durante o desligamento.
  • Se um reconhecedor consumisse um arquivo de entrada de áudio, ele estava segurando o identificador de arquivo por mais tempo do que o necessário.
  • Removidos vários bloqueios entre a bomba de mensagens e o reconhecedor.
  • Dispare um NoMatch resultado quando a resposta do serviço estiver esgotada.
  • As bibliotecas de fundação de mídia no Windows são carregadas com atraso. Esta biblioteca é necessária apenas para entrada de microfone.
  • A velocidade de upload para dados de áudio é limitada a cerca de duas vezes a velocidade de áudio original.
  • No Windows, os assemblies C# .NET agora têm nomes fortes.
  • Correção de documentação: Region são informações necessárias para criar um reconhecedor.

Mais amostras foram adicionadas e estão sendo constantemente atualizadas. Para obter o conjunto de exemplos mais recente, consulte o repositório GitHub de exemplos do SDK de fala.

Azure AI Speech SDK 0.2.12733: versão de maio de 2018

Esta versão é a primeira versão de visualização pública do SDK de Fala do Azure AI.