Como usar áudio de entrada compactado − Serviço de fala - Azure AI services

Documentação de referência | Pacotes (NuGet) | Amostras adicionais no GitHub

O SDK de Fala e a CLI de Fala usam o GStreamer para dar suporte a diferentes tipos de formatos de áudio de entrada. O GStreamer descompacta o áudio antes de ele ser enviado pela transmissão para o serviço de Fala como PCM bruto.

O formato de streaming de áudio padrão é WAV (PCM de 16 KHz ou 8 kHz, 16 bits e mono). Exceto WAV e PCM, os seguintes formatos de entrada compactados também têm suporte por meio de GStreamer:

MP3
OPUS/OGG
FLAC
ALAW no contêiner WAV
MULAW no contêiner WAV
ANY para contêiner MP4 ou formato de mídia desconhecido

Configuração do GStreamer

O SDK de Fala pode usar o GStreamer para lidar com áudio compactado. Por motivos de licenciamento, os binários do GStreamer não são compilados com o SDK de Fala nem vinculados a ele. Será necessário instalar algumas dependências e alguns plug-ins.

Os binários do GStreamer deverão estar no caminho do sistema para que possam ser carregados pelo SDK de Fala em runtime. Por exemplo, no Windows, se o SDK de Fala encontrar libgstreamer-1.0-0.dll ou gstreamer-1.0-0.dll (do GStreamer mais recente) durante o runtime, isso significará que os binários do GStreamer estão no caminho do sistema.

Escolha uma plataforma para obter instruções de instalação.

Linux
Windows

Você precisa instalar várias dependências e vários plug-ins.

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Para obter mais informações, consulte Instruções de instalação do Linux e Arquiteturas de destino e distribuições do Linux com suporte.

Os pacotes da mesma plataforma (x64 ou x86) devem estar instalados. Por exemplo, se você instalou o pacote x64 para Python, precisará instalar o pacote GStreamer x64. As instruções a seguir referem-se aos pacotes x64.

Crie uma pasta c:\gstreamer.
Baixe o instalador.
Copie o instalador para c:\gstreamer.
Abra o PowerShell como administrador.

Execute o seguinte comando no PowerShell:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adicione a variável do sistema GST_PLUGIN_PATH com "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" como o valor da variável.
Adicione a variável do sistema GSTREAMER_ROOT_X86_64 com "C:\gstreamer\1.0\msvc_x86_64" como o valor da variável.
Edite a variável do sistema PATH para adicionar "C:\gstreamer\1.0\msvc_x86_64\bin" como uma entrada.
Reinicialize o computador.

Para obter mais informações sobre GStreamer, consulte Instruções de instalação do Windows.

Exemplo

Para configurar o SDK de Fala para aceitar a entrada de áudio compactado, crie um PullAudioInputStream ou PushAudioInputStream. Em seguida, crie uma AudioConfig com base em uma instância da classe de fluxo que especifica o formato de compactação do fluxo. Encontre snippets de código de exemplo relacionados em Sobre a API de fluxo de entrada de áudio do SDK de Fala.

Vamos supor que você tenha uma classe de fluxo de entrada chamada pullStream e esteja usando OPUS/OGG. Seu código pode ter esta aparência:

using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

// ... omitted for brevity

var speechConfig =
    SpeechConfig.FromSubscription(
        "YourSubscriptionKey",
        "YourServiceRegion");

// Create an audio config specifying the compressed
// audio format and the instance of your input stream class.
var pullStream = AudioInputStream.CreatePullStream(
    AudioStreamFormat.GetCompressedFormat(AudioStreamContainerFormat.OGG_OPUS));
var audioConfig = AudioConfig.FromStreamInput(pullStream);

using var recognizer = new SpeechRecognizer(speechConfig, audioConfig);
var result = await recognizer.RecognizeOnceAsync();

var text = result.Text;

Documentação de referência | Pacotes (NuGet) | Amostras adicionais no GitHub

O SDK de Fala e a CLI de Fala usam o GStreamer para dar suporte a diferentes tipos de formatos de áudio de entrada. O GStreamer descompacta o áudio antes de ele ser enviado pela transmissão para o serviço de Fala como PCM bruto.

O formato de streaming de áudio padrão é WAV (PCM de 16 KHz ou 8 kHz, 16 bits e mono). Exceto WAV e PCM, os seguintes formatos de entrada compactados também têm suporte por meio de GStreamer:

MP3
OPUS/OGG
FLAC
ALAW no contêiner WAV
MULAW no contêiner WAV
ANY para contêiner MP4 ou formato de mídia desconhecido

Configuração do GStreamer

O SDK de Fala pode usar o GStreamer para lidar com áudio compactado. Por motivos de licenciamento, os binários do GStreamer não são compilados com o SDK de Fala nem vinculados a ele. Será necessário instalar algumas dependências e alguns plug-ins.

Os binários do GStreamer deverão estar no caminho do sistema para que possam ser carregados pelo SDK de Fala em runtime. Por exemplo, no Windows, se o SDK de Fala encontrar libgstreamer-1.0-0.dll ou gstreamer-1.0-0.dll (do GStreamer mais recente) durante o runtime, isso significará que os binários do GStreamer estão no caminho do sistema.

Escolha uma plataforma para obter instruções de instalação.

Linux
Windows

Você precisa instalar várias dependências e vários plug-ins.

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Para obter mais informações, consulte Instruções de instalação do Linux e Arquiteturas de destino e distribuições do Linux com suporte.

Os pacotes da mesma plataforma (x64 ou x86) devem estar instalados. Por exemplo, se você instalou o pacote x64 para Python, precisará instalar o pacote GStreamer x64. As instruções a seguir referem-se aos pacotes x64.

Crie uma pasta c:\gstreamer.
Baixe o instalador.
Copie o instalador para c:\gstreamer.
Abra o PowerShell como administrador.

Execute o seguinte comando no PowerShell:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adicione a variável do sistema GST_PLUGIN_PATH com "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" como o valor da variável.
Adicione a variável do sistema GSTREAMER_ROOT_X86_64 com "C:\gstreamer\1.0\msvc_x86_64" como o valor da variável.
Edite a variável do sistema PATH para adicionar "C:\gstreamer\1.0\msvc_x86_64\bin" como uma entrada.
Reinicialize o computador.

Para obter mais informações sobre GStreamer, consulte Instruções de instalação do Windows.

Exemplo

Para configurar o SDK de Fala para aceitar a entrada de áudio compactado, crie um PullAudioInputStream ou PushAudioInputStream. Em seguida, crie uma AudioConfig com base em uma instância da classe de fluxo que especifica o formato de compactação do fluxo. Encontre o código de exemplo relacionado em exemplos do SDK de Fala.

Vamos supor que você tenha uma classe de fluxo de entrada chamada pushStream e esteja usando OPUS/OGG. Seu código pode ter esta aparência:

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

// ... omitted for brevity

 auto config =
    SpeechConfig::FromSubscription(
        "YourSubscriptionKey",
        "YourServiceRegion"
    );

// Create an audio config specifying the compressed
// audio format and the instance of your input stream class.
auto pullStream = AudioInputStream::CreatePullStream(
    AudioStreamFormat::GetCompressedFormat(AudioStreamContainerFormat::OGG_OPUS));
auto audioConfig = AudioConfig::FromStreamInput(pullStream);

auto recognizer = SpeechRecognizer::FromConfig(config, audioConfig);
auto result = recognizer->RecognizeOnceAsync().get();

auto text = result->Text;

Documentação de referência | Pacotes (Go) | Amostras adicionais no GitHub

O SDK de Fala e a CLI de Fala usam o GStreamer para dar suporte a diferentes tipos de formatos de áudio de entrada. O GStreamer descompacta o áudio antes de ele ser enviado pela transmissão para o serviço de Fala como PCM bruto.

O formato de streaming de áudio padrão é WAV (PCM de 16 KHz ou 8 kHz, 16 bits e mono). Exceto WAV e PCM, os seguintes formatos de entrada compactados também têm suporte por meio de GStreamer:

MP3
OPUS/OGG
FLAC
ALAW no contêiner WAV
MULAW no contêiner WAV
ANY para contêiner MP4 ou formato de mídia desconhecido

Configuração do GStreamer

O SDK de Fala pode usar o GStreamer para lidar com áudio compactado. Por motivos de licenciamento, os binários do GStreamer não são compilados com o SDK de Fala nem vinculados a ele. Será necessário instalar algumas dependências e alguns plug-ins.

Você precisa instalar várias dependências e vários plug-ins.

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Para obter mais informações, consulte Instruções de instalação do Linux e Arquiteturas de destino e distribuições do Linux com suporte.

Exemplo

Para configurar o SDK de Fala para aceitar a entrada de áudio compactado, crie um PullAudioInputStream ou PushAudioInputStream. Em seguida, crie uma AudioConfig com base em uma instância da classe de fluxo que especifica o formato de compactação do fluxo.

No exemplo a seguir, vamos supor que o seu caso de uso seja usar o PushStream para um arquivo compactado.


package recognizer

import (
  "fmt"
  "time"
    "strings"

  "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
  "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
  "github.com/Microsoft/cognitive-services-speech-sdk-go/samples/helpers"
)

func RecognizeOnceFromCompressedFile(subscription string, region string, file string) {
  var containerFormat audio.AudioStreamContainerFormat
  if strings.Contains(file, ".mulaw") {
    containerFormat = audio.MULAW
  } else if strings.Contains(file, ".alaw") {
    containerFormat = audio.ALAW
  } else if strings.Contains(file, ".mp3") {
    containerFormat = audio.MP3
  } else if strings.Contains(file, ".flac") {
    containerFormat = audio.FLAC
  } else if strings.Contains(file, ".opus") {
    containerFormat = audio.OGGOPUS
  } else {
    containerFormat = audio.ANY
  }
  format, err := audio.GetCompressedFormat(containerFormat)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer format.Close()
  stream, err := audio.CreatePushAudioInputStreamFromFormat(format)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer stream.Close()
  audioConfig, err := audio.NewAudioConfigFromStreamInput(stream)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer audioConfig.Close()
  config, err := speech.NewSpeechConfigFromSubscription(subscription, region)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer config.Close()
  speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(config, audioConfig)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer speechRecognizer.Close()
  speechRecognizer.SessionStarted(func(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Started (ID=", event.SessionID, ")")
  })
  speechRecognizer.SessionStopped(func(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Stopped (ID=", event.SessionID, ")")
  })
  helpers.PumpFileIntoStream(file, stream)
  task := speechRecognizer.RecognizeOnceAsync()
  var outcome speech.SpeechRecognitionOutcome
  select {
  case outcome = <-task:
  case <-time.After(40 * time.Second):
    fmt.Println("Timed out")
    return
  }
  defer outcome.Close()
  if outcome.Error != nil {
    fmt.Println("Got an error: ", outcome.Error)
  }
  fmt.Println("Got a recognition!")
  fmt.Println(outcome.Result.Text)
}

Documentação de referência | Amostras adicionais no GitHub

O SDK de Fala e a CLI de Fala usam o GStreamer para dar suporte a diferentes tipos de formatos de áudio de entrada. O GStreamer descompacta o áudio antes de ele ser enviado pela transmissão para o serviço de Fala como PCM bruto.

O formato de streaming de áudio padrão é WAV (PCM de 16 KHz ou 8 kHz, 16 bits e mono). Exceto WAV e PCM, os seguintes formatos de entrada compactados também têm suporte por meio de GStreamer:

MP3
OPUS/OGG
FLAC
ALAW no contêiner WAV
MULAW no contêiner WAV
ANY para contêiner MP4 ou formato de mídia desconhecido

Configuração do GStreamer

O SDK de Fala pode usar o GStreamer para lidar com áudio compactado. Por motivos de licenciamento, os binários do GStreamer não são compilados com o SDK de Fala nem vinculados a ele. Será necessário instalar algumas dependências e alguns plug-ins.

Os binários do GStreamer deverão estar no caminho do sistema para que possam ser carregados pelo SDK de Fala em runtime. Por exemplo, no Windows, se o SDK de Fala encontrar libgstreamer-1.0-0.dll ou gstreamer-1.0-0.dll (do GStreamer mais recente) durante o runtime, isso significará que os binários do GStreamer estão no caminho do sistema.

Escolha uma plataforma para obter instruções de instalação.

O tratamento de áudio compactado é implementado por meio do GStreamer. Por motivos de licenciamento, os binários do GStreamer não são compilados com o SDK de Fala nem vinculados a ele. Em vez disso, você precisará usar os binários predefinidos para Android. Para baixar as bibliotecas predefinidas, confira Instalação para desenvolvimento no Android.

O objeto libgstreamer_android.so é necessário. Verifique se todos os plug-ins do GStreamer (do arquivo Android.mk a seguir) estão vinculados em libgstreamer_android.so. Quando você usar o SDK de Fala com o GStreamer versão 1.18.3, o libc++_shared.so também precisará estar presente no Android NDK.

GSTREAMER_PLUGINS := coreelements app audioconvert mpg123 \
    audioresample audioparsers ogg opusparse \
    opus wavparse alaw mulaw flac

Um exemplo de arquivo Android.mk e Application.mk é fornecido aqui. Execute estas etapas para criar o gstreamerobjeto compartilhadolibgstreamer_android.so.

# Android.mk
LOCAL_PATH := $(call my-dir)

include $(CLEAR_VARS)

LOCAL_MODULE    := dummy
LOCAL_SHARED_LIBRARIES := gstreamer_android
include $(BUILD_SHARED_LIBRARY)

ifndef GSTREAMER_ROOT_ANDROID
$(error GSTREAMER_ROOT_ANDROID is not defined!)
endif

ifndef APP_BUILD_SCRIPT
$(error APP_BUILD_SCRIPT is not defined!)
endif

ifndef TARGET_ARCH_ABI
$(error TARGET_ARCH_ABI is not defined!)
endif

ifeq ($(TARGET_ARCH_ABI),armeabi)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/arm
else ifeq ($(TARGET_ARCH_ABI),armeabi-v7a)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/armv7
else ifeq ($(TARGET_ARCH_ABI),arm64-v8a)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/arm64
else ifeq ($(TARGET_ARCH_ABI),x86)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/x86
else ifeq ($(TARGET_ARCH_ABI),x86_64)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/x86_64
else
$(error Target arch ABI not supported: $(TARGET_ARCH_ABI))
endif

GSTREAMER_NDK_BUILD_PATH  := $(GSTREAMER_ROOT)/share/gst-android/ndk-build/
include $(GSTREAMER_NDK_BUILD_PATH)/plugins.mk
GSTREAMER_PLUGINS         :=  $(GSTREAMER_PLUGINS_CORE) \ 
                              $(GSTREAMER_PLUGINS_CODECS) \ 
                              $(GSTREAMER_PLUGINS_PLAYBACK) \
                              $(GSTREAMER_PLUGINS_CODECS_GPL) \
                              $(GSTREAMER_PLUGINS_CODECS_RESTRICTED)
GSTREAMER_EXTRA_LIBS      := -liconv -lgstbase-1.0 -lGLESv2 -lEGL
include $(GSTREAMER_NDK_BUILD_PATH)/gstreamer-1.0.mk

# Application.mk
APP_STL = c++_shared
APP_PLATFORM = android-21
APP_BUILD_SCRIPT = Android.mk

Crie libgstreamer_android.so usando o comando a seguir no Ubuntu 18.04 ou 20.04. As linhas de comando a seguir foram testadas para [GStreamer para Android versão 1.14.4] com Android NDK b16b.

# Assuming wget and unzip are already installed on the system
mkdir buildLibGstreamer
cd buildLibGstreamer
wget https://dl.google.com/android/repository/android-ndk-r16b-linux-x86_64.zip
unzip -q -o android-ndk-r16b-linux-x86_64.zip
export PATH=$PATH:$(pwd)/android-ndk-r16b
export NDK_PROJECT_PATH=$(pwd)/android-ndk-r16b
wget https://gstreamer.freedesktop.org/download/
mkdir gstreamer_android
tar -xjf gstreamer-1.0-android-universal-1.14.4.tar.bz2 -C $(pwd)/gstreamer_android/
export GSTREAMER_ROOT_ANDROID=$(pwd)/gstreamer_android

mkdir gstreamer
# Copy the Application.mk and Android.mk from the documentation above and put it inside $(pwd)/gstreamer

# Enable only one of the following at one time to create the shared object for the targeted ABI
echo "building for armeabi-v7a. libgstreamer_android.so will be placed in $(pwd)/armeabi-v7a"
ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=armeabi-v7a NDK_LIBS_OUT=$(pwd)

#echo "building for arm64-v8a. libgstreamer_android.so will be placed in $(pwd)/arm64-v8a"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=arm64-v8a NDK_LIBS_OUT=$(pwd)

#echo "building for x86_64. libgstreamer_android.so will be placed in $(pwd)/x86_64"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=x86_64 NDK_LIBS_OUT=$(pwd)

#echo "building for x86. libgstreamer_android.so will be placed in $(pwd)/x86"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=x86 NDK_LIBS_OUT=$(pwd)

Depois que o objeto compartilhado (libgstreamer_android.so) for criado, coloque-o no aplicativo Android para que o SDK de Fala possa carregá-lo.

Você precisa instalar várias dependências e vários plug-ins.

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Para obter mais informações, consulte Instruções de instalação do Linux e Arquiteturas de destino e distribuições do Linux com suporte.

Os pacotes da mesma plataforma (x64 ou x86) devem estar instalados. Por exemplo, se você instalou o pacote x64 para Python, precisará instalar o pacote GStreamer x64. As instruções a seguir referem-se aos pacotes x64.

Crie uma pasta c:\gstreamer.
Baixe o instalador.
Copie o instalador para c:\gstreamer.
Abra o PowerShell como administrador.

Execute o seguinte comando no PowerShell:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adicione a variável do sistema GST_PLUGIN_PATH com "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" como o valor da variável.
Adicione a variável do sistema GSTREAMER_ROOT_X86_64 com "C:\gstreamer\1.0\msvc_x86_64" como o valor da variável.
Edite a variável do sistema PATH para adicionar "C:\gstreamer\1.0\msvc_x86_64\bin" como uma entrada.
Reinicialize o computador.

Para obter mais informações sobre GStreamer, consulte Instruções de instalação do Windows.

Exemplo

Para configurar o SDK de Fala para aceitar a entrada de áudio compactado, crie um PullAudioInputStream ou PushAudioInputStream. Em seguida, crie uma AudioConfig com base em uma instância da classe de fluxo que especifica o formato de compactação do fluxo. Encontre o código de exemplo relacionado em exemplos do SDK de Fala.

Vamos supor que você tenha uma classe de fluxo de entrada chamada pullAudio e esteja usando MP3. Seu código pode ter esta aparência:

String filePath = "whatstheweatherlike.mp3";
PullAudioInputStream pullAudio = AudioInputStream.createPullStream(new BinaryAudioStreamReader(filePath),
    AudioStreamFormat.getCompressedFormat(AudioStreamContainerFormat.MP3));
AudioConfig audioConfig = AudioConfig.fromStreamInput(pullAudio);

Documentação de referência | Pacote (npm) | Amostras adicionais no GitHub | Código-fonte de biblioteca

O SDK de Fala para JavaScript não dá suporte a áudio compactado.

O formato de streaming de áudio padrão é WAV (PCM de 16 KHz ou 8 kHz, 16 bits e mono). Para inserir um arquivo de áudio compactado (como um mp3), primeiro será necessário convertê-lo em um arquivo WAV no formato de entrada padrão. Para transmitir um áudio compactado, primeiro será necessário decodificar os buffers de áudio para o formato de entrada padrão. Para obter mais informações, consulte Como usar o fluxo de entrada de áudio.

Documentação de referência | Pacotes (download) | Amostras adicionais no GitHub

O SDK de Fala para Objective-C não dá suporte a áudio compactado.

O formato de streaming de áudio padrão é WAV (PCM de 16 KHz ou 8 kHz, 16 bits e mono). Para inserir um arquivo de áudio compactado (como um mp3), primeiro será necessário convertê-lo em um arquivo WAV no formato de entrada padrão. Para transmitir um áudio compactado, primeiro será necessário decodificar os buffers de áudio para o formato de entrada padrão. Para obter mais informações, consulte Como usar o fluxo de entrada de áudio.

Documentação de referência | Pacotes (download) | Amostras adicionais no GitHub

O SDK de Fala para Swift não dá suporte a áudio compactado.

O formato de streaming de áudio padrão é WAV (PCM de 16 KHz ou 8 kHz, 16 bits e mono). Para inserir um arquivo de áudio compactado (como um mp3), primeiro será necessário convertê-lo em um arquivo WAV no formato de entrada padrão. Para transmitir um áudio compactado, primeiro será necessário decodificar os buffers de áudio para o formato de entrada padrão. Para obter mais informações, consulte Como usar o fluxo de entrada de áudio.

Documentação de referência | Pacotes (PyPi) | Amostras adicionais no GitHub

O SDK de Fala e a CLI de Fala usam o GStreamer para dar suporte a diferentes tipos de formatos de áudio de entrada. O GStreamer descompacta o áudio antes de ele ser enviado pela transmissão para o serviço de Fala como PCM bruto.

O formato de streaming de áudio padrão é WAV (PCM de 16 KHz ou 8 kHz, 16 bits e mono). Exceto WAV e PCM, os seguintes formatos de entrada compactados também têm suporte por meio de GStreamer:

MP3
OPUS/OGG
FLAC
ALAW no contêiner WAV
MULAW no contêiner WAV
ANY para contêiner MP4 ou formato de mídia desconhecido

Configuração do GStreamer

O SDK de Fala pode usar o GStreamer para lidar com áudio compactado. Por motivos de licenciamento, os binários do GStreamer não são compilados com o SDK de Fala nem vinculados a ele. Será necessário instalar algumas dependências e alguns plug-ins.

Os binários do GStreamer deverão estar no caminho do sistema para que possam ser carregados pelo SDK de Fala em runtime. Por exemplo, no Windows, se o SDK de Fala encontrar libgstreamer-1.0-0.dll ou gstreamer-1.0-0.dll (do GStreamer mais recente) durante o runtime, isso significará que os binários do GStreamer estão no caminho do sistema.

Escolha uma plataforma para obter instruções de instalação.

Linux
Windows

Você precisa instalar várias dependências e vários plug-ins.

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Para obter mais informações, consulte Instruções de instalação do Linux e Arquiteturas de destino e distribuições do Linux com suporte.

Os pacotes da mesma plataforma (x64 ou x86) devem estar instalados. Por exemplo, se você instalou o pacote x64 para Python, precisará instalar o pacote GStreamer x64. As instruções a seguir referem-se aos pacotes x64.

Crie uma pasta c:\gstreamer.
Baixe o instalador.
Copie o instalador para c:\gstreamer.
Abra o PowerShell como administrador.

Execute o seguinte comando no PowerShell:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adicione a variável do sistema GST_PLUGIN_PATH com "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" como o valor da variável.
Adicione a variável do sistema GSTREAMER_ROOT_X86_64 com "C:\gstreamer\1.0\msvc_x86_64" como o valor da variável.
Edite a variável do sistema PATH para adicionar "C:\gstreamer\1.0\msvc_x86_64\bin" como uma entrada.
Reinicialize o computador.

Para obter mais informações sobre GStreamer, consulte Instruções de instalação do Windows.

Exemplo

Para configurar o SDK de Fala para aceitar a entrada de áudio compactado, crie um PullAudioInputStream ou PushAudioInputStream. Em seguida, crie uma AudioConfig com base em uma instância da classe de fluxo que especifica o formato de compactação do fluxo.

Vamos supor que seu caso de uso seja usar PullStream para um arquivo MP3. Seu código pode ter esta aparência:


import azure.cognitiveservices.speech as speechsdk

class BinaryFileReaderCallback(speechsdk.audio.PullAudioInputStreamCallback):
    def __init__(self, filename: str):
        super().__init__()
        self._file_h = open(filename, "rb")

    def read(self, buffer: memoryview) -> int:
        print('trying to read {} frames'.format(buffer.nbytes))
        try:
            size = buffer.nbytes
            frames = self._file_h.read(size)

            buffer[:len(frames)] = frames
            print('read {} frames'.format(len(frames)))

            return len(frames)
        except Exception as ex:
            print('Exception in `read`: {}'.format(ex))
            raise

    def close(self) -> None:
        print('closing file')
        try:
            self._file_h.close()
        except Exception as ex:
            print('Exception in `close`: {}'.format(ex))
            raise

def compressed_stream_helper(compressed_format,
        mp3_file_path,
        default_speech_auth):
    callback = BinaryFileReaderCallback(mp3_file_path)
    stream = speechsdk.audio.PullAudioInputStream(stream_format=compressed_format, pull_stream_callback=callback)

    speech_config = speechsdk.SpeechConfig(**default_speech_auth)
    audio_config = speechsdk.audio.AudioConfig(stream=stream)

    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    done = False

    def stop_cb(evt):
        """callback that signals to stop continuous recognition upon receiving an event `evt`"""
        print('CLOSING on {}'.format(evt))
        nonlocal done
        done = True

    # Connect callbacks to the events fired by the speech recognizer
    speech_recognizer.recognizing.connect(lambda evt: print('RECOGNIZING: {}'.format(evt)))
    speech_recognizer.recognized.connect(lambda evt: print('RECOGNIZED: {}'.format(evt)))
    speech_recognizer.session_started.connect(lambda evt: print('SESSION STARTED: {}'.format(evt)))
    speech_recognizer.session_stopped.connect(lambda evt: print('SESSION STOPPED {}'.format(evt)))
    speech_recognizer.canceled.connect(lambda evt: print('CANCELED {}'.format(evt)))
    # stop continuous recognition on either session stopped or canceled events
    speech_recognizer.session_stopped.connect(stop_cb)
    speech_recognizer.canceled.connect(stop_cb)

    # Start continuous speech recognition
    speech_recognizer.start_continuous_recognition()
    while not done:
        time.sleep(.5)

    speech_recognizer.stop_continuous_recognition()

def pull_audio_input_stream_compressed_mp3(mp3_file_path: str,
        default_speech_auth):
    # Create a compressed format
    compressed_format = speechsdk.audio.AudioStreamFormat(compressed_stream_format=speechsdk.AudioStreamContainerFormat.MP3)
    compressed_stream_helper(compressed_format, mp3_file_path, default_speech_auth)

Referência da API REST de conversão de fala em texto | Referência da API REST de conversão de fala em texto para áudios curtos | Amostras adicionais no GitHub

É possível usar a API REST para áudio compactado, no entanto ainda não há um guia disponível a respeito disso. Selecione outra linguagem de programação para começar e saber mais sobre os conceitos.

O SDK de Fala e a CLI de Fala usam o GStreamer para dar suporte a diferentes tipos de formatos de áudio de entrada. O GStreamer descompacta o áudio antes de ele ser enviado pela transmissão para o serviço de Fala como PCM bruto.

O formato de streaming de áudio padrão é WAV (PCM de 16 KHz ou 8 kHz, 16 bits e mono). Exceto WAV e PCM, os seguintes formatos de entrada compactados também têm suporte por meio de GStreamer:

MP3
OPUS/OGG
FLAC
ALAW no contêiner WAV
MULAW no contêiner WAV
ANY para contêiner MP4 ou formato de mídia desconhecido

Configuração do GStreamer

A CLI de Fala pode usar o GStreamer para lidar com áudio compactado. Por motivos de licenciamento, os binários do GStreamer não são compilados nem vinculados à CLI de Fala. Será necessário instalar algumas dependências e alguns plug-ins.

Os binários do GStreamer deverão estar no caminho do sistema para que possam ser carregados pela CLI de Fala em runtime. Por exemplo, no Windows, se a CLI de Fala encontrar libgstreamer-1.0-0.dll ou gstreamer-1.0-0.dll (para o GStreamer mais recente) durante o runtime, isso significa que os binários do GStreamer estão no caminho do sistema.

Escolha uma plataforma para obter instruções de instalação.

Linux
Windows

Você precisa instalar várias dependências e vários plug-ins.

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Para obter mais informações, consulte Instruções de instalação do Linux e Arquiteturas de destino e distribuições do Linux com suporte.

Os pacotes da mesma plataforma (x64 ou x86) devem estar instalados. Por exemplo, se você instalou o pacote x64 para Python, precisará instalar o pacote GStreamer x64. As instruções a seguir referem-se aos pacotes x64.

Crie uma pasta c:\gstreamer.
Baixe o instalador.
Copie o instalador para c:\gstreamer.
Abra o PowerShell como administrador.

Execute o seguinte comando no PowerShell:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adicione a variável do sistema GST_PLUGIN_PATH com "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" como o valor da variável.
Adicione a variável do sistema GSTREAMER_ROOT_X86_64 com "C:\gstreamer\1.0\msvc_x86_64" como o valor da variável.
Edite a variável do sistema PATH para adicionar "C:\gstreamer\1.0\msvc_x86_64\bin" como uma entrada.
Reinicialize o computador.

Para obter mais informações sobre GStreamer, consulte Instruções de instalação do Windows.

Exemplo

A opção --format especifica o formato do contêiner para o arquivo de áudio que está sendo reconhecido. Para um arquivo mp4, defina o formato para any conforme mostrado no comando a seguir:

Terminal
PowerShell

spx recognize --file YourAudioFile.mp4 --format any

spx --% recognize --file YourAudioFile.mp4 --format any

Para obter uma lista de formatos de áudio com suporte, execute o seguinte comando:

Terminal
PowerShell

spx help recognize format

spx help recognize format

Compartilhar via

Como usar áudio de entrada compactado

Configuração do GStreamer

Exemplo

Configuração do GStreamer

Exemplo

Configuração do GStreamer

Exemplo

Configuração do GStreamer

Exemplo

Configuração do GStreamer

Exemplo

Configuração do GStreamer

Exemplo

Próximas etapas

Comentários

Recursos adicionais