A hangbemeneti stream használata

Cikk
10/16/2024

A Speech SDK lehetővé teszi a hang átvitelét a felismerőbe a mikrofon vagy fájlbemenet alternatívájaként.

Ez az útmutató a hangbemeneti streamek használatát ismerteti. Emellett a hangbemeneti stream néhány követelményét és korlátozását is ismerteti.

További példák a beszéd-szövegfelismerésre hangbemeneti adatfolyammal a GitHubon.

A hangstream formátumának azonosítása

Azonosítsa a hangstream formátumát.

A támogatott hangminták a következők:

PCM formátum (int-16, aláírt)
Egy csatorna
16 bit mintánként, 8000 vagy 16 000 minta másodpercenként (16 000 bájt vagy 32 000 bájt másodpercenként)
Kétblokkos igazítás (16 bites, beleértve a minta párnázását)

A hangformátum létrehozásához az SDK megfelelő kódja az alábbi példához hasonlóan néz ki:

byte channels = 1;
byte bitsPerSample = 16;
int samplesPerSecond = 16000; // or 8000
var audioFormat = AudioStreamFormat.GetWaveFormatPCM(samplesPerSecond, bitsPerSample, channels);

Győződjön meg arról, hogy a kód ezeknek a specifikációknak megfelelően biztosítja a RAW hangadatokat. Győződjön meg arról is, hogy a 16 bites minták kis endian formátumban érkeznek. Ha a hangforrás adatai nem felelnek meg a támogatott formátumnak, a hangot át kell kódolni a szükséges formátumra.

Saját hangbemeneti streamosztály létrehozása

Létrehozhat saját hangbemeneti streamosztályt a forrásból PullAudioInputStreamCallback. Implementálja a tagokat és Close() a Read() tagokat. A függvény pontos aláírása nyelvfüggő, de a kód ehhez a kódmintához hasonlóan néz ki:

public class ContosoAudioStream : PullAudioInputStreamCallback 
{
    public ContosoAudioStream() {}

    public override int Read(byte[] buffer, uint size) 
    {
        // Returns audio data to the caller.
        // E.g., return read(config.YYY, buffer, size);
        return 0;
    }

    public override void Close() 
    {
        // Close and clean up resources.
    }
}

Hangkonfiguráció létrehozása a hangformátum és az egyéni hangbemeneti adatfolyam alapján. Példa:

var audioConfig = AudioConfig.FromStreamInput(new ContosoAudioStream(), audioFormat);

Az egyéni hangbemeneti stream használata a beszédfelismerő kontextusában történik:

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

public class ContosoAudioStream : PullAudioInputStreamCallback 
{
    public ContosoAudioStream() {}

    public override int Read(byte[] buffer, uint size) 
    {
        // Returns audio data to the caller.
        // E.g., return read(config.YYY, buffer, size);
        return 0;
    }

    public override void Close() 
    {
        // Close and clean up resources.
    }
}

class Program 
{
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

    async static Task Main(string[] args)
    {
        byte channels = 1;
        byte bitsPerSample = 16;
        uint samplesPerSecond = 16000; // or 8000
        var audioFormat = AudioStreamFormat.GetWaveFormatPCM(samplesPerSecond, bitsPerSample, channels);
        var audioConfig = AudioConfig.FromStreamInput(new ContosoAudioStream(), audioFormat);

        var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); 
        speechConfig.SpeechRecognitionLanguage = "en-US";
        var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        Console.WriteLine("Speak into your microphone.");
        var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
        Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
    }
}

Megosztás a következőn keresztül:

A hangbemeneti stream használata

A hangstream formátumának azonosítása

Saját hangbemeneti streamosztály létrehozása

Következő lépések

Visszajelzés

További források