Quickstart: Onderschrift s maken met spraak-naar-tekst

Referentiedocumentatiepakket (NuGet) | Aanvullende voorbeelden op GitHub |

In deze quickstart voert u een console-app uit om onderschrift s te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte resultaten te bekijken onderschrift.

Vereisten

De omgeving instellen

De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten.

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd voor toegang tot Azure AI-servicesbronnen. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Nadat u bijvoorbeeld een sleutel voor uw Speech-resource hebt gedownload, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en plaats deze nooit openbaar. Zie Beveiliging van Azure AI-services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw Spraak-resourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's die de omgevingsvariabele moeten lezen, opnieuw opstarten, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Onderschrift s maken op basis van spraak

Volg deze stappen om het onderschrift voorbeeld van quickstart-code te bouwen en uit te voeren.

  1. Kopieer de scenario's/csharp/dotnetcore/onderschrift ing/voorbeeldbestanden van GitHub. Als Git is geïnstalleerd, opent u een opdrachtprompt en voert u de opdracht uit om de git clone opslagplaats met voorbeelden van de Speech SDK te downloaden.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Open een opdrachtprompt en ga naar de projectmap.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Bouw het project met de .NET CLI.
    dotnet build
    
  4. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Belangrijk

    Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: captioning --input <input file>

Verbinding maken ion-opties zijn onder andere:

  • --key: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
  • --region REGION: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar met het JavaScript-voorbeeld onderschrift. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --language LANG: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het verbreken van onderschrift s in lijnen. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

  • --offline: Offlineresultaten uitvoeren. Onderdrukkingen --realTime. De standaarduitvoermodus is offline.
  • --realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: uitvoer onderschrift s naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoer onderschrift s in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling Bijschriften voor meer informatie over SRT- en WebVTT-onderschrift-bestandsindelingen.
  • --maxLineLength LENGTH: Stel het maximum aantal tekens per regel in voor een onderschrift op LENGTE. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
  • --lines LINES: Stel het aantal regels voor een onderschrift in op LIJNEN. Minimum is 1. De standaardwaarde is 2.
  • --delay MILLISECONDS: Hoeveel MILLISECONDS om de weergave van elke onderschrift te vertragen, om een realtime ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
  • --remainTime MILLISECONDS: Hoeveel MILLISECONDEN een onderschrift moet op het scherm blijven als deze niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatiepakket (NuGet) | Aanvullende voorbeelden op GitHub |

In deze quickstart voert u een console-app uit om onderschrift s te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte resultaten te bekijken onderschrift.

Vereisten

De omgeving instellen

De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd voor toegang tot Azure AI-servicesbronnen. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Nadat u bijvoorbeeld een sleutel voor uw Speech-resource hebt gedownload, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en plaats deze nooit openbaar. Zie Beveiliging van Azure AI-services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw Spraak-resourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's die de omgevingsvariabele moeten lezen, opnieuw opstarten, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Onderschrift s maken op basis van spraak

Volg deze stappen om het onderschrift voorbeeld van quickstart-code te bouwen en uit te voeren met Visual Studio Community 2022 in Windows.

  1. Download of kopieer de scenario's/cpp/windows/onderschrift ing/voorbeeldbestanden van GitHub naar een lokale map.

  2. Open het captioning.sln oplossingsbestand in Visual Studio Community 2022.

  3. Installeer de Speech SDK in uw project met NuGet Package Manager.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Open Projecteigenschappen>>Algemeen. Stel de configuratie in op All configurations. Stel C++ Language Standard in op ISO C++17 Standard (/std:c++17).

  5. Open Build>Configuration Manager.

    • Stel op een 64-bits Windows-installatie het actieve oplossingsplatform in op x64.
    • Stel op een 32-bits Windows-installatie het actieve oplossingsplatform in op x86.
  6. Foutopsporing van projecteigenschappen>>openen. Voer de gewenste opdrachtregelargumenten in bij Opdrachtargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Belangrijk

    Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

  7. Bouw en voer de consoletoepassing uit .

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: captioning --input <input file>

Verbinding maken ion-opties zijn onder andere:

  • --key: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
  • --region REGION: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar met het JavaScript-voorbeeld onderschrift. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --language LANG: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het verbreken van onderschrift s in lijnen. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

  • --offline: Offlineresultaten uitvoeren. Onderdrukkingen --realTime. De standaarduitvoermodus is offline.
  • --realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: uitvoer onderschrift s naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoer onderschrift s in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling Bijschriften voor meer informatie over SRT- en WebVTT-onderschrift-bestandsindelingen.
  • --maxLineLength LENGTH: Stel het maximum aantal tekens per regel in voor een onderschrift op LENGTE. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
  • --lines LINES: Stel het aantal regels voor een onderschrift in op LIJNEN. Minimum is 1. De standaardwaarde is 2.
  • --delay MILLISECONDS: Hoeveel MILLISECONDS om de weergave van elke onderschrift te vertragen, om een realtime ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
  • --remainTime MILLISECONDS: Hoeveel MILLISECONDEN een onderschrift moet op het scherm blijven als deze niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatiepakket (Go) | Aanvullende voorbeelden op GitHub |

In deze quickstart voert u een console-app uit om onderschrift s te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte resultaten te bekijken onderschrift.

Vereisten

De omgeving instellen

Controleer of er platformspecifieke installatiestappen zijn.

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Onderschrift s maken op basis van spraak

Volg deze stappen om het onderschrift voorbeeld van quickstart-code te bouwen en uit te voeren.

  1. Download of kopieer de scenario's/go/onderschrift ing/voorbeeldbestanden van GitHub naar een lokale map.

  2. Open een opdrachtprompt in dezelfde map als captioning.go.

  3. Voer de volgende opdrachten uit om een go.mod bestand te maken dat is gekoppeld aan de Speech SDK-onderdelen die worden gehost op GitHub:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Bouw de GO-module.

    go build
    
  5. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:

    go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Vervang YourSubscriptionKey door uw Spraak-resourcesleutel en vervang deze door YourServiceRegion uw spraakresourceregio, zoals westus ofnortheurope. Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Belangrijk

    Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het beveiligingsartikel over Azure AI-services voor meer informatie.

Resultaten controleren

Het uitvoerbestand met volledige onderschrift s wordt naar caption.output.txtgeschreven. Tussenliggende resultaten worden weergegeven in de console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Verbinding maken ion-opties zijn onder andere:

  • --key: uw spraakresourcesleutel.
  • --region REGION: uw spraakresourceregio. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar met het JavaScript-voorbeeld onderschrift. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --languages LANG1,LANG2: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld: en-US,ja-JP. Deze optie is alleen beschikbaar met de voorbeelden C++, C# en Python onderschrift. Zie Taalidentificatie voor meer informatie.

Herkenningsopties zijn onder andere:

  • --recognizing: Resultaten van uitvoer Recognizing gebeurtenis. De standaarduitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatie | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een console-app uit om onderschrift s te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte resultaten te bekijken onderschrift.

Vereisten

De omgeving instellen

Voordat u iets kunt doen, moet u de Speech SDK installeren. Het voorbeeld in deze quickstart werkt met de Microsoft Build van OpenJDK 17

  1. Installeer Apache Maven. Voer vervolgens uit mvn -v om de installatie te bevestigen.
  2. Maak een nieuw pom.xml bestand in de hoofdmap van uw project en kopieer het volgende erin:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.37.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Installeer de Speech SDK en afhankelijkheden.
    mvn clean dependency:copy-dependencies
    
  4. U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd voor toegang tot Azure AI-servicesbronnen. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Nadat u bijvoorbeeld een sleutel voor uw Speech-resource hebt gedownload, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en plaats deze nooit openbaar. Zie Beveiliging van Azure AI-services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw Spraak-resourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's die de omgevingsvariabele moeten lezen, opnieuw opstarten, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Onderschrift s maken op basis van spraak

Volg deze stappen om het onderschrift voorbeeld van quickstart-code te bouwen en uit te voeren.

  1. Kopieer de scenario's/java/jre/onderschrift ing/voorbeeldbestanden van GitHub naar uw projectmap. Het pom.xml bestand dat u in de omgevingsinstallatie hebt gemaakt, moet zich ook in deze map bevinden.
  2. Open een opdrachtprompt en voer deze opdracht uit om de projectbestanden te compileren.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Belangrijk

    Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: java -cp ".;target\dependency\*" Captioning --input <input file>

Verbinding maken ion-opties zijn onder andere:

  • --key: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
  • --region REGION: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar met het JavaScript-voorbeeld onderschrift. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --language LANG: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het verbreken van onderschrift s in lijnen. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

  • --offline: Offlineresultaten uitvoeren. Onderdrukkingen --realTime. De standaarduitvoermodus is offline.
  • --realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: uitvoer onderschrift s naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoer onderschrift s in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling Bijschriften voor meer informatie over SRT- en WebVTT-onderschrift-bestandsindelingen.
  • --maxLineLength LENGTH: Stel het maximum aantal tekens per regel in voor een onderschrift op LENGTE. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
  • --lines LINES: Stel het aantal regels voor een onderschrift in op LIJNEN. Minimum is 1. De standaardwaarde is 2.
  • --delay MILLISECONDS: Hoeveel MILLISECONDS om de weergave van elke onderschrift te vertragen, om een realtime ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
  • --remainTime MILLISECONDS: Hoeveel MILLISECONDEN een onderschrift moet op het scherm blijven als deze niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatiepakket (npm) | Aanvullende voorbeelden op GitHub | Library-broncode |

In deze quickstart voert u een console-app uit om onderschrift s te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte resultaten te bekijken onderschrift.

Vereisten

De omgeving instellen

Voordat u iets kunt doen, moet u de Speech SDK voor JavaScript installeren. Als u alleen de pakketnaam wilt installeren, voert u het volgende uit npm install microsoft-cognitiveservices-speech-sdk. Zie de SDK-installatiehandleiding voor begeleide installatie-instructies.

Onderschrift s maken op basis van spraak

Volg deze stappen om het onderschrift voorbeeld van quickstart-code te bouwen en uit te voeren.

  1. Kopieer de scenario's/javascript/node/onderschrift ing/voorbeeldbestanden van GitHub naar uw projectmap.

  2. Open een opdrachtprompt in dezelfde map als Captioning.js.

  3. Installeer de Speech SDK voor JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:

    node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Vervang YourSubscriptionKey door uw Spraak-resourcesleutel en vervang deze door YourServiceRegion uw spraakresourceregio, zoals westus ofnortheurope. Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Notitie

    De Speech SDK voor JavaScript biedt geen ondersteuning voor gecomprimeerde invoeraudio. U moet een WAV-bestand gebruiken, zoals wordt weergegeven in het voorbeeld.

    Belangrijk

    Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het beveiligingsartikel over Azure AI-services voor meer informatie.

Resultaten controleren

Het uitvoerbestand met volledige onderschrift s wordt naar caption.output.txtgeschreven. Tussenliggende resultaten worden weergegeven in de console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: node captioning.js --key <key> --region <region> --input <input file>

Verbinding maken ion-opties zijn onder andere:

  • --key: uw spraakresourcesleutel.
  • --region REGION: uw spraakresourceregio. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar met het JavaScript-voorbeeld onderschrift. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --languages LANG1,LANG2: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld: en-US,ja-JP. Deze optie is alleen beschikbaar met de voorbeelden C++, C# en Python onderschrift. Zie Taalidentificatie voor meer informatie.

Herkenningsopties zijn onder andere:

  • --recognizing: Resultaten van uitvoer Recognizing gebeurtenis. De standaarduitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatiepakket (downloaden) | Aanvullende voorbeelden op GitHub |

De Speech SDK voor Objective-C biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor onderschrift ing, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Objective-C-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.

Referentiedocumentatiepakket (downloaden) | Aanvullende voorbeelden op GitHub |

De Speech SDK voor Swift biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor onderschrift ing, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Swift-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.

Referentiedocumentatiepakket (PyPi) | Aanvullende voorbeelden op GitHub |

In deze quickstart voert u een console-app uit om onderschrift s te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte resultaten te bekijken onderschrift.

Vereisten

De omgeving instellen

De Speech SDK voor Python is beschikbaar als een PyPI-module (Python Package Index). De Speech SDK voor Python is compatibel met Windows, Linux en macOS.

  1. Installeer een versie van Python vanaf 3.10 of hoger. Controleer eerst de SDK-installatiehandleiding voor meer vereisten
  2. U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

Uw toepassing moet worden geverifieerd voor toegang tot Azure AI-servicesbronnen. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen. Nadat u bijvoorbeeld een sleutel voor uw Speech-resource hebt gedownload, schrijft u deze naar een nieuwe omgevingsvariabele op de lokale computer waarop de toepassing wordt uitgevoerd.

Tip

Neem de sleutel niet rechtstreeks op in uw code en plaats deze nooit openbaar. Zie Beveiliging van Azure AI-services voor meer verificatieopties, zoals Azure Key Vault.

Als u de omgevingsvariabele voor uw Spraak-resourcesleutel wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

  • Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
  • Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's die de omgevingsvariabele moeten lezen, opnieuw opstarten, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Onderschrift s maken op basis van spraak

Volg deze stappen om het onderschrift voorbeeld van quickstart-code te bouwen en uit te voeren.

  1. Download of kopieer de scenario's/python/console/onderschrift ing/voorbeeldbestanden van GitHub naar een lokale map.
  2. Open een opdrachtprompt in dezelfde map als captioning.py.
  3. Voer deze opdracht uit om de Speech SDK te installeren:
    pip install azure-cognitiveservices-speech
    
  4. Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Belangrijk

    Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

    Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff. Zie de indeling Voor bijschriftuitvoer voor meer informatie.

Gebruik en argumenten

Gebruik: python captioning.py --input <input file>

Verbinding maken ion-opties zijn onder andere:

  • --key: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
  • --region REGION: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

  • --input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
  • --format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en ogg_opusmulaw. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar met het JavaScript-voorbeeld onderschrift. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

  • --language LANG: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het verbreken van onderschrift s in lijnen. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

  • --offline: Offlineresultaten uitvoeren. Onderdrukkingen --realTime. De standaarduitvoermodus is offline.
  • --realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

Uitvoeropties zijn onder andere:

  • --help: Deze help en stop weergeven
  • --output FILE: uitvoer onderschrift s naar de opgegeven file. Deze vlag is vereist.
  • --srt: Uitvoer onderschrift s in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling Bijschriften voor meer informatie over SRT- en WebVTT-onderschrift-bestandsindelingen.
  • --maxLineLength LENGTH: Stel het maximum aantal tekens per regel in voor een onderschrift op LENGTE. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
  • --lines LINES: Stel het aantal regels voor een onderschrift in op LIJNEN. Minimum is 1. De standaardwaarde is 2.
  • --delay MILLISECONDS: Hoeveel MILLISECONDS om de weergave van elke onderschrift te vertragen, om een realtime ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
  • --remainTime MILLISECONDS: Hoeveel MILLISECONDEN een onderschrift moet op het scherm blijven als deze niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
  • --quiet: Console-uitvoer onderdrukken, behalve fouten.
  • --profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

In deze quickstart voert u een console-app uit om onderschrift s te maken met spraak-naar-tekst.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte resultaten te bekijken onderschrift.

Vereisten

De omgeving instellen

Volg deze stappen en bekijk de quickstart voor Speech CLI voor andere vereisten voor uw platform.

  1. Voer de volgende .NET CLI-opdracht uit om de Speech CLI te installeren:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Voer de volgende opdrachten uit om uw Spraak-resourcesleutel en -regio te configureren. Vervang door SUBSCRIPTION-KEY uw Spraak-resourcesleutel en vervang deze door REGION de spraakresourceregio.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Onderschrift s maken op basis van spraak

Met de Speech CLI kunt u zowel SRT (SubRip Text) als WebVTT (Web Video Text Tracks) uitvoeren onderschrift s van elk type media dat audio bevat.

Volg deze stappen om audio van een bestand te herkennen en zowel WebVtt (vtt) als SRT (srt) onderschrift s uit te voeren.

  1. Zorg ervoor dat u een invoerbestand met de naam caption.this.mp4 in het pad hebt.

  2. Voer de volgende opdracht uit om onderschrift s uit het videobestand uit te voeren:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    De SRT- en WebVTT-onderschrift s worden uitgevoerd naar de console, zoals hier wordt weergegeven:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Gebruik en argumenten

Hier vindt u informatie over de optionele argumenten van de vorige opdracht:

  • --file caption.this.mp4 --format any: Audio van bestand invoeren. De standaardinvoer is de microfoon. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
  • --output vtt file -en--output srt file -: voert WebVTT- en SRT-onderschrift s uit naar standaarduitvoer. Zie de uitvoerindeling Bijschriften voor meer informatie over SRT- en WebVTT-onderschrift-bestandsindelingen. Zie Speech CLI-uitvoeropties voor meer informatie over het --output argument.
  • @output.each.detailed: voert de resultaten van de gebeurtenis uit met tekst, offset en duur. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: U kunt aanvragen dat de Speech-service minder Recognizing gebeurtenissen retourneert die nauwkeuriger zijn. In dit voorbeeld moet de Speech-service de herkenning van een woord ten minste vijf keer bevestigen voordat de gedeeltelijke resultaten aan u worden geretourneerd. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.
  • --profanity masked: U kunt opgeven of u grof taalgebruik wilt maskeren, verwijderen of weergeven in herkenningsresultaten. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
  • --phrases "Constoso;Jessie;Rehaan": U kunt een lijst opgeven met zinnen die moeten worden herkend, zoals Contoso, Jessie en Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.

Resources opschonen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Volgende stappen