Bijschriften maken met spraak-naar-tekst - Quickstart voor de spraakservice - Foundry Tools

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Aanbeveling

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Aanbeveling

Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

Een Azure-abonnement. U kunt er gratis een maken.
Maak een Foundry-resource voor Spraak in de Azure-portal.
Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten.

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

U moet uw toepassing verifiëren voor toegang tot Foundry Tools. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw credenties op te slaan en te gebruiken.

Belangrijk

We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties in uw toepassingen worden opgeslagen die in de cloud draaien.

Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u API-sleutels gebruikt, slaat u deze veilig op in Azure Key Vault, draait u de sleutels regelmatig en beperkt u de toegang tot Azure Key Vault met behulp van op rollen gebaseerd toegangsbeheer en netwerktoegangsbeperkingen. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
Als u de ENDPOINT omgevingsvariabele wilt instellen, vervangt u deze door your-endpoint het werkelijke eindpunt van uw Speech-resource.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Bash (een Unix-shell en programmeertaal)

Bewerk uw .bashrc-bestand en voeg de omgevingsvariabelen toe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Nadat u de omgevingsvariabelen hebt toegevoegd, voert u source ~/.bashrc uit vanuit het consolevenster om de wijzigingen van kracht te laten worden.

Bash (een Unix-shell en programmeertaal)

Bewerk uw .bash_profile bestand en voeg de omgevingsvariabelen toe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Nadat u de omgevingsvariabelen hebt toegevoegd, voert u source ~/.bash_profile uit vanuit het consolevenster om de wijzigingen van kracht te laten worden.

Xcode

Voor iOS- en macOS-ontwikkeling stelt u de omgevingsvariabelen in Xcode in. Voer bijvoorbeeld deze stappen uit om de omgevingsvariabele in Xcode 13.4.1 in te stellen.

Selecteer Product>Schema>Schema bewerken.
Selecteer Argumenten op de pagina Uitvoeren (Foutopsporingsuitvoering).
Selecteer onder Omgevingsvariabelen het plusteken (+) om een nieuwe omgevingsvariabele toe te voegen.
Voer SPEECH_KEY in voor de naam en voer uw spraakresourcesleutel in voor de waarde.

Als u de omgevingsvariabele wilt instellen voor uw spraakresourceregio, volgt u dezelfde stappen. Stel SPEECH_REGION in op de regio van uw resource. Bijvoorbeeld: westus. Stel ENDPOINT in op het eindpunt van uw resource

Zie de Xcode-documentatie voor meer configuratieopties.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

Kopieer de scenario's/csharp/dotnetcore/captioning/ sample-bestanden van GitHub. Als Git is geïnstalleerd, opent u een opdrachtprompt en voert u de opdracht uit om de git clone opslagplaats met voorbeelden van de Speech SDK te downloaden.
```
git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
```

Open een opdrachtprompt en ga naar de projectmap.

cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/

Bouw het project met de .NET CLI.
```
dotnet build
```
Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
```
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Belangrijk

Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.

Gebruik en argumenten

Gebruik: captioning --input <input file>

Verbindingsopties zijn onder andere:

--key: Uw Foundry-resource-sleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
--region REGION: uw Foundry-resourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Belangrijk

Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u een API-sleutel gebruikt, slaat u deze veilig op in Azure Key Vault. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Invoeropties zijn onder andere:

--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en mulawogg_opus. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

--language LANG: Geef een taal op met een van de bijbehorende ondersteunde locaties. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

--offline: Offlineresultaten uitvoeren. Overschrijft --realTime. De standaarduitvoermodus is offline.
--realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoals Contoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.

Uitvoeropties zijn onder andere:

--help: Helpinformatie weergeven en stoppen
--output FILE: Bijschriften uitvoeren naar de opgegeven file. Deze vlag is vereist.
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels.
--maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
--lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Het minimum is 1. De standaardwaarde is 2.
--delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
--remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
--quiet: Console-uitvoer onderdrukken, behalve fouten.
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.

Het opschonen van middelen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatiepakket (NuGet) |

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Aanbeveling

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Aanbeveling

Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

Een Azure-abonnement. U kunt er gratis een maken.
Maak een Foundry-resource voor Spraak in de Azure-portal.
Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

U moet uw toepassing verifiëren voor toegang tot Foundry Tools. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw credenties op te slaan en te gebruiken.

Belangrijk

We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties in uw toepassingen worden opgeslagen die in de cloud draaien.

Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u API-sleutels gebruikt, slaat u deze veilig op in Azure Key Vault, draait u de sleutels regelmatig en beperkt u de toegang tot Azure Key Vault met behulp van op rollen gebaseerd toegangsbeheer en netwerktoegangsbeperkingen. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
Als u de ENDPOINT omgevingsvariabele wilt instellen, vervangt u deze door your-endpoint het werkelijke eindpunt van uw Speech-resource.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Bash (een Unix-shell en programmeertaal)

Bewerk uw .bashrc-bestand en voeg de omgevingsvariabelen toe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Nadat u de omgevingsvariabelen hebt toegevoegd, voert u source ~/.bashrc uit vanuit het consolevenster om de wijzigingen van kracht te laten worden.

Bash (een Unix-shell en programmeertaal)

Bewerk uw .bash_profile bestand en voeg de omgevingsvariabelen toe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Nadat u de omgevingsvariabelen hebt toegevoegd, voert u source ~/.bash_profile uit vanuit het consolevenster om de wijzigingen van kracht te laten worden.

Xcode

Voor iOS- en macOS-ontwikkeling stelt u de omgevingsvariabelen in Xcode in. Voer bijvoorbeeld deze stappen uit om de omgevingsvariabele in Xcode 13.4.1 in te stellen.

Selecteer Product>Schema>Schema bewerken.
Selecteer Argumenten op de pagina Uitvoeren (Foutopsporingsuitvoering).
Selecteer onder Omgevingsvariabelen het plusteken (+) om een nieuwe omgevingsvariabele toe te voegen.
Voer SPEECH_KEY in voor de naam en voer uw spraakresourcesleutel in voor de waarde.

Als u de omgevingsvariabele wilt instellen voor uw spraakresourceregio, volgt u dezelfde stappen. Stel SPEECH_REGION in op de regio van uw resource. Bijvoorbeeld: westus. Stel ENDPOINT in op het eindpunt van uw resource

Zie de Xcode-documentatie voor meer configuratieopties.

Bijschriften maken op basis van spraak

Volg deze stappen om het quickstart-codevoorbeeld voor bijschriften te bouwen en uit te voeren met Visual Studio Community 2022 in Windows.

Download of kopieer de scenario's/cpp/windows/captioning/ voorbeeldbestanden van GitHub naar een lokale map.
Open het captioning.sln oplossingsbestand in Visual Studio Community 2022.
Installeer de Speech SDK in uw project met NuGet Package Manager.
```
Install-Package Microsoft.CognitiveServices.Speech
```
Open Project>Eigenschappen>Algemeen. Stel de configuratie in op All configurations. Stel C++ Language Standard in op ISO C++17 Standard (/std:c++17).
Open Build>Configuration Manager.
- Stel op een 64-bits Windows-installatie het actieve oplossingsplatform in op x64.
- Stel op een 32-bits Windows-installatie het actieve oplossingsplatform in op x86.
Open Project>Eigenschappen>Foutopsporing. Voer de gewenste opdrachtregelargumenten in bij Opdrachtargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:
```
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Belangrijk

Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.
Bouw en voer de consoletoepassing uit .

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.

Gebruik en argumenten

Gebruik: captioning --input <input file>

Verbindingsopties zijn onder andere:

--key: Uw sleutel voor Foundry-resources. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
--region REGION: uw Foundry-resourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Belangrijk

Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u een API-sleutel gebruikt, slaat u deze veilig op in Azure Key Vault. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Invoeropties zijn onder andere:

--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en mulawogg_opus. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

--language LANG: Geef een taal op met een van de bijbehorende ondersteunde locaties. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

--offline: Offlineresultaten uitvoeren. Overschrijft --realTime. De standaarduitvoermodus is offline.
--realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoals Contoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.

Uitvoeropties zijn onder andere:

--help: Helpinformatie weergeven en stoppen
--output FILE: Bijschriften uitvoeren naar de opgegeven file. Deze vlag is vereist.
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels.
--maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
--lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Het minimum is 1. De standaardwaarde is 2.
--delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
--remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
--quiet: Console-uitvoer onderdrukken, behalve fouten.
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.

Het opschonen van middelen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Aanbeveling

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Aanbeveling

Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

Een Azure-abonnement. U kunt er gratis een maken.
Maak een Foundry-resource voor Spraak in de Azure-portal.
Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

Controleer of er platformspecifieke installatiestappen zijn.

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

Download of kopieer de scenario's/go/captioning/ voorbeeldbestanden van GitHub naar een lokale map.
Open een opdrachtprompt in dezelfde map als captioning.go.
Voer de volgende opdrachten uit om een go.mod bestand te maken dat is gekoppeld aan de Speech SDK-onderdelen die worden gehost op GitHub:
```
go mod init captioning
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
Bouw de GO-module.
```
go build
```
Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:
```
go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Vervang door uw Spraak-resourcesleutel en vervang met uw spraakresourceregio, zoals of . Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

Belangrijk

Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het artikel over de beveiliging van Foundry Tools voor meer informatie.

Resultaten controleren

Het uitvoerbestand met volledige bijschriften wordt geschreven naar caption.output.txt. Tussenliggende resultaten worden weergegeven in de console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.

Gebruik en argumenten

Gebruik: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Verbindingsopties zijn onder andere:

--key: Uw Foundry-resourcesleutel.
--region REGION: de regio van uw Foundry-resource. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en mulawogg_opus. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

--languages LANG1,LANG2: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld: en-US,ja-JP. Deze optie is alleen beschikbaar voor de voorbeelden van C++, C# en Python-bijschriften. Zie Taalidentificatie voor meer informatie.

Herkenningsopties zijn onder andere:

--recognizing: Uitvoerresultaten van Recognizing gebeurtenis. De standaarduitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoals Contoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.

Uitvoeropties zijn onder andere:

--help: Helpinformatie weergeven en stoppen
--output FILE: Bijschriften uitvoeren naar de opgegeven file. Deze vlag is vereist.
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels.
--quiet: Console-uitvoer onderdrukken, behalve fouten.
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.

Het opschonen van middelen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatie | Aanvullende voorbeelden op GitHub

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Aanbeveling

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Aanbeveling

Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

Een Azure-abonnement. U kunt er gratis een maken.
Maak een Foundry-resource voor Spraak in de Azure-portal.
Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

Voordat u iets kunt doen, moet u de Speech SDK installeren. Het voorbeeld in deze quickstart werkt met de Microsoft Build van OpenJDK 17

Installeer Apache Maven. Voer vervolgens uit mvn -v om de installatie te bevestigen.

Maak een nieuw pom.xml bestand in de hoofdmap van uw project en kopieer het volgende erin:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.43.0</version>
        </dependency>
    </dependencies>
</project>

Installeer de Speech SDK en afhankelijkheden.
```
mvn clean dependency:copy-dependencies
```
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

U moet uw toepassing verifiëren voor toegang tot Foundry Tools. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw credenties op te slaan en te gebruiken.

Belangrijk

We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties in uw toepassingen worden opgeslagen die in de cloud draaien.

Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u API-sleutels gebruikt, slaat u deze veilig op in Azure Key Vault, draait u de sleutels regelmatig en beperkt u de toegang tot Azure Key Vault met behulp van op rollen gebaseerd toegangsbeheer en netwerktoegangsbeperkingen. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
Als u de ENDPOINT omgevingsvariabele wilt instellen, vervangt u deze door your-endpoint het werkelijke eindpunt van uw Speech-resource.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Bash (een Unix-shell en programmeertaal)

Bewerk uw .bashrc-bestand en voeg de omgevingsvariabelen toe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Nadat u de omgevingsvariabelen hebt toegevoegd, voert u source ~/.bashrc uit vanuit het consolevenster om de wijzigingen van kracht te laten worden.

Bash (een Unix-shell en programmeertaal)

Bewerk uw .bash_profile bestand en voeg de omgevingsvariabelen toe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Nadat u de omgevingsvariabelen hebt toegevoegd, voert u source ~/.bash_profile uit vanuit het consolevenster om de wijzigingen van kracht te laten worden.

Xcode

Voor iOS- en macOS-ontwikkeling stelt u de omgevingsvariabelen in Xcode in. Voer bijvoorbeeld deze stappen uit om de omgevingsvariabele in Xcode 13.4.1 in te stellen.

Selecteer Product>Schema>Schema bewerken.
Selecteer Argumenten op de pagina Uitvoeren (Foutopsporingsuitvoering).
Selecteer onder Omgevingsvariabelen het plusteken (+) om een nieuwe omgevingsvariabele toe te voegen.
Voer SPEECH_KEY in voor de naam en voer uw spraakresourcesleutel in voor de waarde.

Als u de omgevingsvariabele wilt instellen voor uw spraakresourceregio, volgt u dezelfde stappen. Stel SPEECH_REGION in op de regio van uw resource. Bijvoorbeeld: westus. Stel ENDPOINT in op het eindpunt van uw resource

Zie de Xcode-documentatie voor meer configuratieopties.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

Kopieer de scenario's/java/jre/captioning/ voorbeeldbestanden van GitHub naar uw projectdirectory. Het pom.xml bestand dat u in de omgevingsinstallatie hebt gemaakt, moet zich ook in deze map bevinden.
Open een opdrachtprompt en voer deze opdracht uit om de projectbestanden te compileren.
```
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
```
Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
```
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Belangrijk

Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.

Gebruik en argumenten

Gebruik: java -cp ".;target\dependency\*" Captioning --input <input file>

Verbindingsopties zijn onder andere:

--key: Uw sleutel voor Foundry-resources. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
--region REGION: uw Foundry-resourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Belangrijk

Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u een API-sleutel gebruikt, slaat u deze veilig op in Azure Key Vault. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Invoeropties zijn onder andere:

--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en mulawogg_opus. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

--language LANG: Geef een taal op met een van de bijbehorende ondersteunde locaties. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

--offline: Offlineresultaten uitvoeren. Overschrijft --realTime. De standaarduitvoermodus is offline.
--realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoals Contoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.

Uitvoeropties zijn onder andere:

--help: Helpinformatie weergeven en stoppen
--output FILE: Bijschriften uitvoeren naar de opgegeven file. Deze vlag is vereist.
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels.
--maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
--lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Het minimum is 1. De standaardwaarde is 2.
--delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
--remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
--quiet: Console-uitvoer onderdrukken, behalve fouten.
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.

Het opschonen van middelen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Referentiedocumentatie | Pakket (npm) | Aanvullende voorbeelden op GitHub | Bibliotheek broncode

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Aanbeveling

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Aanbeveling

Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

Een Azure-abonnement. U kunt er gratis een maken.
Maak een Foundry-resource voor Spraak in de Azure-portal.
Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

Voordat u iets kunt doen, moet u de Speech SDK voor JavaScript installeren. Als u alleen de pakketnaam wilt installeren, voert u het volgende uit npm install microsoft-cognitiveservices-speech-sdk. Zie de SDK-installatiehandleiding voor begeleide installatie-instructies.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

Kopieer de scenario's/javascript/node/captioning/ voorbeeldbestanden van GitHub naar uw projectmap.
Open een opdrachtprompt in dezelfde map als Captioning.js.

Installeer de Speech SDK voor JavaScript:

npm install microsoft-cognitiveservices-speech-sdk

Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:
```
node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Vervang door uw Spraak-resourcesleutel en vervang met uw spraakresourceregio, zoals of . Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

Notitie

De Speech SDK voor JavaScript biedt geen ondersteuning voor gecomprimeerde invoeraudio. U moet een WAV-bestand gebruiken, zoals wordt weergegeven in het voorbeeld.

Belangrijk

Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het artikel over de beveiliging van Foundry Tools voor meer informatie.

Resultaten controleren

Het uitvoerbestand met volledige bijschriften wordt geschreven naar caption.output.txt. Tussenliggende resultaten worden weergegeven in de console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.

Gebruik en argumenten

Gebruik: node captioning.js --key <key> --region <region> --input <input file>

Verbindingsopties zijn onder andere:

--key: Uw Foundry-resourcesleutel.
--region REGION: uw Foundry-resourceregio. Voorbeelden: westus, northeurope

Invoeropties zijn onder andere:

--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en mulawogg_opus. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

--languages LANG1,LANG2: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld: en-US,ja-JP. Deze optie is alleen beschikbaar voor de voorbeelden van C++, C# en Python-bijschriften. Zie Taalidentificatie voor meer informatie.

Herkenningsopties zijn onder andere:

--recognizing: Uitvoerresultaten van Recognizing gebeurtenis. De standaarduitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoals Contoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.

Uitvoeropties zijn onder andere:

--help: Helpinformatie weergeven en stoppen
--output FILE: Bijschriften uitvoeren naar de opgegeven file. Deze vlag is vereist.
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels.
--quiet: Console-uitvoer onderdrukken, behalve fouten.
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.

Het opschonen van middelen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

De Speech SDK voor Objective-C biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor bijschriften, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Objective-C-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.

De Speech SDK voor Swift biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor bijschriften, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Swift-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.

Referentiedocumentatiepakket (PyPi) |

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Aanbeveling

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Aanbeveling

Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

Een Azure-abonnement. U kunt er gratis een maken.
Maak een Foundry-resource voor Spraak in de Azure-portal.
Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

De Speech SDK voor Python is beschikbaar als een PyPI-module (Python Package Index). De Speech SDK voor Python is compatibel met Windows, Linux en macOS.

U moet Microsoft Visual C++ Redistributable installeren voor Visual Studio 2015, 2017, 2019 en 2022 voor uw platform. Als u dit pakket voor de eerste keer installeert, moet u mogelijk opnieuw opstarten.
In Linux moet u de x64-doelarchitectuur gebruiken.

Installeer een versie van Python vanaf 3.10 of hoger. Controleer eerst de SDK-installatiehandleiding voor meer vereisten
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Omgevingsvariabelen instellen

U moet uw toepassing verifiëren voor toegang tot Foundry Tools. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw credenties op te slaan en te gebruiken.

Belangrijk

We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties in uw toepassingen worden opgeslagen die in de cloud draaien.

Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u API-sleutels gebruikt, slaat u deze veilig op in Azure Key Vault, draait u de sleutels regelmatig en beperkt u de toegang tot Azure Key Vault met behulp van op rollen gebaseerd toegangsbeheer en netwerktoegangsbeperkingen. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.

Als u de SPEECH_KEY omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource.
Als u de SPEECH_REGION omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
Als u de ENDPOINT omgevingsvariabele wilt instellen, vervangt u deze door your-endpoint het werkelijke eindpunt van uw Speech-resource.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Notitie

Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.

Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.

Bash (een Unix-shell en programmeertaal)

Bewerk uw .bashrc-bestand en voeg de omgevingsvariabelen toe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Nadat u de omgevingsvariabelen hebt toegevoegd, voert u source ~/.bashrc uit vanuit het consolevenster om de wijzigingen van kracht te laten worden.

Bash (een Unix-shell en programmeertaal)

Bewerk uw .bash_profile bestand en voeg de omgevingsvariabelen toe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Nadat u de omgevingsvariabelen hebt toegevoegd, voert u source ~/.bash_profile uit vanuit het consolevenster om de wijzigingen van kracht te laten worden.

Xcode

Voor iOS- en macOS-ontwikkeling stelt u de omgevingsvariabelen in Xcode in. Voer bijvoorbeeld deze stappen uit om de omgevingsvariabele in Xcode 13.4.1 in te stellen.

Selecteer Product>Schema>Schema bewerken.
Selecteer Argumenten op de pagina Uitvoeren (Foutopsporingsuitvoering).
Selecteer onder Omgevingsvariabelen het plusteken (+) om een nieuwe omgevingsvariabele toe te voegen.
Voer SPEECH_KEY in voor de naam en voer uw spraakresourcesleutel in voor de waarde.

Als u de omgevingsvariabele wilt instellen voor uw spraakresourceregio, volgt u dezelfde stappen. Stel SPEECH_REGION in op de regio van uw resource. Bijvoorbeeld: westus. Stel ENDPOINT in op het eindpunt van uw resource

Zie de Xcode-documentatie voor meer configuratieopties.

Bijschriften maken op basis van spraak

Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.

Download of kopieer de scenario's/python/console/captioning/ samplebestanden van GitHub naar een lokale map.
Open een opdrachtprompt in dezelfde map als captioning.py.
Voer deze opdracht uit om de Speech SDK te installeren:
```
pip install azure-cognitiveservices-speech
```
Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
```
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Belangrijk

Zorg ervoor dat de paden die zijn opgegeven door --input en --output geldig zijn. Anders moet u de paden wijzigen.

Zorg ervoor dat u de SPEECH_KEY en SPEECH_REGION omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de --key en --region argumenten.

Resultaten controleren

Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.

Gebruik en argumenten

Gebruik: python captioning.py --input <input file>

Verbindingsopties zijn onder andere:

--key: Uw Foundry-resourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de --key optie gebruiken.
--region REGION: uw Foundry-resourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de --region optie gebruiken. Voorbeelden: westus, northeurope

Belangrijk

Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u een API-sleutel gebruikt, slaat u deze veilig op in Azure Key Vault. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.

Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.

Invoeropties zijn onder andere:

--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon.
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met --file. Geldige waarden zijnalaw, any, flac, , mp3en mulawogg_opus. De standaardwaarde is any. Als u een wav bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.

Taalopties zijn onder andere:

--language LANG: Geef een taal op met een van de bijbehorende ondersteunde locaties. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde is en-US.

Herkenningsopties zijn onder andere:

--offline: Offlineresultaten uitvoeren. Overschrijft --realTime. De standaarduitvoermodus is offline.
--realTime: Uitvoer realtime resultaten.

Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Opties voor nauwkeurigheid zijn onder andere:

--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoals Contoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.

Uitvoeropties zijn onder andere:

--help: Helpinformatie weergeven en stoppen
--output FILE: Bijschriften uitvoeren naar de opgegeven file. Deze vlag is vereist.
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels.
--maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).
--lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Het minimum is 1. De standaardwaarde is 2.
--delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.
--remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.
--quiet: Console-uitvoer onderdrukken, behalve fouten.
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is 3. Deze optie is alleen van toepassing wanneer u de realTime vlag gebruikt. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.

Het opschonen van middelen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.

Aanbeveling

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.

Aanbeveling

Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.

Vereisten

Een Azure-abonnement. U kunt er gratis een maken.
Maak een Foundry-resource voor Spraak in de Azure-portal.
Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.

De omgeving instellen

Volg deze stappen en bekijk de quickstart voor Speech CLI voor andere vereisten voor uw platform.

Voer de volgende .NET CLI-opdracht uit om de Speech CLI te installeren:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Voer de volgende opdrachten uit om uw Spraak-resourcesleutel en -regio te configureren. Vervang SUBSCRIPTION-KEY door uw spraakresourcesleutel en vervang REGION door uw spraakresourceregio.
- Terminaal
- Powershell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.

Bijschriften maken op basis van spraak

Met de Speech CLI kunt u zowel SRT-bijschriften (SubRip Text) als WebVTT (Web Video Text Tracks) uitvoeren vanaf elk type media dat audio bevat.

Als u audio van een bestand wilt herkennen en zowel WebVtt-bijschriften (vtt) als SRT-bijschriftensrt wilt uitvoeren, volgt u deze stappen.

Zorg ervoor dat u een invoerbestand met de naam caption.this.mp4 in het pad hebt.

Voer de volgende opdracht uit om bijschriften uit het videobestand uit te voeren:

spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"

De SRT- en WebVTT-ondertitels worden naar de console uitgevoerd zoals hier getoond.

1
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
WEBVTT

00:00:00.180 --> 00:00:03.230
Welcome to applied Mathematics course 201.
{
  "ResultId": "561a0ea00cc14bb09bd294357df3270f",
  "Duration": "00:00:03.0500000"
}

Gebruik en argumenten

Hier vindt u informatie over de optionele argumenten van de vorige opdracht:

--file caption.this.mp4 --format any: Audio van bestand invoeren. De standaardinvoer is de microfoon. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
--output vtt file - en --output srt file -: voert WebVTT- en SRT-bijschriften uit naar standaarduitvoer. Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels. Zie --output voor meer informatie over het argument.
@output.each.detailed: voert de resultaten van de gebeurtenis uit met tekst, offset en duur. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
--property SpeechServiceResponse_StablePartialResultThreshold=5: U kunt aanvragen dat de Speech-service minder Recognizing gebeurtenissen retourneert die nauwkeuriger zijn. In dit voorbeeld moet de Speech-service de herkenning van een woord ten minste vijf keer bevestigen voordat de gedeeltelijke resultaten aan u worden geretourneerd. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.
--profanity masked: U kunt opgeven of u grof taalgebruik wilt maskeren, verwijderen of weergeven in herkenningsresultaten. Zie De filterconcepten voor grof taalgebruik voor meer informatie.
--phrases "Constoso;Jessie;Rehaan": U kunt een lijst opgeven met zinnen die moeten worden herkend, zoals Contoso, Jessie en Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.

Het opschonen van middelen

U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.

Delen via

Snelle Start: Ondertitels maken met spraak-naar-tekst

Vereisten

De omgeving instellen

Omgevingsvariabelen instellen

Bijschriften maken op basis van spraak

Resultaten controleren

Gebruik en argumenten

Het opschonen van middelen

Vereisten

De omgeving instellen

Omgevingsvariabelen instellen

Bijschriften maken op basis van spraak

Resultaten controleren

Gebruik en argumenten

Het opschonen van middelen

Vereisten

De omgeving instellen

Bijschriften maken op basis van spraak

Resultaten controleren

Gebruik en argumenten

Het opschonen van middelen

Vereisten

De omgeving instellen

Omgevingsvariabelen instellen

Bijschriften maken op basis van spraak

Resultaten controleren

Gebruik en argumenten

Het opschonen van middelen

Vereisten

De omgeving instellen

Bijschriften maken op basis van spraak

Resultaten controleren

Gebruik en argumenten

Het opschonen van middelen

Vereisten

De omgeving instellen

Omgevingsvariabelen instellen

Bijschriften maken op basis van spraak

Resultaten controleren

Gebruik en argumenten

Het opschonen van middelen

Vereisten

De omgeving instellen

Bijschriften maken op basis van spraak

Gebruik en argumenten

Het opschonen van middelen

Volgende stappen

Feedback

Aanvullende resources