Quickstart: Bijschriften maken met spraak-naar-tekst
Referentiedocumentatiepakket (NuGet) | Aanvullende voorbeelden op GitHub |
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Tip
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Tip
Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een spraakresource in Azure Portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten.
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Omgevingsvariabelen instellen
U moet uw toepassing verifiëren voor toegang tot Azure AI-services. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw referenties op te slaan en te openen.
Belangrijk
We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties worden opgeslagen met uw toepassingen die in de cloud worden uitgevoerd.
Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.
- Als u de
SPEECH_KEY
omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource. - Als u de
SPEECH_REGION
omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notitie
Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set
plaats van setx
.
Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
- Kopieer de scenario's/csharp/dotnetcore/captioning/ sample-bestanden van GitHub. Als Git is geïnstalleerd, opent u een opdrachtprompt en voert u de opdracht uit om de
git clone
opslagplaats met voorbeelden van de Speech SDK te downloaden.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
- Open een opdrachtprompt en ga naar de projectmap.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
- Bouw het project met de .NET CLI.
dotnet build
- Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Belangrijk
Zorg ervoor dat de paden die zijn opgegeven door
--input
en--output
geldig zijn. Anders moet u de paden wijzigen.Zorg ervoor dat u de
SPEECH_KEY
enSPEECH_REGION
omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de--key
en--region
argumenten.
Resultaten controleren
Wanneer u de realTime
optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing
gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized
gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing
en Recognized
gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wanneer u de --offline
optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized
gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff
. Zie de indeling Voor bijschriftuitvoer voor meer informatie.
Gebruik en argumenten
Gebruik: captioning --input <input file>
Verbindingsopties zijn onder andere:
--key
: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de--key
optie gebruiken.--region REGION
: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de--region
optie gebruiken. Voorbeelden:westus
,northeurope
Belangrijk
Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Invoeropties zijn onder andere:
--input FILE
: Audio van bestand invoeren. De standaardinvoer is de microfoon.--format FORMAT
: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file
. Geldige waarden zijnalaw
,any
,flac
, ,mp3
enogg_opus
mulaw
. De standaardwaarde isany
. Als u eenwav
bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
--language LANG
: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde isen-US
.
Herkenningsopties zijn onder andere:
--offline
: Offlineresultaten uitvoeren. Onderdrukkingen--realTime
. De standaarduitvoermodus is offline.--realTime
: Uitvoer realtime resultaten.
Realtime-uitvoer bevat Recognizing
gebeurtenisresultaten. De standaard offlineuitvoer is Recognized
alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet
optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
--phrases PHRASE1;PHRASE2
: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan
. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
--help
: Deze help en stop weergeven--output FILE
: Uitvoerbijschriften naar de opgegevenfile
. Deze vlag is vereist.--srt
: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.--maxLineLength LENGTH
: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).--lines LINES
: Stel het aantal regels voor een bijschrift in op REGELS. Minimum is 1. De standaardwaarde is 2.--delay MILLISECONDS
: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u derealTime
vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.--remainTime MILLISECONDS
: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.--quiet
: Console-uitvoer onderdrukken, behalve fouten.--profanity OPTION
: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.--threshold NUMBER
: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3
. Deze optie is alleen van toepassing wanneer u derealTime
vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.
Resources opschonen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
Referentiedocumentatiepakket (NuGet) | Aanvullende voorbeelden op GitHub |
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Tip
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Tip
Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een spraakresource in Azure Portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Omgevingsvariabelen instellen
U moet uw toepassing verifiëren voor toegang tot Azure AI-services. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw referenties op te slaan en te openen.
Belangrijk
We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties worden opgeslagen met uw toepassingen die in de cloud worden uitgevoerd.
Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.
- Als u de
SPEECH_KEY
omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource. - Als u de
SPEECH_REGION
omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notitie
Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set
plaats van setx
.
Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.
Bijschriften maken op basis van spraak
Volg deze stappen om het quickstart-codevoorbeeld voor bijschriften te bouwen en uit te voeren met Visual Studio Community 2022 in Windows.
Download of kopieer de scenario's/cpp/windows/captioning/ voorbeeldbestanden van GitHub naar een lokale map.
Open het
captioning.sln
oplossingsbestand in Visual Studio Community 2022.Installeer de Speech SDK in uw project met NuGet Package Manager.
Install-Package Microsoft.CognitiveServices.Speech
Open Projecteigenschappen>>Algemeen. Stel de configuratie in op
All configurations
. Stel C++ Language Standard in opISO C++17 Standard (/std:c++17)
.Open Build>Configuration Manager.
- Stel op een 64-bits Windows-installatie het actieve oplossingsplatform in op
x64
. - Stel op een 32-bits Windows-installatie het actieve oplossingsplatform in op
x86
.
- Stel op een 64-bits Windows-installatie het actieve oplossingsplatform in op
Foutopsporing van projecteigenschappen>>openen. Voer de gewenste opdrachtregelargumenten in bij Opdrachtargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Belangrijk
Zorg ervoor dat de paden die zijn opgegeven door
--input
en--output
geldig zijn. Anders moet u de paden wijzigen.Zorg ervoor dat u de
SPEECH_KEY
enSPEECH_REGION
omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de--key
en--region
argumenten.
Resultaten controleren
Wanneer u de realTime
optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing
gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized
gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing
en Recognized
gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wanneer u de --offline
optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized
gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff
. Zie de indeling Voor bijschriftuitvoer voor meer informatie.
Gebruik en argumenten
Gebruik: captioning --input <input file>
Verbindingsopties zijn onder andere:
--key
: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de--key
optie gebruiken.--region REGION
: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de--region
optie gebruiken. Voorbeelden:westus
,northeurope
Belangrijk
Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Invoeropties zijn onder andere:
--input FILE
: Audio van bestand invoeren. De standaardinvoer is de microfoon.--format FORMAT
: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file
. Geldige waarden zijnalaw
,any
,flac
, ,mp3
enogg_opus
mulaw
. De standaardwaarde isany
. Als u eenwav
bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
--language LANG
: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde isen-US
.
Herkenningsopties zijn onder andere:
--offline
: Offlineresultaten uitvoeren. Onderdrukkingen--realTime
. De standaarduitvoermodus is offline.--realTime
: Uitvoer realtime resultaten.
Realtime-uitvoer bevat Recognizing
gebeurtenisresultaten. De standaard offlineuitvoer is Recognized
alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet
optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
--phrases PHRASE1;PHRASE2
: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan
. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
--help
: Deze help en stop weergeven--output FILE
: Uitvoerbijschriften naar de opgegevenfile
. Deze vlag is vereist.--srt
: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.--maxLineLength LENGTH
: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).--lines LINES
: Stel het aantal regels voor een bijschrift in op REGELS. Minimum is 1. De standaardwaarde is 2.--delay MILLISECONDS
: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u derealTime
vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.--remainTime MILLISECONDS
: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.--quiet
: Console-uitvoer onderdrukken, behalve fouten.--profanity OPTION
: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.--threshold NUMBER
: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3
. Deze optie is alleen van toepassing wanneer u derealTime
vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.
Resources opschonen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
Referentiedocumentatiepakket (Go) | Aanvullende voorbeelden op GitHub |
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Tip
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Tip
Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een spraakresource in Azure Portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
Controleer of er platformspecifieke installatiestappen zijn.
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
Download of kopieer de scenario's/go/captioning/ voorbeeldbestanden van GitHub naar een lokale map.
Open een opdrachtprompt in dezelfde map als
captioning.go
.Voer de volgende opdrachten uit om een
go.mod
bestand te maken dat is gekoppeld aan de Speech SDK-onderdelen die worden gehost op GitHub:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-go
Bouw de GO-module.
go build
Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Vervang
YourSubscriptionKey
door uw Spraak-resourcesleutel en vervang deze doorYourServiceRegion
uw spraakresourceregio, zoalswestus
ofnortheurope
. Zorg ervoor dat de paden die zijn opgegeven door--input
en--output
geldig zijn. Anders moet u de paden wijzigen.Belangrijk
Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het beveiligingsartikel over Azure AI-services voor meer informatie.
Resultaten controleren
Het uitvoerbestand met volledige bijschriften wordt geschreven naar caption.output.txt
. Tussenliggende resultaten worden weergegeven in de console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff
. Zie de indeling Voor bijschriftuitvoer voor meer informatie.
Gebruik en argumenten
Gebruik: go run captioning.go helper.go --key <key> --region <region> --input <input file>
Verbindingsopties zijn onder andere:
--key
: uw spraakresourcesleutel.--region REGION
: uw spraakresourceregio. Voorbeelden:westus
,northeurope
Invoeropties zijn onder andere:
--input FILE
: Audio van bestand invoeren. De standaardinvoer is de microfoon.--format FORMAT
: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file
. Geldige waarden zijnalaw
,any
,flac
, ,mp3
enogg_opus
mulaw
. De standaardwaarde isany
. Als u eenwav
bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
--languages LANG1,LANG2
: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld:en-US,ja-JP
. Deze optie is alleen beschikbaar voor de voorbeelden van C++, C# en Python-bijschriften. Zie Taalidentificatie voor meer informatie.
Herkenningsopties zijn onder andere:
--recognizing
: Resultaten van uitvoerRecognizing
gebeurtenis. De standaarduitvoer isRecognized
alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De--quiet
optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
--phrases PHRASE1;PHRASE2
: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan
. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
--help
: Deze help en stop weergeven--output FILE
: Uitvoerbijschriften naar de opgegevenfile
. Deze vlag is vereist.--srt
: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.--quiet
: Console-uitvoer onderdrukken, behalve fouten.--profanity OPTION
: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.--threshold NUMBER
: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3
. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.
Resources opschonen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
Referentiedocumentatie | Aanvullende voorbeelden op GitHub
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Tip
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Tip
Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een spraakresource in Azure Portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
Voordat u iets kunt doen, moet u de Speech SDK installeren. Het voorbeeld in deze quickstart werkt met de Microsoft Build van OpenJDK 17
- Installeer Apache Maven. Voer vervolgens uit
mvn -v
om de installatie te bevestigen. - Maak een nieuw
pom.xml
bestand in de hoofdmap van uw project en kopieer het volgende erin:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.40.0</version> </dependency> </dependencies> </project>
- Installeer de Speech SDK en afhankelijkheden.
mvn clean dependency:copy-dependencies
- U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Omgevingsvariabelen instellen
U moet uw toepassing verifiëren voor toegang tot Azure AI-services. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw referenties op te slaan en te openen.
Belangrijk
We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties worden opgeslagen met uw toepassingen die in de cloud worden uitgevoerd.
Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.
- Als u de
SPEECH_KEY
omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource. - Als u de
SPEECH_REGION
omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notitie
Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set
plaats van setx
.
Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
- Kopieer de scenario's/java/jre/captioning/ sample files van GitHub naar uw projectmap. Het
pom.xml
bestand dat u in de omgevingsinstallatie hebt gemaakt, moet zich ook in deze map bevinden. - Open een opdrachtprompt en voer deze opdracht uit om de projectbestanden te compileren.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
- Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Belangrijk
Zorg ervoor dat de paden die zijn opgegeven door
--input
en--output
geldig zijn. Anders moet u de paden wijzigen.Zorg ervoor dat u de
SPEECH_KEY
enSPEECH_REGION
omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de--key
en--region
argumenten.
Resultaten controleren
Wanneer u de realTime
optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing
gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized
gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing
en Recognized
gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wanneer u de --offline
optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized
gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff
. Zie de indeling Voor bijschriftuitvoer voor meer informatie.
Gebruik en argumenten
Gebruik: java -cp ".;target\dependency\*" Captioning --input <input file>
Verbindingsopties zijn onder andere:
--key
: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de--key
optie gebruiken.--region REGION
: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de--region
optie gebruiken. Voorbeelden:westus
,northeurope
Belangrijk
Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Invoeropties zijn onder andere:
--input FILE
: Audio van bestand invoeren. De standaardinvoer is de microfoon.--format FORMAT
: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file
. Geldige waarden zijnalaw
,any
,flac
, ,mp3
enogg_opus
mulaw
. De standaardwaarde isany
. Als u eenwav
bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
--language LANG
: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde isen-US
.
Herkenningsopties zijn onder andere:
--offline
: Offlineresultaten uitvoeren. Onderdrukkingen--realTime
. De standaarduitvoermodus is offline.--realTime
: Uitvoer realtime resultaten.
Realtime-uitvoer bevat Recognizing
gebeurtenisresultaten. De standaard offlineuitvoer is Recognized
alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet
optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
--phrases PHRASE1;PHRASE2
: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan
. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
--help
: Deze help en stop weergeven--output FILE
: Uitvoerbijschriften naar de opgegevenfile
. Deze vlag is vereist.--srt
: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.--maxLineLength LENGTH
: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).--lines LINES
: Stel het aantal regels voor een bijschrift in op REGELS. Minimum is 1. De standaardwaarde is 2.--delay MILLISECONDS
: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u derealTime
vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.--remainTime MILLISECONDS
: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.--quiet
: Console-uitvoer onderdrukken, behalve fouten.--profanity OPTION
: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.--threshold NUMBER
: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3
. Deze optie is alleen van toepassing wanneer u derealTime
vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.
Resources opschonen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
Referentiedocumentatiepakket (npm) | Aanvullende voorbeelden in broncode van GitHub Library | |
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Tip
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Tip
Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een spraakresource in Azure Portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
Voordat u iets kunt doen, moet u de Speech SDK voor JavaScript installeren. Als u alleen de pakketnaam wilt installeren, voert u het volgende uit npm install microsoft-cognitiveservices-speech-sdk
. Zie de SDK-installatiehandleiding voor begeleide installatie-instructies.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
Kopieer de scenario's/javascript/node/captioning/ voorbeeldbestanden van GitHub naar uw projectmap.
Open een opdrachtprompt in dezelfde map als
Captioning.js
.Installeer de Speech SDK voor JavaScript:
npm install microsoft-cognitiveservices-speech-sdk
Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Vervang
YourSubscriptionKey
door uw Spraak-resourcesleutel en vervang deze doorYourServiceRegion
uw spraakresourceregio, zoalswestus
ofnortheurope
. Zorg ervoor dat de paden die zijn opgegeven door--input
en--output
geldig zijn. Anders moet u de paden wijzigen.Notitie
De Speech SDK voor JavaScript biedt geen ondersteuning voor gecomprimeerde invoeraudio. U moet een WAV-bestand gebruiken, zoals wordt weergegeven in het voorbeeld.
Belangrijk
Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het beveiligingsartikel over Azure AI-services voor meer informatie.
Resultaten controleren
Het uitvoerbestand met volledige bijschriften wordt geschreven naar caption.output.txt
. Tussenliggende resultaten worden weergegeven in de console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff
. Zie de indeling Voor bijschriftuitvoer voor meer informatie.
Gebruik en argumenten
Gebruik: node captioning.js --key <key> --region <region> --input <input file>
Verbindingsopties zijn onder andere:
--key
: uw spraakresourcesleutel.--region REGION
: uw spraakresourceregio. Voorbeelden:westus
,northeurope
Invoeropties zijn onder andere:
--input FILE
: Audio van bestand invoeren. De standaardinvoer is de microfoon.--format FORMAT
: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file
. Geldige waarden zijnalaw
,any
,flac
, ,mp3
enogg_opus
mulaw
. De standaardwaarde isany
. Als u eenwav
bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
--languages LANG1,LANG2
: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld:en-US,ja-JP
. Deze optie is alleen beschikbaar voor de voorbeelden van C++, C# en Python-bijschriften. Zie Taalidentificatie voor meer informatie.
Herkenningsopties zijn onder andere:
--recognizing
: Resultaten van uitvoerRecognizing
gebeurtenis. De standaarduitvoer isRecognized
alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De--quiet
optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
--phrases PHRASE1;PHRASE2
: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan
. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
--help
: Deze help en stop weergeven--output FILE
: Uitvoerbijschriften naar de opgegevenfile
. Deze vlag is vereist.--srt
: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.--quiet
: Console-uitvoer onderdrukken, behalve fouten.--profanity OPTION
: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.--threshold NUMBER
: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3
. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.
Resources opschonen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
Referentiedocumentatiepakket (download) | Aanvullende voorbeelden op GitHub |
De Speech SDK voor Objective-C biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor bijschriften, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Objective-C-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.
Referentiedocumentatiepakket (download) | Aanvullende voorbeelden op GitHub |
De Speech SDK voor Swift biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor bijschriften, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Swift-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.
Referentiedocumentatiepakket (PyPi) | Aanvullende voorbeelden op GitHub |
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Tip
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Tip
Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een spraakresource in Azure Portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
De Speech SDK voor Python is beschikbaar als een PyPI-module (Python Package Index). De Speech SDK voor Python is compatibel met Windows, Linux en macOS.
- U moet Microsoft Visual C++ Redistributable installeren voor Visual Studio 2015, 2017, 2019 en 2022 voor uw platform. Als u dit pakket voor de eerste keer installeert, moet u mogelijk opnieuw opstarten.
- In Linux moet u de x64-doelarchitectuur gebruiken.
- Installeer een versie van Python vanaf 3.10 of hoger. Controleer eerst de SDK-installatiehandleiding voor meer vereisten
- U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Omgevingsvariabelen instellen
U moet uw toepassing verifiëren voor toegang tot Azure AI-services. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw referenties op te slaan en te openen.
Belangrijk
We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties worden opgeslagen met uw toepassingen die in de cloud worden uitgevoerd.
Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.
- Als u de
SPEECH_KEY
omgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource. - Als u de
SPEECH_REGION
omgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Notitie
Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set
plaats van setx
.
Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
- Download of kopieer de scenario's/python/console/captioning/ samplebestanden van GitHub naar een lokale map.
- Open een opdrachtprompt in dezelfde map als
captioning.py
. - Voer deze opdracht uit om de Speech SDK te installeren:
pip install azure-cognitiveservices-speech
- Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Belangrijk
Zorg ervoor dat de paden die zijn opgegeven door
--input
en--output
geldig zijn. Anders moet u de paden wijzigen.Zorg ervoor dat u de
SPEECH_KEY
enSPEECH_REGION
omgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de--key
en--region
argumenten.
Resultaten controleren
Wanneer u de realTime
optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing
gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized
gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing
en Recognized
gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wanneer u de --offline
optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized
gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff
. Zie de indeling Voor bijschriftuitvoer voor meer informatie.
Gebruik en argumenten
Gebruik: python captioning.py --input <input file>
Verbindingsopties zijn onder andere:
--key
: uw spraakresourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de--key
optie gebruiken.--region REGION
: uw spraakresourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de--region
optie gebruiken. Voorbeelden:westus
,northeurope
Belangrijk
Als u een API-sleutel gebruikt, slaat u deze veilig op ergens anders op, zoals in Azure Key Vault. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Invoeropties zijn onder andere:
--input FILE
: Audio van bestand invoeren. De standaardinvoer is de microfoon.--format FORMAT
: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file
. Geldige waarden zijnalaw
,any
,flac
, ,mp3
enogg_opus
mulaw
. De standaardwaarde isany
. Als u eenwav
bestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld van bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
--language LANG
: Geef een taal op met een van de bijbehorende ondersteunde landinstellingen. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde isen-US
.
Herkenningsopties zijn onder andere:
--offline
: Offlineresultaten uitvoeren. Onderdrukkingen--realTime
. De standaarduitvoermodus is offline.--realTime
: Uitvoer realtime resultaten.
Realtime-uitvoer bevat Recognizing
gebeurtenisresultaten. De standaard offlineuitvoer is Recognized
alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet
optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
--phrases PHRASE1;PHRASE2
: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan
. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
--help
: Deze help en stop weergeven--output FILE
: Uitvoerbijschriften naar de opgegevenfile
. Deze vlag is vereist.--srt
: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen.--maxLineLength LENGTH
: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees).--lines LINES
: Stel het aantal regels voor een bijschrift in op REGELS. Minimum is 1. De standaardwaarde is 2.--delay MILLISECONDS
: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u derealTime
vlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000.--remainTime MILLISECONDS
: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000.--quiet
: Console-uitvoer onderdrukken, behalve fouten.--profanity OPTION
: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie.--threshold NUMBER
: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3
. Deze optie is alleen van toepassing wanneer u derealTime
vlag gebruikt. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.
Resources opschonen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Tip
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Tip
Probeer de Azure AI Speech Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een spraakresource in Azure Portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
Volg deze stappen en bekijk de quickstart voor Speech CLI voor andere vereisten voor uw platform.
Voer de volgende .NET CLI-opdracht uit om de Speech CLI te installeren:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Voer de volgende opdrachten uit om uw Spraak-resourcesleutel en -regio te configureren. Vervang door
SUBSCRIPTION-KEY
uw Spraak-resourcesleutel en vervang deze doorREGION
de spraakresourceregio.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Bijschriften maken op basis van spraak
Met de Speech CLI kunt u zowel SRT-bijschriften (SubRip Text) als WebVTT (Web Video Text Tracks) uitvoeren vanaf elk type media dat audio bevat.
Als u audio van een bestand wilt herkennen en zowel WebVtt-bijschriften (vtt
) als SRT-bijschriftensrt
wilt uitvoeren, volgt u deze stappen.
Zorg ervoor dat u een invoerbestand met de naam
caption.this.mp4
in het pad hebt.Voer de volgende opdracht uit om bijschriften uit het videobestand uit te voeren:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
De SRT- en WebVTT-bijschriften worden uitgevoerd naar de console, zoals hier wordt weergegeven:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Gebruik en argumenten
Hier vindt u informatie over de optionele argumenten van de vorige opdracht:
--file caption.this.mp4 --format any
: Audio van bestand invoeren. De standaardinvoer is de microfoon. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.--output vtt file -
en--output srt file -
: voert WebVTT- en SRT-bijschriften uit naar standaarduitvoer. Zie de uitvoerindeling bijschriften voor bijschriften in SRT en WebVTT voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen. Zie Speech CLI-uitvoeropties voor meer informatie over het--output
argument.@output.each.detailed
: voert de resultaten van de gebeurtenis uit met tekst, offset en duur. Zie Spraakherkenningsresultaten ophalen voor meer informatie.--property SpeechServiceResponse_StablePartialResultThreshold=5
: U kunt aanvragen dat de Speech-service minderRecognizing
gebeurtenissen retourneert die nauwkeuriger zijn. In dit voorbeeld moet de Speech-service de herkenning van een woord ten minste vijf keer bevestigen voordat de gedeeltelijke resultaten aan u worden geretourneerd. Zie Concepten voor gedeeltelijke resultaten ophalen voor meer informatie.--profanity masked
: U kunt opgeven of u grof taalgebruik wilt maskeren, verwijderen of weergeven in herkenningsresultaten. Zie De filterconcepten voor grof taalgebruik voor meer informatie.--phrases "Constoso;Jessie;Rehaan"
: U kunt een lijst opgeven met zinnen die moeten worden herkend, zoals Contoso, Jessie en Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Resources opschonen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.