Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Referentiedocumentatiepakket (NuGet) |
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Aanbeveling
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Aanbeveling
Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een Foundry-resource voor Spraak in de Azure-portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten.
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Omgevingsvariabelen instellen
U moet uw toepassing verifiëren voor toegang tot Foundry Tools. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw credenties op te slaan en te gebruiken.
Belangrijk
We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties in uw toepassingen worden opgeslagen die in de cloud draaien.
Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u API-sleutels gebruikt, slaat u deze veilig op in Azure Key Vault, draait u de sleutels regelmatig en beperkt u de toegang tot Azure Key Vault met behulp van op rollen gebaseerd toegangsbeheer en netwerktoegangsbeperkingen. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.
- Als u de
SPEECH_KEYomgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource. - Als u de
SPEECH_REGIONomgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource. - Als u de
ENDPOINTomgevingsvariabele wilt instellen, vervangt u deze dooryour-endpointhet werkelijke eindpunt van uw Speech-resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Notitie
Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.
Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
- Kopieer de scenario's/csharp/dotnetcore/captioning/ sample-bestanden van GitHub. Als Git is geïnstalleerd, opent u een opdrachtprompt en voert u de opdracht uit om de
git cloneopslagplaats met voorbeelden van de Speech SDK te downloaden.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git - Open een opdrachtprompt en ga naar de projectmap.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/ - Bouw het project met de .NET CLI.
dotnet build - Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Belangrijk
Zorg ervoor dat de paden die zijn opgegeven door
--inputen--outputgeldig zijn. Anders moet u de paden wijzigen.Zorg ervoor dat u de
SPEECH_KEYenSPEECH_REGIONomgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de--keyen--regionargumenten.
Resultaten controleren
Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.
Gebruik en argumenten
Gebruik: captioning --input <input file>
Verbindingsopties zijn onder andere:
-
--key: Uw Foundry-resource-sleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de--keyoptie gebruiken. -
--region REGION: uw Foundry-resourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de--regionoptie gebruiken. Voorbeelden:westus,northeurope
Belangrijk
Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u een API-sleutel gebruikt, slaat u deze veilig op in Azure Key Vault. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Invoeropties zijn onder andere:
-
--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon. -
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file. Geldige waarden zijnalaw,any,flac, ,mp3enmulawogg_opus. De standaardwaarde isany. Als u eenwavbestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
-
--language LANG: Geef een taal op met een van de bijbehorende ondersteunde locaties. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde isen-US.
Herkenningsopties zijn onder andere:
-
--offline: Offlineresultaten uitvoeren. Overschrijft--realTime. De standaarduitvoermodus is offline. -
--realTime: Uitvoer realtime resultaten.
Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
-
--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
-
--help: Helpinformatie weergeven en stoppen -
--output FILE: Bijschriften uitvoeren naar de opgegevenfile. Deze vlag is vereist. -
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels. -
--maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees). -
--lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Het minimum is 1. De standaardwaarde is 2. -
--delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u derealTimevlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000. -
--remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000. -
--quiet: Console-uitvoer onderdrukken, behalve fouten. -
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie. -
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3. Deze optie is alleen van toepassing wanneer u derealTimevlag gebruikt. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.
Het opschonen van middelen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
Referentiedocumentatiepakket (NuGet) |
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Aanbeveling
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Aanbeveling
Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een Foundry-resource voor Spraak in de Azure-portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
De Speech SDK is beschikbaar als een NuGet-pakket en implementeert .NET Standard 2.0. U installeert de Speech SDK verderop in deze handleiding, maar controleer eerst de SDK-installatiehandleiding voor meer vereisten
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Omgevingsvariabelen instellen
U moet uw toepassing verifiëren voor toegang tot Foundry Tools. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw credenties op te slaan en te gebruiken.
Belangrijk
We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties in uw toepassingen worden opgeslagen die in de cloud draaien.
Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u API-sleutels gebruikt, slaat u deze veilig op in Azure Key Vault, draait u de sleutels regelmatig en beperkt u de toegang tot Azure Key Vault met behulp van op rollen gebaseerd toegangsbeheer en netwerktoegangsbeperkingen. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.
- Als u de
SPEECH_KEYomgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource. - Als u de
SPEECH_REGIONomgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource. - Als u de
ENDPOINTomgevingsvariabele wilt instellen, vervangt u deze dooryour-endpointhet werkelijke eindpunt van uw Speech-resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Notitie
Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.
Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.
Bijschriften maken op basis van spraak
Volg deze stappen om het quickstart-codevoorbeeld voor bijschriften te bouwen en uit te voeren met Visual Studio Community 2022 in Windows.
Download of kopieer de scenario's/cpp/windows/captioning/ voorbeeldbestanden van GitHub naar een lokale map.
Open het
captioning.slnoplossingsbestand in Visual Studio Community 2022.Installeer de Speech SDK in uw project met NuGet Package Manager.
Install-Package Microsoft.CognitiveServices.SpeechOpen Project>Eigenschappen>Algemeen. Stel de configuratie in op
All configurations. Stel C++ Language Standard in opISO C++17 Standard (/std:c++17).Open Build>Configuration Manager.
- Stel op een 64-bits Windows-installatie het actieve oplossingsplatform in op
x64. - Stel op een 32-bits Windows-installatie het actieve oplossingsplatform in op
x86.
- Stel op een 64-bits Windows-installatie het actieve oplossingsplatform in op
Open Project>Eigenschappen>Foutopsporing. Voer de gewenste opdrachtregelargumenten in bij Opdrachtargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Belangrijk
Zorg ervoor dat de paden die zijn opgegeven door
--inputen--outputgeldig zijn. Anders moet u de paden wijzigen.Zorg ervoor dat u de
SPEECH_KEYenSPEECH_REGIONomgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de--keyen--regionargumenten.
Resultaten controleren
Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.
Gebruik en argumenten
Gebruik: captioning --input <input file>
Verbindingsopties zijn onder andere:
-
--key: Uw sleutel voor Foundry-resources. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de--keyoptie gebruiken. -
--region REGION: uw Foundry-resourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de--regionoptie gebruiken. Voorbeelden:westus,northeurope
Belangrijk
Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u een API-sleutel gebruikt, slaat u deze veilig op in Azure Key Vault. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Invoeropties zijn onder andere:
-
--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon. -
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file. Geldige waarden zijnalaw,any,flac, ,mp3enmulawogg_opus. De standaardwaarde isany. Als u eenwavbestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
-
--language LANG: Geef een taal op met een van de bijbehorende ondersteunde locaties. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde isen-US.
Herkenningsopties zijn onder andere:
-
--offline: Offlineresultaten uitvoeren. Overschrijft--realTime. De standaarduitvoermodus is offline. -
--realTime: Uitvoer realtime resultaten.
Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
-
--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
-
--help: Helpinformatie weergeven en stoppen -
--output FILE: Bijschriften uitvoeren naar de opgegevenfile. Deze vlag is vereist. -
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels. -
--maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees). -
--lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Het minimum is 1. De standaardwaarde is 2. -
--delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u derealTimevlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000. -
--remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000. -
--quiet: Console-uitvoer onderdrukken, behalve fouten. -
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie. -
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3. Deze optie is alleen van toepassing wanneer u derealTimevlag gebruikt. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.
Het opschonen van middelen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Aanbeveling
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Aanbeveling
Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een Foundry-resource voor Spraak in de Azure-portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
Controleer of er platformspecifieke installatiestappen zijn.
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
Download of kopieer de scenario's/go/captioning/ voorbeeldbestanden van GitHub naar een lokale map.
Open een opdrachtprompt in dezelfde map als
captioning.go.Voer de volgende opdrachten uit om een
go.modbestand te maken dat is gekoppeld aan de Speech SDK-onderdelen die worden gehost op GitHub:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-goBouw de GO-module.
go buildVoer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:
go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Vervang
door uw Spraak-resourcesleutel en vervang met uw spraakresourceregio , zoals of . Zorg ervoor dat de paden die zijn opgegeven door --inputen--outputgeldig zijn. Anders moet u de paden wijzigen.Belangrijk
Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het artikel over de beveiliging van Foundry Tools voor meer informatie.
Resultaten controleren
Het uitvoerbestand met volledige bijschriften wordt geschreven naar caption.output.txt. Tussenliggende resultaten worden weergegeven in de console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.
Gebruik en argumenten
Gebruik: go run captioning.go helper.go --key <key> --region <region> --input <input file>
Verbindingsopties zijn onder andere:
-
--key: Uw Foundry-resourcesleutel. -
--region REGION: de regio van uw Foundry-resource. Voorbeelden:westus,northeurope
Invoeropties zijn onder andere:
-
--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon. -
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file. Geldige waarden zijnalaw,any,flac, ,mp3enmulawogg_opus. De standaardwaarde isany. Als u eenwavbestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
-
--languages LANG1,LANG2: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld:en-US,ja-JP. Deze optie is alleen beschikbaar voor de voorbeelden van C++, C# en Python-bijschriften. Zie Taalidentificatie voor meer informatie.
Herkenningsopties zijn onder andere:
-
--recognizing: Uitvoerresultaten vanRecognizinggebeurtenis. De standaarduitvoer isRecognizedalleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De--quietoptie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
-
--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
-
--help: Helpinformatie weergeven en stoppen -
--output FILE: Bijschriften uitvoeren naar de opgegevenfile. Deze vlag is vereist. -
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels. -
--quiet: Console-uitvoer onderdrukken, behalve fouten. -
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie. -
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.
Het opschonen van middelen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
Referentiedocumentatie | Aanvullende voorbeelden op GitHub
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Aanbeveling
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Aanbeveling
Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een Foundry-resource voor Spraak in de Azure-portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
Voordat u iets kunt doen, moet u de Speech SDK installeren. Het voorbeeld in deze quickstart werkt met de Microsoft Build van OpenJDK 17
- Installeer Apache Maven. Voer vervolgens uit
mvn -vom de installatie te bevestigen. - Maak een nieuw
pom.xmlbestand in de hoofdmap van uw project en kopieer het volgende erin:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.43.0</version> </dependency> </dependencies> </project> - Installeer de Speech SDK en afhankelijkheden.
mvn clean dependency:copy-dependencies - U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Omgevingsvariabelen instellen
U moet uw toepassing verifiëren voor toegang tot Foundry Tools. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw credenties op te slaan en te gebruiken.
Belangrijk
We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties in uw toepassingen worden opgeslagen die in de cloud draaien.
Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u API-sleutels gebruikt, slaat u deze veilig op in Azure Key Vault, draait u de sleutels regelmatig en beperkt u de toegang tot Azure Key Vault met behulp van op rollen gebaseerd toegangsbeheer en netwerktoegangsbeperkingen. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.
- Als u de
SPEECH_KEYomgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource. - Als u de
SPEECH_REGIONomgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource. - Als u de
ENDPOINTomgevingsvariabele wilt instellen, vervangt u deze dooryour-endpointhet werkelijke eindpunt van uw Speech-resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Notitie
Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.
Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
- Kopieer de scenario's/java/jre/captioning/ voorbeeldbestanden van GitHub naar uw projectdirectory. Het
pom.xmlbestand dat u in de omgevingsinstallatie hebt gemaakt, moet zich ook in deze map bevinden. - Open een opdrachtprompt en voer deze opdracht uit om de projectbestanden te compileren.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8 - Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Belangrijk
Zorg ervoor dat de paden die zijn opgegeven door
--inputen--outputgeldig zijn. Anders moet u de paden wijzigen.Zorg ervoor dat u de
SPEECH_KEYenSPEECH_REGIONomgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de--keyen--regionargumenten.
Resultaten controleren
Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.
Gebruik en argumenten
Gebruik: java -cp ".;target\dependency\*" Captioning --input <input file>
Verbindingsopties zijn onder andere:
-
--key: Uw sleutel voor Foundry-resources. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de--keyoptie gebruiken. -
--region REGION: uw Foundry-resourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de--regionoptie gebruiken. Voorbeelden:westus,northeurope
Belangrijk
Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u een API-sleutel gebruikt, slaat u deze veilig op in Azure Key Vault. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Invoeropties zijn onder andere:
-
--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon. -
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file. Geldige waarden zijnalaw,any,flac, ,mp3enmulawogg_opus. De standaardwaarde isany. Als u eenwavbestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
-
--language LANG: Geef een taal op met een van de bijbehorende ondersteunde locaties. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde isen-US.
Herkenningsopties zijn onder andere:
-
--offline: Offlineresultaten uitvoeren. Overschrijft--realTime. De standaarduitvoermodus is offline. -
--realTime: Uitvoer realtime resultaten.
Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
-
--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
-
--help: Helpinformatie weergeven en stoppen -
--output FILE: Bijschriften uitvoeren naar de opgegevenfile. Deze vlag is vereist. -
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels. -
--maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees). -
--lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Het minimum is 1. De standaardwaarde is 2. -
--delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u derealTimevlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000. -
--remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000. -
--quiet: Console-uitvoer onderdrukken, behalve fouten. -
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie. -
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3. Deze optie is alleen van toepassing wanneer u derealTimevlag gebruikt. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.
Het opschonen van middelen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
Referentiedocumentatie | Pakket (npm) | Aanvullende voorbeelden op GitHub | Bibliotheek broncode
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Aanbeveling
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Aanbeveling
Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een Foundry-resource voor Spraak in de Azure-portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
Voordat u iets kunt doen, moet u de Speech SDK voor JavaScript installeren. Als u alleen de pakketnaam wilt installeren, voert u het volgende uit npm install microsoft-cognitiveservices-speech-sdk. Zie de SDK-installatiehandleiding voor begeleide installatie-instructies.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
Kopieer de scenario's/javascript/node/captioning/ voorbeeldbestanden van GitHub naar uw projectmap.
Open een opdrachtprompt in dezelfde map als
Captioning.js.Installeer de Speech SDK voor JavaScript:
npm install microsoft-cognitiveservices-speech-sdkVoer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Dit is een voorbeeld:
node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Vervang
door uw Spraak-resourcesleutel en vervang met uw spraakresourceregio , zoals of . Zorg ervoor dat de paden die zijn opgegeven door --inputen--outputgeldig zijn. Anders moet u de paden wijzigen.Notitie
De Speech SDK voor JavaScript biedt geen ondersteuning voor gecomprimeerde invoeraudio. U moet een WAV-bestand gebruiken, zoals wordt weergegeven in het voorbeeld.
Belangrijk
Vergeet niet de sleutel uit uw code te verwijderen wanneer u klaar bent, en maak deze sleutel nooit openbaar. Gebruik voor productie een veilige manier om uw referenties op te slaan en te openen, zoals Azure Key Vault. Zie het artikel over de beveiliging van Foundry Tools voor meer informatie.
Resultaten controleren
Het uitvoerbestand met volledige bijschriften wordt geschreven naar caption.output.txt. Tussenliggende resultaten worden weergegeven in de console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.
Gebruik en argumenten
Gebruik: node captioning.js --key <key> --region <region> --input <input file>
Verbindingsopties zijn onder andere:
-
--key: Uw Foundry-resourcesleutel. -
--region REGION: uw Foundry-resourceregio. Voorbeelden:westus,northeurope
Invoeropties zijn onder andere:
-
--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon. -
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file. Geldige waarden zijnalaw,any,flac, ,mp3enmulawogg_opus. De standaardwaarde isany. Als u eenwavbestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
-
--languages LANG1,LANG2: Taalidentificatie inschakelen voor opgegeven talen. Voorbeeld:en-US,ja-JP. Deze optie is alleen beschikbaar voor de voorbeelden van C++, C# en Python-bijschriften. Zie Taalidentificatie voor meer informatie.
Herkenningsopties zijn onder andere:
-
--recognizing: Uitvoerresultaten vanRecognizinggebeurtenis. De standaarduitvoer isRecognizedalleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De--quietoptie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
-
--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
-
--help: Helpinformatie weergeven en stoppen -
--output FILE: Bijschriften uitvoeren naar de opgegevenfile. Deze vlag is vereist. -
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels. -
--quiet: Console-uitvoer onderdrukken, behalve fouten. -
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie. -
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.
Het opschonen van middelen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
De Speech SDK voor Objective-C biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor bijschriften, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Objective-C-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.
De Speech SDK voor Swift biedt ondersteuning voor het ophalen van spraakherkenningsresultaten voor bijschriften, maar we hebben hier nog geen handleiding opgenomen. Selecteer een andere programmeertaal om aan de slag te gaan en meer te weten te komen over de concepten, of bekijk de Swift-verwijzing en voorbeelden die zijn gekoppeld aan het begin van dit artikel.
Referentiedocumentatiepakket (PyPi) |
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Aanbeveling
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Aanbeveling
Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een Foundry-resource voor Spraak in de Azure-portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
De Speech SDK voor Python is beschikbaar als een PyPI-module (Python Package Index). De Speech SDK voor Python is compatibel met Windows, Linux en macOS.
- U moet Microsoft Visual C++ Redistributable installeren voor Visual Studio 2015, 2017, 2019 en 2022 voor uw platform. Als u dit pakket voor de eerste keer installeert, moet u mogelijk opnieuw opstarten.
- In Linux moet u de x64-doelarchitectuur gebruiken.
- Installeer een versie van Python vanaf 3.10 of hoger. Controleer eerst de SDK-installatiehandleiding voor meer vereisten
- U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Omgevingsvariabelen instellen
U moet uw toepassing verifiëren voor toegang tot Foundry Tools. In dit artikel leest u hoe u omgevingsvariabelen gebruikt om uw referenties op te slaan. Vervolgens hebt u vanuit uw code toegang tot de omgevingsvariabelen om uw toepassing te verifiëren. Gebruik voor productie een veiligere manier om uw credenties op te slaan en te gebruiken.
Belangrijk
We raden Microsoft Entra ID-verificatie aan met beheerde identiteiten voor Azure-resources om te voorkomen dat referenties in uw toepassingen worden opgeslagen die in de cloud draaien.
Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u API-sleutels gebruikt, slaat u deze veilig op in Azure Key Vault, draait u de sleutels regelmatig en beperkt u de toegang tot Azure Key Vault met behulp van op rollen gebaseerd toegangsbeheer en netwerktoegangsbeperkingen. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Als u de omgevingsvariabelen voor uw Spraak-resourcesleutel en -regio wilt instellen, opent u een consolevenster en volgt u de instructies voor uw besturingssysteem en ontwikkelomgeving.
- Als u de
SPEECH_KEYomgevingsvariabele wilt instellen, vervangt u uw sleutel door een van de sleutels voor uw resource. - Als u de
SPEECH_REGIONomgevingsvariabele wilt instellen, vervangt u uw regio door een van de regio's voor uw resource. - Als u de
ENDPOINTomgevingsvariabele wilt instellen, vervangt u deze dooryour-endpointhet werkelijke eindpunt van uw Speech-resource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Notitie
Als u alleen toegang nodig hebt tot de omgevingsvariabelen in de huidige console, kunt u de omgevingsvariabele instellen in set plaats van setx.
Nadat u de omgevingsvariabelen hebt toegevoegd, moet u mogelijk alle programma's opnieuw opstarten die de omgevingsvariabelen moeten lezen, inclusief het consolevenster. Als u Bijvoorbeeld Visual Studio als editor gebruikt, start u Visual Studio opnieuw voordat u het voorbeeld uitvoert.
Bijschriften maken op basis van spraak
Volg deze stappen om het voorbeeld van de quickstart voor bijschriften te bouwen en uit te voeren.
- Download of kopieer de scenario's/python/console/captioning/ samplebestanden van GitHub naar een lokale map.
- Open een opdrachtprompt in dezelfde map als
captioning.py. - Voer deze opdracht uit om de Speech SDK te installeren:
pip install azure-cognitiveservices-speech - Voer de toepassing uit met de gewenste opdrachtregelargumenten. Zie het gebruik en de argumenten voor de beschikbare opties. Hier volgt een voorbeeld:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Belangrijk
Zorg ervoor dat de paden die zijn opgegeven door
--inputen--outputgeldig zijn. Anders moet u de paden wijzigen.Zorg ervoor dat u de
SPEECH_KEYenSPEECH_REGIONomgevingsvariabelen instelt zoals hierboven beschreven. Gebruik anders de--keyen--regionargumenten.
Resultaten controleren
Wanneer u de realTime optie in het bovenstaande voorbeeld gebruikt, worden de gedeeltelijke resultaten van Recognizing gebeurtenissen opgenomen in de uitvoer. In dit voorbeeld bevat alleen de laatste Recognized gebeurtenis de komma's. Komma's zijn niet de enige verschillen tussen Recognizing en Recognized gebeurtenissen. Zie Gedeeltelijke resultaten ophalen voor meer informatie.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wanneer u de --offline optie gebruikt, zijn de resultaten stabiel vanaf de laatste Recognized gebeurtenis. Gedeeltelijke resultaten worden niet opgenomen in de uitvoer:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
De SRT (SubRip Text) uitvoerindeling voor tijdsduur is hh:mm:ss,fff. Raadpleeg Opmaak van bijschriften voor meer informatie.
Gebruik en argumenten
Gebruik: python captioning.py --input <input file>
Verbindingsopties zijn onder andere:
-
--key: Uw Foundry-resourcesleutel. Overschrijft de omgevingsvariabele SPEECH_KEY. U moet de omgevingsvariabele (aanbevolen) instellen of de--keyoptie gebruiken. -
--region REGION: uw Foundry-resourceregio. Overschrijft de omgevingsvariabele SPEECH_REGION. U moet de omgevingsvariabele (aanbevolen) instellen of de--regionoptie gebruiken. Voorbeelden:westus,northeurope
Belangrijk
Gebruik API-sleutels met voorzichtigheid. Neem de API-sleutel niet rechtstreeks in uw code op en plaats deze nooit openbaar. Als u een API-sleutel gebruikt, slaat u deze veilig op in Azure Key Vault. Zie API-sleutels met Azure Key Vault voor meer informatie over het veilig gebruiken van API-sleutels in uw apps.
Zie Aanvragen verifiëren bij Azure AI-services voor meer informatie over beveiliging van AI-services.
Invoeropties zijn onder andere:
-
--input FILE: Audio van bestand invoeren. De standaardinvoer is de microfoon. -
--format FORMAT: Gebruik gecomprimeerde audio-indeling. Alleen geldig met--file. Geldige waarden zijnalaw,any,flac, ,mp3enmulawogg_opus. De standaardwaarde isany. Als u eenwavbestand wilt gebruiken, geeft u de indeling niet op. Deze optie is niet beschikbaar in het JavaScript-voorbeeld voor bijschriften. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt.
Taalopties zijn onder andere:
-
--language LANG: Geef een taal op met een van de bijbehorende ondersteunde locaties. Dit wordt gebruikt bij het opsplitsen van bijschriften in regels. De standaardwaarde isen-US.
Herkenningsopties zijn onder andere:
-
--offline: Offlineresultaten uitvoeren. Overschrijft--realTime. De standaarduitvoermodus is offline. -
--realTime: Uitvoer realtime resultaten.
Realtime-uitvoer bevat Recognizing gebeurtenisresultaten. De standaard offlineuitvoer is Recognized alleen gebeurtenisresultaten. Deze worden altijd naar de console geschreven, nooit naar een uitvoerbestand. De --quiet optie overschrijft dit. Zie Spraakherkenningsresultaten ophalen voor meer informatie.
Opties voor nauwkeurigheid zijn onder andere:
-
--phrases PHRASE1;PHRASE2: U kunt een lijst met zinnen opgeven die moeten worden herkend, zoalsContoso;Jessie;Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Uitvoeropties zijn onder andere:
-
--help: Helpinformatie weergeven en stoppen -
--output FILE: Bijschriften uitvoeren naar de opgegevenfile. Deze vlag is vereist. -
--srt: Uitvoerbijschriften in SRT-indeling (SubRip Text). De standaardindeling is WebVTT (Web Video Text Tracks). Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels. -
--maxLineLength LENGTH: Stel het maximum aantal tekens per regel voor een bijschrift in op LENGTH. Minimaal 20. De standaardwaarde is 37 (30 voor Chinees). -
--lines LINES: Stel het aantal regels voor een bijschrift in op REGELS. Het minimum is 1. De standaardwaarde is 2. -
--delay MILLISECONDS: hoeveel MILLISECONDS de weergave van elk bijschrift vertragen om een realtime-ervaring na te bootsen. Deze optie is alleen van toepassing wanneer u derealTimevlag gebruikt. Het minimum is 0,0. De standaardwaarde is 1000. -
--remainTime MILLISECONDS: Hoeveel MILLISECONDS moet een bijschrift op het scherm blijven staan als het niet wordt vervangen door een andere. Het minimum is 0,0. De standaardwaarde is 1000. -
--quiet: Console-uitvoer onderdrukken, behalve fouten. -
--profanity OPTION: Geldige waarden: onbewerkt, verwijderen, maskeren. Zie De filterconcepten voor grof taalgebruik voor meer informatie. -
--threshold NUMBER: Stel een stabiele drempelwaarde voor gedeeltelijke resultaten in. De standaardwaarde is3. Deze optie is alleen van toepassing wanneer u derealTimevlag gebruikt. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen.
Het opschonen van middelen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.
In deze quickstart voert u een console-app uit om bijschriften te maken met spraak-naar-tekst.
Aanbeveling
Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte ondertitelingsresultaten te bekijken.
Aanbeveling
Probeer de Azure Speech in Foundry Tools Toolkit uit om eenvoudig voorbeelden van bijschriften te bouwen en uit te voeren in Visual Studio Code.
Vereisten
- Een Azure-abonnement. U kunt er gratis een maken.
- Maak een Foundry-resource voor Spraak in de Azure-portal.
- Haal de spraakresourcesleutel en -regio op. Nadat uw Spraak-resource is geïmplementeerd, selecteert u Ga naar de resource om sleutels weer te geven en te beheren.
De omgeving instellen
Volg deze stappen en bekijk de quickstart voor Speech CLI voor andere vereisten voor uw platform.
Voer de volgende .NET CLI-opdracht uit om de Speech CLI te installeren:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLIVoer de volgende opdrachten uit om uw Spraak-resourcesleutel en -regio te configureren. Vervang
SUBSCRIPTION-KEYdoor uw spraakresourcesleutel en vervangREGIONdoor uw spraakresourceregio.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
U moet ook GStreamer installeren voor gecomprimeerde invoeraudio.
Bijschriften maken op basis van spraak
Met de Speech CLI kunt u zowel SRT-bijschriften (SubRip Text) als WebVTT (Web Video Text Tracks) uitvoeren vanaf elk type media dat audio bevat.
Als u audio van een bestand wilt herkennen en zowel WebVtt-bijschriften (vtt) als SRT-bijschriftensrt wilt uitvoeren, volgt u deze stappen.
Zorg ervoor dat u een invoerbestand met de naam
caption.this.mp4in het pad hebt.Voer de volgende opdracht uit om bijschriften uit het videobestand uit te voeren:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"De SRT- en WebVTT-ondertitels worden naar de console uitgevoerd zoals hier getoond.
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Gebruik en argumenten
Hier vindt u informatie over de optionele argumenten van de vorige opdracht:
-
--file caption.this.mp4 --format any: Audio van bestand invoeren. De standaardinvoer is de microfoon. Installeer GStreamer voor gecomprimeerde audiobestanden zoals MP4 en zie Hoe u gecomprimeerde invoeraudio gebruikt. -
--output vtt file -en--output srt file -: voert WebVTT- en SRT-bijschriften uit naar standaarduitvoer. Voor meer informatie over SRT- en WebVTT-ondertitelingsbestandsindelingen, zie Uitvoerindeling Ondertitels. Zie--outputvoor meer informatie over het argument. -
@output.each.detailed: voert de resultaten van de gebeurtenis uit met tekst, offset en duur. Zie Spraakherkenningsresultaten ophalen voor meer informatie. -
--property SpeechServiceResponse_StablePartialResultThreshold=5: U kunt aanvragen dat de Speech-service minderRecognizinggebeurtenissen retourneert die nauwkeuriger zijn. In dit voorbeeld moet de Speech-service de herkenning van een woord ten minste vijf keer bevestigen voordat de gedeeltelijke resultaten aan u worden geretourneerd. Zie voor meer informatie de Concepten voor gedeeltelijke resultaten ophalen. -
--profanity masked: U kunt opgeven of u grof taalgebruik wilt maskeren, verwijderen of weergeven in herkenningsresultaten. Zie De filterconcepten voor grof taalgebruik voor meer informatie. -
--phrases "Constoso;Jessie;Rehaan": U kunt een lijst opgeven met zinnen die moeten worden herkend, zoals Contoso, Jessie en Rehaan. Zie Herkenning verbeteren met een frasenlijst voor meer informatie.
Het opschonen van middelen
U kunt de Azure-portal of Azure CLI (Opdrachtregelinterface) gebruiken om de spraakresource te verwijderen die u hebt gemaakt.