Bijschriften met spraak-naar-tekst

Artikel
02/16/2024

In deze handleiding leert u hoe u onderschrift kunt maken met spraak-naar-tekst. Bijschriften is het proces van het converteren van de audio-inhoud van een televisie-uitzending, webcast, film, video, livegebeurtenis of andere productie in tekst, en vervolgens het weergeven van de tekst op een scherm, monitor of ander visueel beeldschermsysteem.

Concepten omvatten het synchroniseren van onderschrift s met uw invoeraudio, het toepassen van scheldfilters, het verkrijgen van gedeeltelijke resultaten, het toepassen van aanpassingen en het identificeren van gesproken talen voor meertalige scenario's. Deze handleiding behandelt onderschrift voor spraak, maar bevat geen spreker-id of geluidseffecten zoals bellen.

Hier volgen enkele veelvoorkomende onderschrift scenario's:

Online cursussen en instructievideo's
Sportevenementen
Spraak- en video-oproepen

Hier volgen aspecten waarmee u rekening moet houden bij het gebruik van onderschrift ing:

Laat uw publiek weten dat onderschrift worden gegenereerd door een geautomatiseerde service.
Centreer onderschrift horizontaal op het scherm, in een groot en prominent lettertype.
Overweeg of u gedeeltelijke resultaten wilt gebruiken, wanneer u onderschrift s wilt weergeven en hoeveel woorden u tegelijk wilt weergeven.
Meer informatie over het onderschrift van protocollen zoals SMPTE-TT.
Overweeg uitvoerindelingen zoals SRT (SubRip Text) en WebVTT (Web Video Text Tracks). Deze kunnen worden geladen op de meeste videospelers, zoals VLC, en automatisch de onderschrift s aan uw video toevoegen.

Tip

Probeer Speech Studio en kies een voorbeeldvideoclip om realtime of offline verwerkte resultaten te bekijken onderschrift.

Probeer Azure AI Video Indexer als demonstratie van hoe u onderschrift kunt krijgen voor video's die u uploadt.

Bijschriften kunnen in realtime of vooraf opgenomen spraak worden geleverd. Of u nu onderschrift in realtime of met een opname weergeeft, u kunt de Speech SDK of Speech CLI gebruiken om spraak te herkennen en transcripties op te halen. U kunt ook de Batch-transcriptie-API gebruiken voor vooraf opgenomen video.

Uitvoerindeling bijschrift

De Speech-service ondersteunt uitvoerindelingen zoals SRT (SubRip Text) en WebVTT (Web Video Text Tracks). Deze kunnen worden geladen op de meeste videospelers, zoals VLC, en automatisch de onderschrift s aan uw video toevoegen.

Tip

De Speech-service biedt filteropties voor grof taalgebruik . U kunt opgeven of u grof taalgebruik wilt maskeren, verwijderen of weergeven.

De uitvoerindeling voor de tijdspanne van SRT (SubRip Text) is hh:mm:ss,fff.

1
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

De uitvoerindeling WebVTT (Web Video Text Tracks) is hh:mm:ss.fff.

WEBVTT

00:00:00.180 --> 00:00:03.230
Welcome to applied Mathematics course 201.
{
  "ResultId": "8e89437b4b9349088a933f8db4ccc263",
  "Duration": "00:00:03.0500000"
}

Audio invoeren in de Speech-service

Gebruik voor realtime onderschrift een microfoon- of audio-invoerstroom in plaats van bestandsinvoer. Voor voorbeelden van het herkennen van spraak vanuit een microfoon raadpleegt u de snelstart voor spraak naar tekst en spraakdocumentatie herkennen . Zie De audio-invoerstroom gebruiken voor meer informatie over streaming.

Voor het onderschrift van een prerecording verzendt u bestandsinvoer naar de Speech-service. Zie Gecomprimeerde invoeraudio gebruiken voor meer informatie.

Bijschrift- en spraaksynchronisatie

U wilt onderschrift s synchroniseren met het audiospoor, ongeacht of het in realtime of met een prerecording is.

De Speech-service retourneert de offset en duur van de herkende spraak.

Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.

Zie Spraakherkenningsresultaten ophalen voor meer informatie.

Gedeeltelijke resultaten ophalen

Houd rekening met het weergeven van onderschrift s en hoeveel woorden er tegelijk moeten worden weergegeven. Spraakherkenningsresultaten kunnen worden gewijzigd terwijl een uiting nog steeds wordt herkend. Gedeeltelijke resultaten worden geretourneerd bij elke Recognizing gebeurtenis. Wanneer elk woord wordt verwerkt, evalueert de Speech-service een utterance opnieuw in de nieuwe context en wordt opnieuw het beste resultaat geretourneerd. Het nieuwe resultaat is niet gegarandeerd hetzelfde als het vorige resultaat. De volledige en uiteindelijke transcriptie van een utterance wordt geretourneerd met de Recognized gebeurtenis.

Notitie

Interpunctie van gedeeltelijke resultaten is niet beschikbaar.

Voor onderschrift van vooraf opgenomen spraak of waar latentie geen probleem is, kunt u wachten op de volledige transcriptie van elke uiting voordat u woorden weergeeft. Gezien de uiteindelijke offset en duur van elk woord in een uiting, weet u wanneer u volgende woorden in een tempo met de soundtrack moet weergeven.

Realtime onderschrift geeft compromissen met betrekking tot latentie versus nauwkeurigheid. U kunt de tekst van elke Recognizing gebeurtenis zo snel mogelijk weergeven. Als u echter enige latentie kunt accepteren, kunt u de nauwkeurigheid van de onderschrift verbeteren door de tekst van de Recognized gebeurtenis weer te geven. Er is ook een middelste grond, die wordt aangeduid als 'stabiele gedeeltelijke resultaten'.

U kunt aanvragen dat de Speech-service minder Recognizing gebeurtenissen retourneert die nauwkeuriger zijn. Dit wordt gedaan door de SpeechServiceResponse_StablePartialResultThreshold eigenschap in te stellen op een waarde tussen 0 en 2147483647. De waarde die u instelt, is het aantal keren dat een woord moet worden herkend voordat de Speech-service een Recognizing gebeurtenis retourneert. Als u bijvoorbeeld de SpeechServiceResponse_StablePartialResultThreshold eigenschapswaarde 5instelt, bevestigt de Speech-service de herkenning van een woord ten minste vijf keer voordat u de gedeeltelijke resultaten met een Recognizing gebeurtenis retourneert.

speechConfig.SetProperty(PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig->SetProperty(PropertyId::SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig.SetProperty(common.SpeechServiceResponseStablePartialResultThreshold, 5)

speechConfig.setProperty(PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig.setProperty(sdk.PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

[self.speechConfig setPropertyTo:5 byId:SPXSpeechServiceResponseStablePartialResultThreshold];

self.speechConfig!.setPropertyTo(5, by: SPXPropertyId.speechServiceResponseStablePartialResultThreshold)

speech_config.set_property(property_id = speechsdk.PropertyId.SpeechServiceResponse_StablePartialResultThreshold, value = 5)

spx recognize --file caption.this.mp4 --format any --property SpeechServiceResponse_StablePartialResultThreshold=5 --output vtt file - --output srt file -

Het aanvragen van stabielere gedeeltelijke resultaten vermindert de 'flikkerende' of veranderende tekst, maar het kan de latentie verhogen wanneer u wacht op hogere betrouwbaarheidsresultaten.

Voorbeeld van stabiele gedeeltelijke drempelwaarde

In de volgende herkenningsreeks zonder een stabiele gedeeltelijke drempelwaarde in te stellen, wordt 'wiskunde' herkend als een woord, maar de uiteindelijke tekst is 'wiskunde'. Op een ander punt wordt "cursus 2" herkend, maar de uiteindelijke tekst is "cursus 201".

RECOGNIZING: Text=welcome to
RECOGNIZING: Text=welcome to applied math
RECOGNIZING: Text=welcome to applied mathematics
RECOGNIZING: Text=welcome to applied mathematics course 2
RECOGNIZING: Text=welcome to applied mathematics course 201
RECOGNIZED: Text=Welcome to applied Mathematics course 201.

In het vorige voorbeeld waren de transcripties additief en werd geen tekst ingetrokken. Maar op andere momenten merkt u mogelijk dat de gedeeltelijke resultaten onjuist waren. In beide gevallen kunnen de instabiele gedeeltelijke resultaten worden beschouwd als 'flikkeren' wanneer ze worden weergegeven.

Als in dit voorbeeld de stabiele drempelwaarde voor gedeeltelijke resultaten is ingesteld 5, worden er geen woorden gewijzigd of teruggezet.

RECOGNIZING: Text=welcome to
RECOGNIZING: Text=welcome to applied
RECOGNIZING: Text=welcome to applied mathematics
RECOGNIZED: Text=Welcome to applied Mathematics course 201.

Taalidentificatie

Als de taal in de audio kan veranderen, gebruikt u continue taalidentificatie. Taalidentificatie wordt gebruikt om talen te identificeren die in audio worden gesproken in vergelijking met een lijst met ondersteunde talen. U geeft maximaal 10 kandidaattalen op, waarvan er ten minste één wordt verwacht in de audio. De Speech-service retourneert de meest waarschijnlijke taal in de audio.

Aanpassingen om de nauwkeurigheid te verbeteren

Een woordgroepenlijst is een lijst met woorden of woordgroepen die u direct voordat u spraakherkenning start. Het toevoegen van een woordgroep aan een frasenlijst verhoogt het belang, waardoor deze waarschijnlijker wordt herkend.

Voorbeelden van woordgroepen zijn:

Namen
Geografische locaties
Homoniemen
Woorden of acroniemen die uniek zijn voor uw branche of organisatie

Er zijn enkele situaties waarin het trainen van een aangepast model waarschijnlijk de beste optie is om de nauwkeurigheid te verbeteren. Als u bijvoorbeeld orthodontische lezingen onderschrift, kunt u een aangepast model trainen met de bijbehorende domeingegevens.