Wat is spraakomzetting?

In dit artikel krijgt u informatie over de voordelen en mogelijkheden van vertaling met Azure AI Speech. De Speech-service ondersteunt realtime, meertalige spraak naar spraak en spraak naar tekstomzetting van audiostreams.

Met behulp van de Speech SDK of Speech CLI kunt u uw toepassingen, hulpprogramma's en apparaten toegang geven tot brontranscripties en vertaaluitvoer voor de geleverde audio. Tussentijdse transcriptie- en vertaalresultaten worden geretourneerd als spraak wordt gedetecteerd en de uiteindelijke resultaten kunnen worden geconverteerd naar gesynthetiseerde spraak.

Zie Taal- en spraakondersteuning voor een lijst met talen die worden ondersteund voor spraakomzetting.

Tip

Ga naar Speech Studio om spraak snel te testen en te vertalen in andere talen van uw keuze met lage latentie.

Kernfuncties

De belangrijkste functies van spraakomzetting zijn:

Spraak-naar-tekstomzetting

De standaardfunctie die door de Speech-service wordt aangeboden, is de mogelijkheid om een invoeraudiostream in uw opgegeven brontaal op te nemen en deze als tekst in uw opgegeven doeltaal te laten vertalen en uitvoer te geven.

Spraak-naar-spraakomzetting

Als aanvulling op de bovenstaande functie biedt de Speech-service ook de mogelijkheid om de vertaalde tekst hardop voor te lezen met behulp van onze grote database met vooraf getrainde stemmen, waardoor een natuurlijke uitvoer van de invoerspraak mogelijk is.

Meertalige spraakomzetting (preview)

Spraakomzetting met meerdere talen implementeert een nieuw niveau van spraakomzettingstechnologie waarmee verschillende mogelijkheden worden ontgrendeld, waaronder het hebben van geen opgegeven invoertaal, het verwerken van taalswitches binnen dezelfde sessie en het ondersteunen van live streaming-vertalingen in het Engels. Deze functies maken een nieuw niveau van spraakomzettingsbevoegdheden mogelijk die in uw producten kunnen worden geïmplementeerd.

  • Niet-opgegeven invoertaal. Spraakomzetting in meerdere talen kan audio ontvangen in een breed scala aan talen en u hoeft niet op te geven wat de verwachte invoertaal is.
  • Taalwisseling. Met meertalige spraakomzetting kunnen meerdere talen tijdens dezelfde sessie worden gesproken en kunnen ze allemaal in dezelfde doeltaal worden vertaald. U hoeft een sessie niet opnieuw te starten wanneer de invoertaal of andere acties door u worden gewijzigd.
  • Transcriptie. De service voert een transcriptie uit in de opgegeven doeltaal. Transcriptie van brontaal is nog niet beschikbaar.

Enkele gebruiksvoorbeelden voor meertalige spraakomzetting zijn:

  • Travel Interpreter. Wanneer u in het buitenland reist, biedt meertalige spraakomzetting de mogelijkheid om een oplossing te maken waarmee klanten invoeraudio van en naar de lokale taal kunnen vertalen. Hierdoor kunnen ze communiceren met de lokale bevolking en hun omgeving beter begrijpen.
  • Zakelijke vergadering. Tijdens een vergadering met mensen die verschillende talen spreken, kunnen de leden van de vergadering met elkaar communiceren alsof er geen taalbarrière was.

Voor meertalige spraakomzetting zijn dit de talen die de Spraakservice automatisch kan detecteren en schakelen tussen de invoer: Arabisch (ar), Baskisch (eu), Bosnisch (bs), Bulgaars (bg), Vereenvoudigd Chinees (zh), Chinees Traditioneel (zhh), Tsjechisch (cs), Deens (da), Nederlands (nl), Engels (en), Ests (et), Fins (fi), Frans (fr), Galicisch (gl), Duits (de), Grieks (el), Hindi (hi), Hindi (hi), Hongaars (hu), Indonesisch (id), Italiaans (it), Japans (ja), Koreaans (ko), Lets (lv), Litouws (lt), Macedonisch (mk), Noors (nb), Pools (pl), Portugees (pt), Roemeens (ro), Russisch (ru), Servisch (sr), Slowaaks (sk), Sloveens (sl), Spaans (sv), Zweeds (sv), Thai (th), Turks (tr), Oekraïens (vk), Vietnamees (vi) en Welsh (cy).

Zie voor een lijst met ondersteunde uitvoertalen (doeltalen) de tabel Vertalen naar teksttaal in de documentatie voor taal- en spraakondersteuning.

Zie de spraakomzetting voor meer informatie over meertalige spraakomzetting om voorbeelden van spraakomzetting op GitHub te begeleiden en te vertalen.

Vertaling van meerdere doeltalen

In scenario's waarin u uitvoer in meerdere talen wilt, biedt de Speech-service rechtstreeks de mogelijkheid om de invoertaal te vertalen in twee doeltalen. Hierdoor kunnen ze twee uitvoer ontvangen en deze vertalingen delen voor een breder publiek met één API-aanroep. Als er meer uitvoertalen vereist zijn, kunt u een resource voor meerdere services maken of afzonderlijke vertaalservices gebruiken.

Als u vertaling in meer dan twee doeltalen nodig hebt, moet u een resource voor meerdere services maken of afzonderlijke vertaalservices gebruiken voor meer talen dan de tweede. Als u ervoor kiest om de spraakomzettingsservice aan te roepen met een resource voor meerdere services, moet u er rekening mee houden dat vertaalkosten gelden voor elke taal die verder gaat dan de tweede, op basis van het aantal tekens van de vertaling.

Als u de toegepaste vertaalkosten wilt berekenen, raadpleegt u de prijzen van Azure AI Vertalen.

Prijzen voor vertaling van meerdere doeltalen

Het is belangrijk om te weten dat de spraakomzettingsservice in realtime werkt en dat de tussenliggende spraakresultaten worden vertaald om tussenliggende vertaalresultaten te genereren. Daarom is de werkelijke vertaalhoeveelheid groter dan de tokens van de invoeraudio. Er worden kosten in rekening gebracht voor de spraak-naar-teksttranscriptie en de tekstomzetting voor elke doeltaal.

Stel dat u tekstvertalingen van een audiobestand van één uur wilt laten vertalen naar drie doeltalen. Als de eerste spraak-naar-teksttranscriptie 10.000 tekens bevat, worden er mogelijk $ 2,80 in rekening gebracht.

Waarschuwing

De prijzen in dit voorbeeld zijn alleen ter illustratie. Raadpleeg de prijzen van Azure AI Speech en Azure AI Vertalen prijzen voor de meest recente prijsinformatie.

De vorige voorbeeldprijs van $ 2,80 werd berekend door de spraak-naar-teksttranscriptie en de kosten voor tekstomzetting te combineren. De berekening is als volgt uitgevoerd:

  • De prijs van de spraakomzettingslijst is $ 2,50 per uur, met een dekking van maximaal 2 doeltalen. De prijs wordt gebruikt als voorbeeld van het berekenen van kosten. Zie Pay as You Go>Speech>Translation Standard in de prijzentabel van Azure AI Speech voor de meest recente prijsinformatie.
  • De kosten voor de vertaling van de derde taal zijn in dit voorbeeld 30 cent. De prijs van de vertaallijst is $ 10 per miljoen tekens. Omdat het audiobestand 10.000 tekens bevat, zijn de vertaalkosten $ 10 * 10.000 / 1.000.000 * 3 = $ 0,3. Het getal "3" in deze vergelijking vertegenwoordigt een gewichtscoëfficiënt van tussenliggend verkeer, die kan variëren, afhankelijk van de betrokken talen. De prijs wordt gebruikt als voorbeeld van het berekenen van kosten. Zie Pay as You Go>Standard>translation Text translation in the Azure AI Vertalen pricing table for the most up-to-date pricing information.

Aan de slag

Als eerste stap kunt u de snelstartgids voor spraakomzetting proberen. De spraakomzettingsservice is beschikbaar via de Speech SDK en de Speech CLI.

U vindt speech-SDK-spraak-naar-tekst- en vertaalvoorbeelden op GitHub. Deze voorbeelden hebben betrekking op veelvoorkomende scenario's, zoals het lezen van audio uit een bestand of stream, continue en eenmalige herkenning en vertaling, en het werken met aangepaste modellen.

Volgende stappen