Delen via


Wat is persoonlijke stem voor tekst naar spraak?

Met persoonlijke stem kunt u uw gebruikers in staat stellen om binnen een paar seconden ai-gegenereerde replicatie van hun eigen stemmen te krijgen. Met een mondelinge instructie en een kort spraakvoorbeeld als audioprompt kunt u een persoonlijke stem voor uw gebruikers maken en toestaan spraak te genereren in een van de meer dan 90 talen die worden ondersteund in meer dan 100 landinstellingen.

Notitie

Persoonlijke stem is beschikbaar in deze regio's: Europa - west, VS - oost en Azië - zuidoost. Zie ondersteuning voor persoonlijke spraaktaal voor ondersteunde landinstellingen.

De volgende tabel bevat een overzicht van het verschil tussen persoonlijke spraak en professionele aangepaste neurale spraak.

Vergelijking Persoonlijke stem Professionele stem
Doelscenario 's Zakelijke klanten om een app te bouwen zodat hun gebruikers hun eigen persoonlijke stem in de app kunnen maken en gebruiken. Professionele scenario's zoals merk- en karakterstemmen voor chatbots of het lezen van audio-inhoud.
Gebruiksgevallen Beperkt tot beperkte gebruiksvoorbeelden. Bekijk de transparantienotitie. Goedgekeurde klanten moeten een plan hebben om meer dan 1.000 persoonlijke stemmen te ondersteunen. Beperkt tot beperkte gebruiksvoorbeelden. Bekijk de transparantienotitie.
Trainingsgegevens Zorg ervoor dat u de gedragscode volgt. Bring Your Own Data. Opname in een professionele studio wordt aanbevolen.
Vereiste gegevensgrootte Een minuut van menselijke spraak. 300-2000 uitingen (ongeveer 30 minuten tot 3 uur aan menselijke spraak).
Trainingstijd Minder dan 5 seconden Ongeveer 20-40 rekenuren.
Spraakkwaliteit Natuurlijk Zeer natuurlijk
Meertalige ondersteuning Ja. De stem kan ongeveer 100 talen spreken, waarbij automatische taaldetectie is ingeschakeld. Ja. U moet de functie Neural – cross lingual selecteren om een model te trainen dat een andere taal spreekt dan de trainingsgegevens.
Beschikbaarheid De demo in Speech Studio is beschikbaar bij registratie. Toegang tot de API is beperkt tot in aanmerking komende klanten en goedgekeurde use cases. Vraag toegang aan via het intakeformulier. U kunt alleen een CNV Pro-model trainen en implementeren nadat de toegang is goedgekeurd. CNV Pro-toegang is beperkt op basis van geschiktheids- en gebruikscriteria. Vraag toegang aan via het intakeformulier.
Prijzen Bekijk hierde prijsgegevens 1. Bekijk hier de prijsgegevens.
Verantwoordelijke AI-vereisten De mondelinge verklaring van de spreker is vereist. Er is geen niet-goedgekeurde use case toegestaan. De mondelinge verklaring van de spreker is vereist. Er is geen niet-goedgekeurde use case toegestaan.

1 Houd er rekening mee dat persoonlijke spraakprijzen alleen zichtbaar zijn voor serviceregio's waar de functie beschikbaar is, waaronder Europa - west, VS - oost en Azië - zuidoost.

Probeer de demoversie

Als u een S0-resource hebt, hebt u toegang tot de persoonlijke spraakdemo in Speech Studio. Als u de persoonlijke spraak-API wilt gebruiken, kunt u hier toegang aanvragen.

  1. Ga naar Speech Studio

  2. Selecteer de persoonlijke spraakkaart .

  3. U kunt uw eigen stem opnemen en de voorbeelden van stemuitvoer in verschillende talen proberen. De demo bevat een subset van de talen die worden ondersteund door persoonlijke stem.

    Schermopname van de persoonlijke spraakdemo-ervaring in Speech Studio.

Een persoonlijke stem maken

Om aan de slag te gaan, volgt een overzicht van de stappen voor het maken van een persoonlijke stem:

  1. Maak een project.
  2. Toestemmingsbestand uploaden. Met de functie voor persoonlijke spraak is vereist dat elke stem wordt gemaakt met expliciete toestemming van de gebruiker. Een opgenomen instructie van de gebruiker is vereist om te bevestigen dat de klant (Azure AI Speech-resource-eigenaar) hun stem zal maken en gebruiken.
  3. Haal een sprekerprofiel-id op voor de persoonlijke stem. U krijgt een sprekerprofiel-id op basis van de mondelinge toestemmingsverklaring van de spreker en een audioprompt. De spraakkenmerken van de gebruiker worden gecodeerd in de speakerProfileId eigenschap die wordt gebruikt voor tekst-naar-spraak.

Zodra u een persoonlijke stem hebt, kunt u deze gebruiken om spraak te synthetiseren in een van de 91 talen die worden ondersteund in meer dan 100 landinstellingen. Er is geen landinstellingstag vereist. Persoonlijke stem maakt gebruik van automatische taaldetectie op zinsniveau. Zie Persoonlijke stem gebruiken in uw toepassing voor meer informatie.

Tip

Bekijk de codevoorbeelden in de Speech SDK-opslagplaats op GitHub om te zien hoe u persoonlijke spraak gebruikt in uw toepassing.

Referentiedocumentatie

Verantwoorde AI

We maken ons zorgen over de mensen die GEBRUIKMAKEN van AI en de mensen die er door worden beïnvloed, net zo veel als we om technologie zorgen. Zie de notities over verantwoordelijke AI-transparantie voor meer informatie.

Volgende stappen