Wat is aangepaste neurale stem?

Artikel
09/15/2024

Aangepaste neurale spraak (CNV) is een spraakfunctie voor tekst naar spraak waarmee u een een-op-een-soort, aangepaste, synthetische stem voor uw toepassingen kunt maken. Met aangepaste neurale spraak kunt u een zeer natuurlijke stem bouwen voor uw merk of personages door menselijke spraakvoorbeelden als trainingsgegevens te leveren.

Belangrijk

Aangepaste neurale spraaktoegang is beperkt op basis van geschiktheids- en gebruikscriteria. Vraag toegang aan op het intakeformulier.

Toegang tot Custom Neural Voice (CNV) Lite is beschikbaar voor iedereen om CNV te demo en evalueren voordat u investeert in professionele opnamen om een spraak met een hogere kwaliteit te maken.

Standaard kan tekst naar spraak worden gebruikt met vooraf gedefinieerde neurale stemmen voor elke ondersteunde taal. De vooraf gemaakte neurale stemmen werken goed in de meeste tekst-naar-spraakscenario's als een unieke stem niet vereist is.

Aangepaste neurale spraak is gebaseerd op de neurale tekst naar spraaktechnologie en het meertalige, multi-speaker, universeel model. U kunt synthetische stemmen maken die rijk zijn aan spreekstijlen of aanpasbare talen. De realistische en natuurlijke klinkende stem van aangepaste neurale spraak kan merken vertegenwoordigen, machines personificeren en gebruikers in staat stellen om met toepassingen te communiceren. Bekijk de ondersteunde talen voor aangepaste neurale spraak.

Hoe werkt het?

Als u een aangepaste neurale stem wilt maken, gebruikt u Speech Studio om de opgenomen audio en bijbehorende scripts te uploaden, het model te trainen en de stem naar een aangepast eindpunt te implementeren.

Tip

Probeer Custom Neural Voice (CNV) Lite om CNV te demo en evalueren voordat u investeert in professionele opnamen om een spraak met een hogere kwaliteit te maken.

Voor het maken van een geweldige aangepaste neurale stem is in elke stap zorgvuldige kwaliteitscontrole vereist, van spraakontwerp en gegevensvoorbereiding tot de implementatie van het spraakmodel in uw systeem.

Voordat u aan de slag gaat in Speech Studio, moet u rekening houden met enkele overwegingen:

Ontwerp een persona van de stem die uw merk vertegenwoordigt met behulp van een persona-kort document. In dit document worden elementen gedefinieerd, zoals de functies van de stem en het teken achter de stem. Dit helpt bij het maken van een aangepast neurale spraakmodel, waaronder het definiëren van de scripts, het selecteren van uw stemtalent, training en stemafstemming.
Selecteer het opnamescript om de gebruikersscenario's voor uw stem weer te geven. U kunt bijvoorbeeld de woordgroepen uit botgesprekken gebruiken als uw opnamescript als u een klantenservicebot maakt. Voeg verschillende zinstypen toe aan uw scripts, waaronder instructies, vragen en uitroeptekens.

Hier volgt een overzicht van de stappen voor het maken van een aangepaste neurale spraak in Speech Studio:

Maak een project dat uw gegevens, spraakmodellen, tests en eindpunten bevat. Elk project is specifiek voor een land/regio en taal. Als u meerdere stemmen gaat maken, is het raadzaam om voor elke stem een project te maken.
Stel stemtalent in. Voordat u een neurale stem kunt trainen, moet u een opname indienen van de toestemmingsverklaring van het stemtalent. De voice talent statement is een opname van het stemtalent dat een verklaring leest dat ze toestemming geven voor het gebruik van hun spraakgegevens om een aangepast spraakmodel te trainen.
Trainingsgegevens in de juiste indeling voorbereiden. Het is een goed idee om de audio-opnamen vast te leggen in een professionele opnamestudio van hoge kwaliteit om een hoge signaal-naar-ruis-verhouding te bereiken. De kwaliteit van het spraakmodel is sterk afhankelijk van uw trainingsgegevens. Consistent volume, spreeksnelheid, toonhoogte en consistentie in expressieve manieren van spraak zijn vereist.
Train uw stemmodel. Selecteer ten minste 300 utterances om een aangepaste neurale stem te maken. Er wordt automatisch een reeks gegevenskwaliteitscontroles uitgevoerd wanneer u ze uploadt. Als u spraakmodellen van hoge kwaliteit wilt bouwen, moet u eventuele fouten oplossen en opnieuw verzenden.
Test je stem. Bereid testscripts voor op uw spraakmodel dat de verschillende gebruiksvoorbeelden voor uw apps behandelt. Het is een goed idee om scripts binnen en buiten de trainingsgegevensset te gebruiken, zodat u de kwaliteit breder kunt testen voor verschillende inhoud.
Implementeer en gebruik uw spraakmodel in uw apps.

U kunt uw aangepaste stem afstemmen, aanpassen en gebruiken, net zoals u een vooraf samengestelde neurale stem zou gebruiken. Converteer tekst in realtime naar spraak of genereer audio-inhoud offline met tekstinvoer. U gebruikt de REST API, de Speech SDK of Speech Studio.

Tip

Bekijk de codevoorbeelden in de Speech SDK-opslagplaats op GitHub om te zien hoe u aangepaste neurale spraak gebruikt in uw toepassing.

De stijl en de kenmerken van het getrainde spraakmodel zijn afhankelijk van de stijl en de kwaliteit van de opnamen van het stemtalent dat wordt gebruikt voor training. U kunt echter verschillende aanpassingen aanbrengen met behulp van SSML (Speech Synthesis Markup Language) wanneer u de API-aanroepen naar uw spraakmodel uitvoert om synthetische spraak te genereren. SSML is de opmaaktaal die wordt gebruikt om te communiceren met de tekst naar spraakservice om tekst om te zetten in audio. De aanpassingen die u kunt aanbrengen zijn wijziging van toonhoogte, snelheid, intonatie en uitspraakcorrectie. Als het spraakmodel is gebouwd met meerdere stijlen, kunt u SSML ook gebruiken om de stijlen te wijzigen.

Onderdelenreeks

Aangepaste neurale spraak bestaat uit drie belangrijke onderdelen: de tekstanalyse, het neurale akoestische model en de neurale vocoder. Om natuurlijke synthetische spraak te genereren op basis van tekst, wordt tekst eerst ingevoerd in de tekstanalyse, die uitvoer levert in de vorm van een fonetische reeks. Een telefoonme is een basiseenheid voor geluid die het ene woord onderscheidt van een ander woord in een bepaalde taal. Een reeks telefoontjes definieert de uitspraak van de woorden in de tekst.

Vervolgens gaat de fonetische reeks naar het neurale akoestische model om akoestische kenmerken te voorspellen die spraaksignalen definiëren. Akoestische kenmerken zijn onder andere het timbre, de spreekstijl, snelheid, intonaties en stresspatronen. Ten slotte converteert de neurale vocoder de akoestische kenmerken naar hoorbare golven, zodat synthetische spraak wordt gegenereerd.

Stroomdiagram met de onderdelen van aangepaste neurale spraak.

Neurale tekst-naar-spraakmodellen worden getraind met behulp van diepe neurale netwerken op basis van de opnamevoorbeelden van menselijke stemmen. Zie dit Microsoft-blogbericht voor meer informatie. Zie dit Microsoft-blogbericht voor meer informatie over hoe een neurale vocoder wordt getraind.

Verantwoorde AI

Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Lees de transparantienotities voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen.

Delen via

Wat is aangepaste neurale stem?

Hoe werkt het?

Onderdelenreeks

Verantwoorde AI

Volgende stappen

Feedback

Aanvullende resources