Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Niet-Engelse vertalingen zijn alleen voor het gemak beschikbaar. Raadpleeg de EN-US
versie van dit document voor de bindingsversie.
Het doel van dit artikel is om stem- en avatartalent inzicht te geven in de technologie achter de tekst naar spraakmogelijkheden die hun stemmen en afbeeldingen helpen creëren. Het bevat ook belangrijke privacyverklaring voor talent over hoe Microsoft audio- en videobestanden met opgenomen stemmen en afbeeldingen van talent kan verwerken, gebruiken en bewaren en helpt Microsoft klachten over misbruik van Azure AI-services te voorkomen en/of erop te reageren.
Microsoft zet zich in voor het ontwerpen van AI op verantwoorde wijze. We hopen dat deze notitie een beter gedeeld begrip zal bevorderen tussen technische bouwers, stemtalent, avatartalent en het algemene publiek over de beoogde en nuttige toepassingen van deze technologie.
Belangrijke tekst-naar-spraaktermen
Spraakmodel: Een tekst-naar-spraakcomputermodel dat unieke vocale kenmerken van een doelluidspreker kan nabootsen. Een spraakmodel wordt ook wel spraaklettertype of synthetische stem genoemd. Een spraakmodel is een set parameters in binair formaat die niet leesbaar is voor mensen en geen audio-opnamen bevat. Het kan niet worden gereverse-engineered om opnames van iemands spraak af te leiden of te maken.
Spraaktalent: Personen of doelsprekers waarvan de stemmen worden opgenomen en gebruikt om stemmodellen te maken die bedoeld zijn om te klinken als de stem van het spraaktalent.
Avatar-model: Een computermodel voor tekst-naar-spraak-avatar dat unieke gezichtskenmerken van een doelacteur kan nabootsen. Een avatarmodel is een set parameters in binaire indeling die niet door mensen leesbaar is en geen video- of audio-opnamen bevat. Het kan niet worden nagebootst om video-opnamen van een menselijk optreden af te leiden of te maken.
Avatartalent: Voor het bouwen van aangepaste tekst-naar-spraak-avatarmodellen is training vereist voor een video-opname van een echte menselijke taal. Deze persoon is het avatartalent. Klanten moeten voldoende toestemming krijgen onder alle relevante wetten en voorschriften van het avatartalent om hun afbeelding te gebruiken om een aangepaste avatar te maken.
Hoe neurale tekst naar spraak werkt
Hoe het werkt: Neurale tekst naar spraaksynthetiseert spraak met behulp van diepe neurale netwerken die hebben geleerd hoe fonetiek wordt gecombineerd in natuurlijke menselijke spraak in plaats van klassieke programmeer- of statistische methoden te gebruiken. Naast de opnamen van een bepaald spraaktalent maakt neurale tekst naar spraak gebruik van een bronbibliotheek die spraakopnamen van veel verschillende luidsprekers bevat.
Wat u ervan moet weten: Vanwege de manier waarop het stemmensynthetiseert, kan neurale tekst naar spraak stijlen van spraak produceren die geen deel uitmaakten van de oorspronkelijke opnamen, zoals wijzigingen in toon van spraak en affectatie. Neurale tekst naar spraakstemmen klinken vloeiend en zijn goed bij het repliceren van de natuurlijke pauzes, idiosyncrasies en aarzeling die mensen uitdrukken wanneer ze spreken. Degenen die synthetische stemmen via neurale tekst-naar-spraak horen, beoordelen deze meestal als dichter bij menselijke spraak dan standaard tekst-naar-spraakstemmen.
Voorbeelden van hoe Microsoft dit gebruikt:
- Vooraf samengestelde neurale spraak is een functie van tekst naar spraak die 'off-the-shelf' spraakmodellen biedt voor gebruik door de klant. Vooraf gemaakte neurale stemmen worden ook gebruikt in verschillende Microsoft-producten, waaronder de Edge Browser, Verteller, Office en Teams.
-
Aangepaste neurale spraak is een functie van tekst naar spraak waarmee u aangepaste synthetische spraakmodellen kunt maken. Hier volgen mogelijkheden van aangepaste neurale spraak:
- Taaloverdracht kan in een andere taal uitdrukken dan de oorspronkelijke spraakopnamen.
- Stijloverdracht kan uitdrukken in een andere stijl dan de oorspronkelijke spraakopnamen. Bijvoorbeeld een stem zoals die van een nieuwslezer.
- Spraaktransformatie kan op een andere manier uitdrukken dan de oorspronkelijke spraakopnamen. U kunt bijvoorbeeld de toon of toonhoogte wijzigen om verschillende tekenstemmen te maken.
- Andere stemmen die worden gebruikt in producten en services van Microsoft, zoals Cortana.
Wat u kunt verwachten bij het opnemen: Bijdragen aan ten minste 300 lijnen voor een proof-of-concept spraakmodel en ongeveer 2000 lijnen om een nieuw spraakmodel te produceren voor productiegebruik.
Hoe tekst-naar-spraak-avatar werkt
Hoe het werkt: De avatar van tekst naar spraak is gebouwd op basis van vooraf gebouwde neurale stem en aangepaste neurale stem, en synthetiseert avatarvideo-inhoud met gesynchroniseerde tekst-naar-spraak vooraf gebouwde neurale stem of aangepaste neurale stem. Het syntheseproces maakt gebruik van diepe neurale netwerken die zijn getraind op modellen die zijn ontwikkeld op basis van video-opnamen van avatartalenten. De modellen worden getraind met de akoestische kenmerken die zijn geëxtraheerd uit de audio-elementen van de opname en fysieke kenmerken, mondbewegingen, gezichtsuitdrukkingen en gerelateerde visuele elementen die zijn geëxtraheerd uit de video-elementen van de opname.
Wat u ervan moet weten: De gesynthetiseerde tekst naar spraak avatars gezicht, lichaam en bewegingen lijken nauw op het avatartalent, maar de tekst naar spraak avatars stem kan worden gegenereerd op basis van een van de vooraf samengestelde neurale stemmen die Microsoft beschikbaar maakt of van een aangepaste neurale stem, waaronder waar het stemtalent dezelfde persoon is als het avatartalent, als het individu dit gebruik heeft geautoriseerd.
Voorbeelden van hoe Microsoft dit gebruikt:
- Vooraf gebouwde tekst naar spraak-avatar is een functie van Azure AI Speech tekst naar spraak die kant-en-klare tekst naar spraak-avatarmodellen biedt voor gebruik door de klant.
- Aangepaste tekst-naar-spraak-avatar is een functie van Azure AI Speech tekst-naar-spraak waarmee unieke synthetische tekst-naar-spraak avatarmodellen kunnen worden gemaakt.
Wat u kunt verwachten bij het opnemen: u moet ten minste 10 minuten video-opname bijdragen voor een proof-of-concept aangepast avatarmodel en ongeveer 20 minuten video-opname om een compleet aangepast avatarmodel te produceren voor productiegebruik.
Stemtalent en synthetische stemmen: een veranderende relatie
Door de integrale relatie tussen spraaktalent en synthetische stemmen te herkennen, heeft Microsoft spraaktalent geïnterviewd om hun perspectieven op nieuwe ontwikkelingen in technologie beter te begrijpen. Uit onderzoek dat we in 2019 hebben uitgevoerd, bleek dat spraaktalent potentieel voordeel zagen van de mogelijkheden die door neurale tekst naar spraak zijn geïntroduceerd, zoals het besparen van studiotijd om opnametaken te voltooien en capaciteit toe te voegen om meer spraakopdrachten uit te voeren. Tegelijkertijd waren er verschillende mate van bewustzijn over hoe ontwikkelingen in tekst-naar-spraaktechnologie hun beroep kunnen beïnvloeden.
Over het algemeen drukt stemtalent een verlangen naar transparantie en duidelijkheid uit over:
- Beperkingen voor wat hun stemgelijkenis kon worden gebruikt en wat niet om uit te drukken.
- De duur van het toegestane gebruik van hun stemgelijkenis.
- Mogelijke impact op toekomstige opnamemogelijkheden.
- De persona die gekoppeld zou zijn aan de gelijkenis van hun stem.
Synthetische stem in breder gebruik
Normaal gesproken waren tekst-naar-spraakstemmen beperkt in acceptatie vanwege hun robotgeluid. De meeste werden gebruikt ter ondersteuning van toegankelijkheid, bijvoorbeeld als schermlezer voor mensen die blind of slechtziend zijn. Tekst-naar-spraakstemmen zijn ook gebruikt door mensen met een spraakbeperking. Wijlen Stephen Hawking gebruikte bijvoorbeeld een door tekst-naar-spraak gegenereerde stem.
Nu, met steeds realistischer klinkende synthetische stemmen en de uptick in meer vertrouwde, dagelijkse interacties tussen machines en mensen, zijn de toepassingen van deze technologie verspreid en uitgebreid. Tekst-naar-spraaksystemen maken spraakassistenten mogelijk voor een reeks apparaten en toepassingen. Ze lezen nieuws, zoekresultaten, aankondigingen van openbare diensten, educatieve inhoud en nog veel meer.
Synthetische avatar in breder gebruik
Net als bij spraakstemmen bieden avatars nu realistische verschijningen, bewegingen en gezichtsuitdrukkingen die zijn gekoppeld aan levensecht klinkende stemmen. Deze sprekende avatars kunnen in verschillende situaties worden gebruikt, zoals het presenteren van inhoud in een onlinetraining, het presenteren van een spraak namens een bedrijf, interactie met klanten in de instellingen van de klantenservice en nog veel meer.
De benadering van Microsoft om verantwoordelijk gebruik te maken van tekst naar spraak
Elke dag vinden mensen nieuwe manieren om tekst toe te passen op spraaktechnologie, en niet allemaal voor het goede van individuen of de maatschappij. Als dit wordt misbruikt, kunnen menselijk klinkende tekst-naar-spraakstemmen of realistische sprekende avatars schadelijk zijn. Een verkeerd-informatiecampagne kan bijvoorbeeld veel krachtiger worden als deze de stem en het beeld van een bekende openbare figuur gebruikte.
We erkennen dat er geen perfecte manier is om te voorkomen dat media worden gewijzigd of om ondubbelzinnig te bewijzen waar het vandaan komt. Daarom is onze benadering van verantwoord gebruik gericht op transparant zijn over Azure AI Speech-tekst naar spraakfuncties door het beperken van toegestane toepassingen van aangepaste versies van deze functies en het demonstreren van onze waarden via actie.
Vereisten en tips voor zinvolle toestemming van stem- en avatartalent
Als u Microsoft-producten of -services gebruikt om biometrische gegevens te verwerken, bent u verantwoordelijk voor: (i) het verstrekken van kennisgeving aan betrokkenen, waaronder met betrekking tot retentieperioden en vernietiging; ii) toestemming te krijgen van betrokkenen; en (iii), het verwijderen van de biometrische gegevens, allemaal indien van toepassing en vereist onder toepasselijke vereisten voor gegevensbescherming. "Biometrische gegevens" hebben de betekenis die is uiteengezet in artikel 4 van de AVG en, indien van toepassing, gelijkwaardige voorwaarden in andere vereisten voor gegevensbescherming.
Om aangepaste neurale spraak te gebruiken, vereisen we van klanten het volgende:
- Verkrijg expliciete schriftelijke toestemming van spraaktalent om de stem van die persoon te gebruiken voor het maken van een aangepaste neurale stem.
- Geef dit document aan spraaktalent zodat ze kunnen begrijpen hoe tekst naar spraak werkt en hoe het kan worden gebruikt zodra ze het audio-opnameproces hebben voltooid.
- Haal de benodigde machtigingen op van spraaktalent voor het verwerken, gebruiken en bewaren van audiobestanden van spraaktalent om sprekercontrole uit te voeren op basis van trainingsgegevens en voor het gebruik en bewaren van spraakmodellen van Microsoft, zoals hieronder wordt beschreven.
We raden klanten ook aan het volgende te doen:
- Deel de beoogde contexten van gebruik met spraaktalent, zodat ze zich bewust zijn van wie hun stem zal horen, in welke scenario's en of/hoe mensen ermee kunnen communiceren.
- Zorg ervoor dat spraaktalent zich bewust zijn van het feit dat een spraakmodel dat is gemaakt van hun opnamen dingen kan zeggen die ze niet specifiek hebben opgenomen in de studio.
- Bespreek of er iets is wat ze ongemakkelijk vinden als het spraakmodel wordt gebruikt om het te zeggen.
Verwerking, gebruik en retentie van gegevens van Microsoft
Microsoft gebruikt audiobestanden voor spraaktalent voor sprekercontrole
Klanten moeten toestemming krijgen van spraaktalent om hun stem te gebruiken om aangepaste spraakmodellen te maken voor een synthetische stem. Deze technische beveiliging is bedoeld om misbruik van onze service te voorkomen door bijvoorbeeld te voorkomen dat iemand stemmodellen traint met audio-opnamen en het gebruik van de modellen om een stem te spoofen zonder de kennis of toestemming van de spreker.
In Speech Studio moet u een audiobestand uploaden met een opgenomen bevestigingsverklaring van het spraaktalent. Microsoft behoudt zich het recht voor om de sprekerherkenningstechnologie van Microsoft te gebruiken op deze opgenomen bevestigingsverklaring en deze te verifiëren op basis van de trainingsaudiogegevens om te bevestigen dat de stemmen afkomstig zijn van dezelfde spreker, of als anderszins noodzakelijk is om misbruik van Azure AI Speech te onderzoeken.
De spraakhandtekeningen van de spreker die zijn gemaakt op basis van de opgenomen bevestigingsverklaringsbestanden en trainingsaudiogegevens, worden uitsluitend door Microsoft gebruikt voor de hierboven genoemde doeleinden. Microsoft behoudt het vastgelegde instructiebestand zolang dat nodig is om de beveiliging en integriteit van De Azure AI-services van Microsoft te behouden. Meer informatie over hoe we gegevens verwerken, gebruiken en bewaren in het document Gegevens, privacy en beveiliging.
Het gebruik van aangepaste modellen van Microsoft
Hoewel klanten de exclusieve gebruiksrechten voor hun aangepaste neurale spraakmodel behouden, kan Microsoft onafhankelijk een kopie van aangepaste neurale spraakmodellen behouden zolang dat nodig is. Microsoft kan uw aangepaste neurale spraakmodel gebruiken voor het enige doel om de beveiliging en integriteit van Microsoft Azure AI-services te beschermen.
Microsoft beveiligt en slaat een kopie van de opgenomen bevestigingsverklaring van spraaktalent en aangepaste neurale spraakmodellen op met dezelfde beveiliging op hoog niveau die wordt gebruikt voor de andere Azure-services. Meer informatie vindt u in het Vertrouwenscentrum van Microsoft.
We zullen blijven identificeren en expliciet zijn over het doelbewuste, nuttige en beoogde gebruik van tekst-naar-spraak dat is gebaseerd op bestaande sociale normen en verwachtingen die mensen hebben rond media wanneer ze geloven dat het echt of nep is. In overeenstemming met de vertrouwensprincipes van Microsoft controleert Microsoft niet actief de audio-inhoud die wordt gegenereerd door uw gebruik van aangepaste neurale spraak. Klanten zijn uitsluitend verantwoordelijk om ervoor te zorgen dat het gebruik voldoet aan alle toepasselijke wet- en regelgeving en in overeenstemming met de voorwaarden van de overeenkomst van de klant met stemtalent.
Het gebruik van gegevens van stemtalenten van Microsoft met aangepaste neurale stem lite
Custom neural voice lite is een projecttype in openbare preview waarmee u 20-50 spraakvoorbeelden kunt opnemen in Speech Studio en een lichtgewicht aangepast spraakmodel kunt maken voor demonstratie- en evaluatiedoeleinden. Zowel het opnamescript als het testscript zijn vooraf gedefinieerd door Microsoft. Een synthetische spraakmodel dat u maakt met behulp van aangepaste neurale spraak lite kan worden geïmplementeerd en alleen breder worden gebruikt als u volledige toegang tot aangepaste neurale spraak aanvraagt en ontvangt (afhankelijk van toepasselijke voorwaarden).
De synthetische spraak en gerelateerde audio-opname die u verzendt via Speech Studio worden binnen 90 dagen automatisch verwijderd, tenzij u volledige toegang krijgt tot aangepaste neurale spraak en ervoor kiest om de synthetische stem te implementeren. In dat geval bepaalt u de duur van de retentie. Als het stemtalent de synthetische stem en de gerelateerde audio-opnamen vóór 90 dagen willen laten verwijderen, kunnen ze ze rechtstreeks in de portal verwijderen of contact opnemen met hun onderneming om dit te doen.
Bovendien moet de stemacteur, voordat u een synthetische spraakmodel dat is gemaakt met een aangepast neurale spraak lite-project implementeert, een extra opname bieden waarin ze erkennen dat de synthetische stem wordt gebruikt voor andere doeleinden dan demonstratie en evaluatie.
Richtlijnen voor verantwoordelijke implementatie
Omdat tekst-naar-spraak een aanpasbare technologie is, zijn er grijze gebieden om te bepalen hoe het moet of niet moet worden gebruikt. Om deze te navigeren, hebben we de volgende richtlijnen geformuleerd voor het gebruik van synthetische stem- en avatarmodellen:
- Bescherm eigenaren van stemmen en afbeeldingen/likenessen tegen misbruik of identiteitsdiefstal.
- Voorkom de verspreiding van valse en misleidende inhoud.
- Moedig het gebruik aan in scenario's waarin consumenten verwachten te communiceren met synthetische inhoud.
- Moedig het gebruik aan in scenario's waarin consumenten de generatie van de synthetische inhoud observeren.
Voorbeelden van ongepast gebruik
De Azure AI-tekst naar spraak mag niet worden gebruikt.
- Mensen misleiden en/of opzettelijk verkeerd informeren;
- Voor het doel van valse reclame, inclusief live commercials; Om te beweren dat men afkomstig is van een persoon, onderneming, overheidsinstantie of entiteit zonder expliciete toestemming om die claim te maken;
- Om iemand zonder expliciete toestemming te imiteren, met inbegrip van het verkrijgen van informatie of bevoegdheden;
- Het creëren, aanroepen of vermommen van haatzaaien, discriminatie, besaming, terrorisme of gewelddaden;
- Kinderen misbruiken of manipuleren;
- Het maken van ongevraagde telefoongesprekken, bulkcommunicaties, posts of berichten;
- Beleidsposities of politieke ideologieën vermommen;
- Om onaangedeelde inhoud te verspreiden of onjuiste bronnen te vertegenwoordigen.
Voorbeelden van geschikt gebruik
De juiste gebruiksvoorbeelden kunnen omvatten, maar zijn niet beperkt tot:
- Virtuele agents op basis van fictieve persona's. Bijvoorbeeld webzoekopdrachten op aanvraag, IoT-beheer of klantondersteuning die wordt geleverd door het merkteken van een bedrijf.
- Entertainmentmedia voor gebruik in fictieve inhoud. Bijvoorbeeld films, videogames, tv, opgenomen muziek of audioboeken.
- Erkende onderwijsinstellingen of onderwijsmedia. Bijvoorbeeld interactieve lesplannen of rondleidingen in het begeleide museum.
- Ondersteunende technologie en realtime vertaling. Personen met ALS bewaren bijvoorbeeld hun stemmen.
- Aankondigingen van openbare diensten met fictieve persona's. Bijvoorbeeld aankondigingen van luchthaven- of treinterminals.
- Reclame/live streamen: reclame-inhoud, live streamen die is gekoppeld aan marketing of verkoop van een product.