Lägga till rösttalangmedgivande till det professionella röstprojektet
En rösttalang är en person eller måltalare vars röster spelas in och används för att skapa neurala röstmodeller.
Innan du kan träna en neural röst måste du skicka in en inspelning av rösttalangens medgivande. Rösttalangens uttalande är en inspelning av rösttalangen som läser ett uttalande om att de samtycker till användningen av sina taldata för att träna en anpassad röstmodell. Medgivande-instruktionen används också för att verifiera att rösttalangen är samma person som talaren i träningsdata.
Dricks
Innan du kommer igång i Speech Studio definierar du din röstpersona och väljer rätt rösttalang.
Du hittar instruktionen för verbalt medgivande på flera språk på GitHub. Språket i den verbala instruktionen måste vara samma som din inspelning. Se även avslöjandet för rösttalanger.
Lägg till rösttalang
Följ dessa steg om du vill lägga till en rösttalangprofil och ladda upp deras medgivandeuttryck:
- Logga in på Speech Studio.
- Välj Anpassad röst> Ditt projektnamn >Konfigurera rösttalang>Lägg till rösttalang.
- I guiden Lägg till ny rösttalang beskriver du egenskaperna för den röst som du ska skapa. De scenarier som du anger här måste vara konsekventa med det du angav i programformuläret.
- Välj Nästa.
- På sidan Ladda upp rösttalanger följer du anvisningarna för att ladda upp rösttalangen som du har spelat in i förväg. Kontrollera att den verbala instruktionen har spelats in med samma inställningar, miljö och talstil som dina träningsdata.
- Ange rösttalangens namn och företagsnamn. Rösttalangens namn måste vara namnet på den person som registrerade samtyckesförklaringen. Ange namnet på samma språk som används i den inspelade instruktionen. Företagsnamnet måste matcha företagsnamnet som talades i den inspelade instruktionen. Kontrollera att företagsnamnet anges på samma språk som den inspelade instruktionen.
- Välj Nästa.
- Granska informationen om rösttalanger och persona och välj Skicka.
När statusen för rösttalangen har slutförts kan du fortsätta att träna din anpassade röstmodell.
Nästa steg
Med den professionella röstfunktionen krävs att varje röst skapas med uttryckligt medgivande från användaren. En inspelad instruktion från användaren krävs som bekräftar att kunden (Azure AI Speech-resursägaren) skapar och använder sin röst.
Om du vill lägga till rösttalangsmedgivande till det professionella röstprojektet får du den förinspelade ljudfilen med medgivande från en offentligt tillgänglig URL (Consents_Create) eller laddar upp ljudfilen (Consents_Post). I den här artikeln lägger du till medgivande från en URL.
Medgivandeuttryck
Du behöver en ljudinspelning av användaren som talar med medgivandemeddelandet.
Du kan hämta texten för medgivandeuttryck för varje språkvariant från text till tal GitHub-lagringsplats. Se SpeakerAuthorization.txt för medgivande-instruktionen för språkvarianten en-US
:
"I [state your first and last name] am aware that recordings of my voice will be used by [state the name of the company] to create and use a synthetic version of my voice."
Lägga till medgivande från en URL
Om du vill lägga till medgivande till ett professionellt röstprojekt från URL:en för en ljudfil använder du den Consents_Create åtgärden för det anpassade röst-API:et. Skapa begärandetexten enligt följande instruktioner:
- Ange den obligatoriska
projectId
egenskapen. Se skapa ett projekt. - Ange den obligatoriska
voiceTalentName
egenskapen. Rösttalangens namn måste vara namnet på den person som registrerade samtyckesförklaringen. Ange namnet på samma språk som används i den inspelade instruktionen. Rösttalangens namn kan inte ändras senare. - Ange den obligatoriska
companyName
egenskapen. Företagsnamnet måste matcha företagsnamnet som anges i den inspelade instruktionen. Kontrollera att företagsnamnet anges på samma språk som den inspelade instruktionen. Företagsnamnet kan inte ändras senare. - Ange den obligatoriska
audioUrl
egenskapen. URL:en för ljudfilen för rösttalangens medgivande. Använd en URI med sas-token (signaturer för delad åtkomst). - Ange den obligatoriska
locale
egenskapen. Detta bör vara språkvarianten för medgivandet. Språkvarianten kan inte ändras senare. Du hittar språklistan för text till tal här.
Gör en HTTP PUT-begäran med hjälp av URI:n enligt följande Consents_Create exempel.
- Ersätt
YourResourceKey
med din Speech-resursnyckel. - Ersätt
YourResourceRegion
med din Speech-resursregion. - Ersätt
JessicaConsentId
med ett valfritt medgivande-ID. Skiftlägeskänsligt ID används i medgivandets URI och kan inte ändras senare.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
"description": "Consent for Jessica voice",
"projectId": "ProjectId",
"voiceTalentName": "Jessica Smith",
"companyName": "Contoso",
"audioUrl": "https://contoso.blob.core.windows.net/public/jessica-consent.wav?mySasToken",
"locale": "en-US"
} ' "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/consents/JessicaConsentId?api-version=2024-02-01-preview"
Du bör få en svarstext i följande format:
{
"id": "JessicaConsentId",
"description": "Consent for Jessica voice",
"projectId": "ProjectId",
"voiceTalentName": "Jessica Smith",
"companyName": "Contoso",
"locale": "en-US",
"status": "NotStarted",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Svarshuvudet innehåller egenskapen Operation-Location
. Använd den här URI:n för att få information om den Consents_Create åtgärden. Här är ett exempel på svarshuvudet:
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/070f7986-ef17-41d0-ba2b-907f0f28e314?api-version=2024-02-01-preview
Operation-Id: 070f7986-ef17-41d0-ba2b-907f0f28e314