Abrufen einer Sprecherprofil-ID für die persönliche Stimme
Um persönliche Stimme in Ihrer Anwendung zu verwenden, müssen Sie eine Sprecherprofil-ID abrufen. Die Lautsprecherprofil-ID wird verwendet, um synthetisierte Audiodaten mit der bereitgestellten Texteingabe zu generieren.
Sie erstellen eine Sprecherprofil-ID basierend auf der mündlichen Zustimmungserklärung des Sprechers und einer Audioaufforderung (ein sauberes menschliches Sprachbeispiel zwischen 5 und 90 Sekunden). Die Stimmcharakteristik des Benutzers wird in der speakerProfileId
-Eigenschaft kodiert, die für Text in Sprache verwendet wird. Weitere Informationen finden Sie unter Persönliche Stimme in Ihrer Anwendung verwenden.
Hinweis
Die persönliche Sprach-ID und die Sprecherprofil-ID sind nicht identisch. Sie können die persönliche Sprach-ID auswählen, aber die Sprecherprofil-ID wird vom Dienst generiert. Die persönliche Sprach-ID wird verwendet, um die persönliche Stimme zu verwalten. Die Sprecherprofil-ID wird für Text zu Sprache verwendet.
Sie stellen die Audiodateien aus einer öffentlich zugänglichen URL (PersonalVoices_Create) bereit, oder laden die Audiodateien hoch (PersonalVoices_Post).
Prompt-Audioformat
Die unterstützten Formate für Prompt-Audiodateien sind:
Format | Samplingrate | Bitrate | Bittiefe |
---|---|---|---|
MP3 | 16 kHz, 24 kHz, 44,1 kHz, 48 kHz | 128 KBit/s, 192 KBit/s, 256 KBit/s, 320 KBit/s | / |
WAV | 16 kHz, 24 kHz, 44,1 kHz, 48 kHz | / | 16-bit, 24-bit, 32-bit |
Erstellen einer personalisierten Stimme aus einer Datei
In diesem Szenario müssen die Audiodateien lokal verfügbar sein.
Um eine personalisierte Stimme zu erstellen und die Sprecherprofil-ID abzurufen, verwenden Sie den PersonalVoices_Post-Vorgang der benutzerdefinierten VoIP-API. Erstellen Sie den Anforderungstext gemäß den folgenden Anweisungen:
- Legen Sie die erforderliche
projectId
-Eigenschaft fest. Siehe Erstellen eines Projekts. - Legen Sie die erforderliche
consentId
-Eigenschaft fest. Siehe Hinzufügen der Benutzereinwilligung. - Legen Sie die erforderliche
audiodata
-Eigenschaft fest. Sie können eine oder mehrere Audiodateien in derselben Anforderung angeben.
Erstellen Sie eine HTTP POST-Anforderung mithilfe des URI, wie im folgenden PersonalVoices_Post-Beispiel gezeigt.
- Ersetzen Sie
YourResourceKey
durch Ihren Speech-Ressourcenschlüssel. - Ersetzen Sie
YourResourceRegion
durch Ihren Speech-Ressourcenschlüssel. - Ersetzen Sie
JessicaPersonalVoiceId
durch eine persönliche Sprach-ID Ihrer Wahl. Die URI für die Groß-/Kleinschreibung wird im URI der persönlichen Stimme verwendet und kann später nicht geändert werden.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourResourceKey" -F 'projectId="ProjectId"' -F 'consentId="JessicaConsentId"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample001.wav"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample002.wav"' "
https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"id": "JessicaPersonalVoiceId",
"speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"status": "NotStarted",
"createdDateTime": "2024-09-01T05:30:00.000Z",
"lastActionDateTime": "2024-09-02T10:15:30.000Z"
}
Verwenden Sie die speakerProfileId
-Eigenschaft, um persönliche Stimme in Ihre Text-in-Sprachanwendung zu integrieren. Weitere Informationen finden Sie unter Persönliche Stimme in Ihrer Anwendung verwenden.
Der Antwortheader enthält die Operation-Location
-Eigenschaft. Verwenden Sie diesen URI, um Details zum PersonalVoices_Post-Vorgang abzurufen. Hier ist ein Beispiel für die Antwort:
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f
Erstellen einer personalisierten Stimme aus einer URL
In diesem Szenario müssen die Audiodateien bereits in einem Azure Blob Storage-Container gespeichert sein.
Um eine personalisierte Stimme zu erstellen und die Sprecherprofil-ID abzurufen, verwenden Sie den PersonalVoices_Create-Vorgang der benutzerdefinierten VoIP-API. Erstellen Sie den Anforderungstext gemäß den folgenden Anweisungen:
- Legen Sie die erforderliche
projectId
-Eigenschaft fest. Siehe Erstellen eines Projekts. - Legen Sie die erforderliche
consentId
-Eigenschaft fest. Siehe Hinzufügen der Benutzereinwilligung. - Legen Sie die erforderliche
audios
-Eigenschaft fest. Legen Sie innerhalb deraudios
-Eigenschaft die folgenden Eigenschaften fest:- Legen Sie die erforderliche
containerUrl
-Eigenschaft auf die URL des Azure Blob Storage-Containers fest, der die Audiodateien enthält. Verwenden Sie freigegebene Zugriffssignaturen (SAS) für einen Container mit Lese- und Listenberechtigungen. - Legen Sie die erforderliche
extensions
-Eigenschaft auf die Erweiterungen der Audiodateien fest. - Legen Sie optional die
prefix
-Eigenschaft fest, um ein Präfix für den Blobnamen festzulegen.
- Legen Sie die erforderliche
Erstellen Sie eine HTTP PUT-Anforderung mithilfe des URI, wie im folgenden PersonalVoices_Create-Beispiel gezeigt.
- Ersetzen Sie
YourResourceKey
durch Ihren Speech-Ressourcenschlüssel. - Ersetzen Sie
YourResourceRegion
durch Ihren Speech-Ressourcenschlüssel. - Ersetzen Sie
JessicaPersonalVoiceId
durch eine persönliche Sprach-ID Ihrer Wahl. Die URI für die Groß-/Kleinschreibung wird im URI der persönlichen Stimme verwendet und kann später nicht geändert werden.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"audios": {
"containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
"prefix": "jessica/",
"extensions": [
".wav"
]
}
} ' "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"
# Ensure the `containerUrl` has both read and list permissions.
# Ensure the `.wav` files are located in the "jessica" folder within the container. The `prefix` matches all `.wav` files in the "jessica" folder. If there is no such folder, the prefix will match `.wav` files with names starting with "jessica".
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"id": "JessicaPersonalVoiceId",
"speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"status": "NotStarted",
"createdDateTime": "2024-09-01T05:30:00.000Z",
"lastActionDateTime": "2024-09-02T10:15:30.000Z"
}
Verwenden Sie die speakerProfileId
-Eigenschaft, um persönliche Stimme in Ihre Text-in-Sprachanwendung zu integrieren. Weitere Informationen finden Sie unter Persönliche Stimme in Ihrer Anwendung verwenden.
Der Antwortheader enthält die Operation-Location
-Eigenschaft. Verwenden Sie diesen URI, um Details zum PersonalVoices_Create-Vorgang abzurufen. Hier ist ein Beispiel für die Antwort:
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f