Teilen über


Abrufen einer Sprecherprofil-ID für die persönliche Stimme

Um persönliche Stimme in Ihrer Anwendung zu verwenden, müssen Sie eine Sprecherprofil-ID abrufen. Die Lautsprecherprofil-ID wird verwendet, um synthetisierte Audiodaten mit der bereitgestellten Texteingabe zu generieren.

Sie erstellen eine Sprecherprofil-ID basierend auf der mündlichen Zustimmungserklärung des Sprechers und einer Audioaufforderung (ein sauberes menschliches Sprachbeispiel zwischen 5 und 90 Sekunden). Die Stimmcharakteristik des Benutzers wird in der speakerProfileId-Eigenschaft kodiert, die für Text in Sprache verwendet wird. Weitere Informationen finden Sie unter Persönliche Stimme in Ihrer Anwendung verwenden.

Hinweis

Die persönliche Sprach-ID und die Sprecherprofil-ID sind nicht identisch. Sie können die persönliche Sprach-ID auswählen, aber die Sprecherprofil-ID wird vom Dienst generiert. Die persönliche Sprach-ID wird verwendet, um die persönliche Stimme zu verwalten. Die Sprecherprofil-ID wird für Text zu Sprache verwendet.

Sie stellen die Audiodateien aus einer öffentlich zugänglichen URL (PersonalVoices_Create) bereit, oder laden die Audiodateien hoch (PersonalVoices_Post).

Prompt-Audioformat

Die unterstützten Formate für Prompt-Audiodateien sind:

Format Samplingrate Bitrate Bittiefe
MP3 16 kHz, 24 kHz, 44,1 kHz, 48 kHz 128 KBit/s, 192 KBit/s, 256 KBit/s, 320 KBit/s /
WAV 16 kHz, 24 kHz, 44,1 kHz, 48 kHz / 16-bit, 24-bit, 32-bit

Erstellen einer personalisierten Stimme aus einer Datei

In diesem Szenario müssen die Audiodateien lokal verfügbar sein.

Um eine personalisierte Stimme zu erstellen und die Sprecherprofil-ID abzurufen, verwenden Sie den PersonalVoices_Post-Vorgang der benutzerdefinierten VoIP-API. Erstellen Sie den Anforderungstext gemäß den folgenden Anweisungen:

  • Legen Sie die erforderliche projectId-Eigenschaft fest. Siehe Erstellen eines Projekts.
  • Legen Sie die erforderliche consentId-Eigenschaft fest. Siehe Hinzufügen der Benutzereinwilligung.
  • Legen Sie die erforderliche audiodata-Eigenschaft fest. Sie können eine oder mehrere Audiodateien in derselben Anforderung angeben.

Erstellen Sie eine HTTP POST-Anforderung mithilfe des URI, wie im folgenden PersonalVoices_Post-Beispiel gezeigt.

  • Ersetzen Sie YourResourceKey durch Ihren Speech-Ressourcenschlüssel.
  • Ersetzen Sie YourResourceRegion durch Ihren Speech-Ressourcenschlüssel.
  • Ersetzen Sie JessicaPersonalVoiceId durch eine persönliche Sprach-ID Ihrer Wahl. Die URI für die Groß-/Kleinschreibung wird im URI der persönlichen Stimme verwendet und kann später nicht geändert werden.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourResourceKey" -F 'projectId="ProjectId"' -F 'consentId="JessicaConsentId"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample001.wav"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample002.wav"' "
https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "id": "JessicaPersonalVoiceId",
  "speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "status": "NotStarted",
  "createdDateTime": "2024-09-01T05:30:00.000Z",
  "lastActionDateTime": "2024-09-02T10:15:30.000Z"
}

Verwenden Sie die speakerProfileId-Eigenschaft, um persönliche Stimme in Ihre Text-in-Sprachanwendung zu integrieren. Weitere Informationen finden Sie unter Persönliche Stimme in Ihrer Anwendung verwenden.

Der Antwortheader enthält die Operation-Location-Eigenschaft. Verwenden Sie diesen URI, um Details zum PersonalVoices_Post-Vorgang abzurufen. Hier ist ein Beispiel für die Antwort:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f

Erstellen einer personalisierten Stimme aus einer URL

In diesem Szenario müssen die Audiodateien bereits in einem Azure Blob Storage-Container gespeichert sein.

Um eine personalisierte Stimme zu erstellen und die Sprecherprofil-ID abzurufen, verwenden Sie den PersonalVoices_Create-Vorgang der benutzerdefinierten VoIP-API. Erstellen Sie den Anforderungstext gemäß den folgenden Anweisungen:

  • Legen Sie die erforderliche projectId-Eigenschaft fest. Siehe Erstellen eines Projekts.
  • Legen Sie die erforderliche consentId-Eigenschaft fest. Siehe Hinzufügen der Benutzereinwilligung.
  • Legen Sie die erforderliche audios-Eigenschaft fest. Legen Sie innerhalb der audios-Eigenschaft die folgenden Eigenschaften fest:
    • Legen Sie die erforderliche containerUrl-Eigenschaft auf die URL des Azure Blob Storage-Containers fest, der die Audiodateien enthält. Verwenden Sie freigegebene Zugriffssignaturen (SAS) für einen Container mit Lese- und Listenberechtigungen.
    • Legen Sie die erforderliche extensions-Eigenschaft auf die Erweiterungen der Audiodateien fest.
    • Legen Sie optional die prefix-Eigenschaft fest, um ein Präfix für den Blobnamen festzulegen.

Erstellen Sie eine HTTP PUT-Anforderung mithilfe des URI, wie im folgenden PersonalVoices_Create-Beispiel gezeigt.

  • Ersetzen Sie YourResourceKey durch Ihren Speech-Ressourcenschlüssel.
  • Ersetzen Sie YourResourceRegion durch Ihren Speech-Ressourcenschlüssel.
  • Ersetzen Sie JessicaPersonalVoiceId durch eine persönliche Sprach-ID Ihrer Wahl. Die URI für die Groß-/Kleinschreibung wird im URI der persönlichen Stimme verwendet und kann später nicht geändert werden.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "audios": {
    "containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
    "prefix": "jessica/", 
    "extensions": [
      ".wav"
    ]
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"

# Ensure the `containerUrl` has both read and list permissions. 
# Ensure the `.wav` files are located in the "jessica" folder within the container. The `prefix` matches all `.wav` files in the "jessica" folder. If there is no such folder, the prefix will match `.wav` files with names starting with "jessica". 

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "id": "JessicaPersonalVoiceId",
  "speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "status": "NotStarted",
  "createdDateTime": "2024-09-01T05:30:00.000Z",
  "lastActionDateTime": "2024-09-02T10:15:30.000Z"
}

Verwenden Sie die speakerProfileId-Eigenschaft, um persönliche Stimme in Ihre Text-in-Sprachanwendung zu integrieren. Weitere Informationen finden Sie unter Persönliche Stimme in Ihrer Anwendung verwenden.

Der Antwortheader enthält die Operation-Location-Eigenschaft. Verwenden Sie diesen URI, um Details zum PersonalVoices_Create-Vorgang abzurufen. Hier ist ein Beispiel für die Antwort:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f

Nächste Schritte