Freigeben über


Erstellen eines benutzerdefinierten Text-zu-Sprache-Avatars

Die ersten Schritte mit einem benutzerdefinierten Sprachsynthese-Avatar sind ein einfacher Prozess. Alles, was Sie brauchen, sind ein paar Videoclips Ihres Akteurs. Wenn Sie eine benutzerdefinierte Stimme für denselben Akteur trainieren möchten, können Sie dies separat tun.

Hinweis

Der Zugriff auf den benutzerdefinierten Avatar ist auf der Grundlage von Berechtigungs- und Nutzungskriterien begrenzt. Fordern Sie den Zugriff über das Aufnahmeformular an.

Voraussetzungen

Sie benötigen eine Azure AI Foundry-Ressource in einer der Regionen, die benutzerdefinierte Avatarschulungen unterstützen. Benutzerdefinierter Avatar unterstützt nur Standardressourcen (S0) KI Foundry oder Speech.

Sie benötigen eine Videoaufnahme, in der das Talent eine Einverständniserklärung zur Nutzung seines Bildes und seiner Stimme vorliest. Sie laden dieses Video hoch, wenn Sie den Avatarsprecher einrichten. Weitere Informationen finden Sie unter Avatarsprechereinwilligung hinzufügen.

Sie benötigen Videoaufzeichnungen Ihres Avatarsprechers als Schulungsdaten. Sie laden diese Videos hoch, wenn Sie Schulungsdaten vorbereiten. Weitere Informationen finden Sie unter Hinzufügen von Schulungsdaten.

Schritt 1: Starten der Feinabstimmung

Tipp

Mischen Sie nicht die Daten für verschiedene Avatare in einem Feinabstimmungsarbeitsbereich. Jeder Avatar muss über einen eigenen Feinabstimmungsarbeitsbereich verfügen.

Führen Sie die folgenden Schritte aus, um einen benutzerdefinierten Avatar zu optimieren:

  1. Gehen Sie zu Ihrem Azure AI Foundry-Projekt im Azure AI Foundry-Portal. Wenn Sie ein Projekt erstellen müssen, lesen Sie Erstellen eines Azure KI Foundry-Projekts.

  2. Wählen Sie im linken Bereich Optimierung aus.

  3. Wählen Sie Feinabstimmung des KI-Dienstes>+ Feinabstimmen aus.

    Screenshot der Seite zum Auswählen der Optimierung von Azure KI Services-Modellen.

  4. Wählen Sie im Assistenten Benutzerdefinierter Avatar (Text zu Sprach-Avatar Feinabstimmung) aus.

  5. Wählen Sie Weiter.

  6. Folgen Sie den Anweisungen des Assistenten, um Ihren Feinabstimmungsarbeitsbereich zu erstellen.

Ein Avatar-Talent ist ein Einzelner oder Zielakteur, dessen Video aufgezeichnet und verwendet wird, um neurale Avatarmodelle zu erstellen. Sie müssen nach allen relevanten Gesetzen und Vorschriften des Avatar-Talents ausreichende Zustimmung einholen, um ihr Video zu verwenden, um den benutzerdefinierten Text für den Sprachavatar zu erstellen.

Sie müssen eine Videodatei mit einer aufgezeichneten Aussage ihres Avatar-Talents bereitstellen und die Verwendung ihres Bilds und ihrer Stimme anerkennen. Microsoft überprüft, ob der Inhalt in der Aufzeichnung mit dem von Microsoft bereitgestellten vordefinierten Skript übereinstimmt. Microsoft vergleicht das Gesicht des Avatar-Talents in der aufgezeichneten Videoanweisungsdatei mit randomisierten Videos aus den Schulungsdatensätzen, um sicherzustellen, dass das Avatar-Talent in Videoaufzeichnungen und das Avatar-Talent in der Videodatei der Anweisung von derselben Person stammen.

  • Wenn Sie während der Avatarschulung eine Sprachsynchronisierung für Avatare erstellen möchten, wird neben dem benutzerdefinierten Avatar eine benutzerdefinierte Stimme erstellt, die Ihrem Avatar ähnelt. Die Stimme wird ausschließlich mit dem angegebenen Avatar verwendet. Ihre Zustimmungserklärung muss sowohl den benutzerdefinierten Avatar als auch die Sprachsynchronisierung für avatar enthalten. Ein Beispiel für die Zustimmungserklärung für einen benutzerdefinierten Avatar mit Sprachsynchronisierung finden Sie in der verbal-statement-voice-sync-for-avatar-all-locales.txt-Datei im GitHub-Repository "Azure-Samples/cognitive-services-speech-sdk ".
  • Wenn Sie keine Sprachsynchronisierung für Avatare erstellen, wird nur der benutzerdefinierte Avatar trainiert, und Ihre Zustimmungserklärung muss diesen Bereich widerspiegeln. Ein Beispiel für die Zustimmungserklärung nur für benutzerdefinierte Avatare finden Sie in der verbal-statement-all-locales.txt Datei im GitHub-Repository "Azure-Samples/cognitive-services-speech-sdk ".

Weitere Informationen zum Aufzeichnen des Zustimmungsvideos finden Sie unter "Aufzeichnen von Videobeispielen und Offenlegung für Avatar-Talente".

Führen Sie die folgenden Schritte aus, um ein Avatarsprecherprofil hinzuzufügen und ihre Einwilligungserklärung in Ihr Projekt hochzuladen:

  1. Melden Sie sich beim Azure AI Foundry-Portal an.

  2. Wählen Sie Feinabstimmung im linken Bereich und dann KI Service Feinabstimmung aus.

  3. Wählen Sie die benutzerdefinierte Avatar-Feinabstimmungsaufgabe (nach Modellname) aus, die Sie wie im vorherigen Abschnitt beschrieben gestartet haben.

  4. Wählen Sie Avatar-Talent einrichten>Zustimmungsvideo hochladen aus.

  5. Folgen Sie auf der Seite Einwilligungsvideo hochladen den Anweisungen, um das Video der Avatarsprechereinwilligung hochzuladen, das Sie zuvor aufgezeichnet haben.

    • Wählen Sie den Avatartyp aus, der erstellt werden soll. Erstellen Sie eine Sprachsynchronisierung für Ihren Avatar, die wie Ihre Avatar-Fähigkeit zusammen mit dem Avatar-Modell klingt, oder erstellen Sie einen Avatar ohne die Sprachsynchronisierung. Die Option zum Erstellen einer Sprachsynchronisierung für Avatare ist nur in den Regionen Südostasien, Westeuropa und West-USA 2 verfügbar.
    • Wählen Sie die Sprache der mündlichen Einwilligungserklärung aus, die vom Avatarsprecher aufgezeichnet wurde.
    • Geben Sie den Avatarsprechernamen und Ihren Firmennamen in derselben Sprache wie die aufgezeichnete Anweisung ein.
      • Der Name des Avatar-Talents muss der Name der Person sein, die die Einwilligungserklärung aufgezeichnet hat.
      • Der Firmenname muss mit dem Firmennamen übereinstimmen, der in der aufgezeichneten Erklärung gesprochen wurde.
    • Sie können Ihre Daten aus lokalen Dateien oder aus einem freigegebenen Speicher mit Azure Blob hochladen.
  6. Wählen Sie lokale Dateien von Ihrem Computer aus, oder geben Sie die Azure Blob Storage-URL ein, wo Ihre Daten gespeichert werden.

  7. Wählen Sie Weiter.

  8. Überprüfen Sie die Uploaddetails, und wählen Sie "Hochladen" aus.

Nachdem die Einwilligung für die Nutzung der Avatar-Talente erfolgreich hochgeladen wurde, können Sie mit dem Training Ihres benutzerdefinierten Avatar-Modells fortfahren.

Schritt 3: Hinzufügen von Schulungsdaten

Der Spracherkennungsdienst verwendet Ihre Schulungsdaten, um einen einzigartigen Avatar zu erstellen, der dem Aussehen der Person in den Aufzeichnungen entspricht. Nachdem Sie das Avatar-Modell trainiert haben, können Sie mit der Synthese von Avatar-Videos beginnen oder es für Live-Chats in Ihren Anwendungen verwenden.

Alle Daten, die Sie hochladen, müssen die Anforderungen für den ausgewählten Datentyp erfüllen. Um sicherzustellen, dass der Spracherkennungsdienst Ihre Daten genau verarbeitet, ist es wichtig, Ihre Daten vor dem Upload korrekt zu formatieren. Informationen zum Bestätigen, dass Ihre Daten korrekt formatiert sind, finden Sie unter Datenanforderungen.

Hochladen Ihrer Daten

Wenn Sie bereit sind, Ihre Daten hochzuladen, wechseln Sie zur Registerkarte zum Trainingsdaten vorbereiten, um Ihre Daten hochzuladen.

Führen Sie die folgenden Schritte aus, um Trainingsdaten hochzuladen:

  1. Melden Sie sich beim Azure AI Foundry-Portal an.
  2. Wählen Sie Feinabstimmung im linken Bereich und dann KI Service Feinabstimmung aus.
  3. Wählen Sie die benutzerdefinierte Avatar-Feinabstimmungsaufgabe (nach Modellname) aus, die Sie wie im vorherigen Abschnitt beschrieben gestartet haben.
  4. Wählen Sie "Vorbereiten von Schulungsdaten">„Daten hochladen“ aus.
  5. Wählen Sie im Assistenten zum Hochladen von Daten einen Datentyp aus, und wählen Sie dann Weiter. Weitere Informationen zu den Datentypen (einschließlich Natürliches Sprechen, Stummer Status, Gesten und Status 0 Sprechen), finden Sie unter Aufzeichnende Videoclips.
  6. Wählen Sie lokale Dateien von Ihrem Computer aus, oder geben Sie die Azure Blob Storage-URL ein, wo Ihre Daten gespeichert werden.
  7. Wählen Sie Weiter.
  8. Überprüfen Sie die Uploaddetails, und wählen Sie "Hochladen" aus.

Datendateien werden automatisch überprüft, wenn Sie "Hochladen" auswählen. Bei der Datenüberprüfung werden Format, Größe und Gesamtvolumen der Videodateien geprüft. Beheben Sie ggf. auftretende Fehler, und klicken Sie erneut auf „Senden“.

Nachdem Sie die Daten hochgeladen haben, können Sie die Datenübersicht überprüfen, die anzeigt, ob Sie genügend Daten für den Beginn des Trainings bereitgestellt haben.

Schritt 4: Trainieren Ihres Avatarmodells

Wichtig

Alle Schulungsdaten im Projekt sind in der Schulung enthalten. Die Modellqualität hängt stark von den von Ihnen bereitgestellten Daten ab, und Sie sind für die Videoqualität verantwortlich. Stellen Sie sicher, dass Sie die Schulungsvideos entsprechend dem Leitfaden zum Aufzeichnen von Videobeispielen aufzeichnen.

Führen Sie die folgenden Schritte aus, um einen benutzerdefinierten Avatar im Azure AI Foundry-Portal zu erstellen:

  1. Melden Sie sich beim Azure AI Foundry-Portal an.

  2. Wählen Sie Feinabstimmung im linken Bereich und dann KI Service Feinabstimmung aus.

  3. Wählen Sie die benutzerdefinierte Avatar-Feinabstimmungsaufgabe (nach Modellname) aus, die Sie wie im vorherigen Abschnitt beschrieben gestartet haben.

  4. Wählen Sie Train model>+ Train aus.

  5. Geben Sie einen Namen ein, um das Modell zu identifizieren. Wählen Sie den Namen sorgfältig aus. Der Modellname wird vom SDK und der SSML-Eingabe als Avatarname in Ihrer Syntheseanforderung verwendet. Es sind nur Buchstaben, Ziffern, Bindestriche und Unterstriche zulässig. Verwenden Sie für jedes Modell einen eindeutigen Namen.

    Wichtig

    Der Name des Avatarmodells muss innerhalb derselben Spracherkennungs- oder KI-Services-Ressource eindeutig sein.

  6. Wählen Sie Trainieren, um mit dem Training des Modells zu beginnen.

Die Trainingsdauer hängt von der Menge der verwendeten Daten ab. Das Trainieren eines benutzerdefinierten Avatars dauert normalerweise 20–40 Computestunden. Überprüfen Sie die Preishinweise zur Berechnung von Schulungen.

Kopieren des benutzerdefinierten Avatarmodells in ein anderes Projekt (optional)

Das Training eines benutzerdefinierten Avatars ist aktuell nur in einigen Regionen verfügbar. Nachdem Ihr Avatarmodell in einer unterstützten Region trainiert wurde, können Sie es nach Bedarf in eine KI Services-Ressource für Sprache in einer anderen Region kopieren. Weitere Informationen finden Sie in den Fußnoten der Tabelle Regionen.

Hinweis

Sie können die Sprachsynchronisierung für das Avatarmodell nur in die Regionen kopieren, die die Sprachsynchronisierung für avatar-Feature unterstützen, bei denen es sich um die gleichen Regionen handelt, die persönliche Stimme unterstützen.

So kopieren Sie Ihr benutzerdefiniertes Avatarmodell in ein anderes Projekt:

  1. Wählen Sie auf der Registerkarte Modell trainieren ein Avatarmodell aus, das Sie kopieren möchten, und klicken Sie dann auf In Projekt kopieren.
  2. Wählen Sie das Abonnement, die Region, die AI Services-Ressource für Sprache und das Projekt aus, in das Sie das Modell kopieren möchten. Sie müssen über eine AI Services-Ressource für Sprache und Projekt in der Zielregion verfügen, andernfalls müssen Sie sie zuerst erstellen.
  3. Wählen Sie Übermitteln, um das Modell zu kopieren.

Nachdem das Modell kopiert wurde, wird eine Benachrichtigung im Azure AI Foundry-Portal angezeigt.

Navigieren Sie zu dem Projekt, in das Sie das Modell kopiert haben, um die Modellkopie bereitzustellen.

Schritt 5: Bereitstellen und Verwenden Ihres Avatarmodells

Nachdem Sie Ihr Avatarmodell erfolgreich erstellt und trainiert haben, stellen Sie es auf Ihrem Endpunkt bereit.

So stellen Sie Ihren Avatar bereit:

  1. Melden Sie sich beim Azure AI Foundry-Portal an.

  2. Wählen Sie Feinabstimmung im linken Bereich und dann KI Service Feinabstimmung aus.

  3. Wählen Sie die benutzerdefinierte Avatar-Feinabstimmungsaufgabe (nach Modellname) aus, die Sie wie im vorherigen Abschnitt beschrieben gestartet haben.

  4. Wählen Sie "Modell bereitstellen">aus.

  5. Wählen Sie ein Modell aus, das Sie bereitstellen möchten.

  6. Wählen Sie Bereitstellen, um die Bereitstellung zu starten.

    Wichtig

    Wenn ein Modell bereitgestellt wird, zahlen Sie für die kontinuierliche Betriebszeit des Endpunkts, unabhängig von Ihrer Interaktion mit diesem Endpunkt. Überprüfen Sie die Preishinweise, wie die Modellimplementierung belastet wird. Um Ausgaben zu reduzieren und Ressourcen zu sparen, können Sie eine Bereitstellung löschen, wenn das Modell nicht verwendet wird.

Nachdem Sie Ihren benutzerdefinierten Avatar bereitgestellt haben, kann er im Azure AI Foundry-Portal oder über die API verwendet werden:

Entfernen einer Bereitstellung

Führen Sie die folgenden Schritte aus, um Ihre Bereitstellung zu entfernen:

  1. Melden Sie sich beim Azure AI Foundry-Portal an.
  2. Wählen Sie Feinabstimmung im linken Bereich und dann KI Service Feinabstimmung aus.
  3. Wählen Sie die benutzerdefinierte Avatar-Feinabstimmungsaufgabe (nach Modellname) aus, die Sie wie im vorherigen Abschnitt beschrieben gestartet haben.
  4. Wählen Sie die Bereitstellung auf der Seite Modell bereitstellen aus. Das Modell wird aktiv gehostet, wenn der Status „Erfolgreich“ ist.
  5. Sie können die Schaltfläche Bereitstellung löschen auswählen und den Löschvorgang bestätigen, um das Hosting zu entfernen.

Tipp

Nachdem eine Bereitstellung entfernt wurde, bezahlen Sie nicht mehr für das Hosting. Das Löschen einer Bereitstellung führt nicht zum Löschen Ihres Modells. Wenn Sie das Modell erneut verwenden möchten, erstellen Sie eine neue Bereitstellung.

Die ersten Schritte mit einem benutzerdefinierten Sprachsynthese-Avatar sind ein einfacher Prozess. Alles, was Sie brauchen, sind ein paar Videoclips Ihres Akteurs. Wenn Sie eine benutzerdefinierte Stimme für denselben Akteur trainieren möchten, können Sie dies separat tun.

Hinweis

Der Zugriff auf den benutzerdefinierten Avatar ist auf der Grundlage von Berechtigungs- und Nutzungskriterien begrenzt. Fordern Sie den Zugriff über das Aufnahmeformular an.

Voraussetzungen

Sie benötigen eine Azure AI Foundry-Ressource in einer der Regionen, die benutzerdefinierte Avatarschulungen unterstützen. Benutzerdefinierter Avatar unterstützt nur Standardressourcen (S0) KI Foundry oder Speech.

Sie benötigen eine Videoaufnahme, in der das Talent eine Einverständniserklärung zur Nutzung seines Bildes und seiner Stimme vorliest. Sie laden dieses Video hoch, wenn Sie den Avatarsprecher einrichten. Weitere Informationen finden Sie unter Avatarsprechereinwilligung hinzufügen.

Sie benötigen Videoaufzeichnungen Ihres Avatarsprechers als Schulungsdaten. Sie laden diese Videos hoch, wenn Sie Schulungsdaten vorbereiten. Weitere Informationen finden Sie unter Hinzufügen von Schulungsdaten.

Schritt 1: Erstellen eines Projekts für einen benutzerdefinierten Avatar

Befolgen Sie diese Schritte, um ein Projekt für einen benutzerdefinierten Avatar zu erstellen:

  1. Melden Sie sich beim Speech Studio an, und wählen Sie Ihre Abonnement- und Spracherkennungsressource aus.

  2. Wählen Sie Benutzerdefinierter Avatar (Vorschau) aus.

    Screenshot der Kachel zum Auswählen eines benutzerdefinierten Avatars unter anderen Kacheln.

  3. Wählen Sie +Projekt erstellen.

  4. Folgen Sie den Anweisungen des Assistenten, um Ihr Projekt zu erstellen.

    Tipp

    Mischen Sie nicht die Daten für verschiedene Avatare in einem Projekt. Erstellen Sie immer ein neues Projekt für einen neuen Avatar.

  5. Wählen Sie das neue Projekt nach Namen aus. Im linken Bereich werden dann die folgenden Menüelemente angezeigt: Avatar einrichten, Trainingsdaten vorbereiten, Modell trainieren und Modell bereitstellen.

    Screenshot des neuen leeren Projekts für den benutzerdefinierten Avatar.

Ein Avatar-Talent ist ein Einzelner oder Zielakteur, dessen Video aufgezeichnet und verwendet wird, um neurale Avatarmodelle zu erstellen. Sie müssen nach allen relevanten Gesetzen und Vorschriften des Avatar-Talents ausreichende Zustimmung einholen, um ihr Video zu verwenden, um den benutzerdefinierten Text für den Sprachavatar zu erstellen.

Sie müssen eine Videodatei mit einer aufgezeichneten Aussage ihres Avatar-Talents bereitstellen und die Verwendung ihres Bilds und ihrer Stimme anerkennen. Microsoft überprüft, ob der Inhalt in der Aufzeichnung mit dem von Microsoft bereitgestellten vordefinierten Skript übereinstimmt. Microsoft vergleicht das Gesicht des Avatar-Talents in der aufgezeichneten Videoanweisungsdatei mit randomisierten Videos aus den Schulungsdatensätzen, um sicherzustellen, dass das Avatar-Talent in Videoaufzeichnungen und das Avatar-Talent in der Videodatei der Anweisung von derselben Person stammen.

  • Wenn Sie während der Avatarschulung eine Sprachsynchronisierung für Avatare erstellen möchten, wird neben dem benutzerdefinierten Avatar eine benutzerdefinierte Stimme erstellt, die Ihrem Avatar ähnelt. Die Stimme wird ausschließlich mit dem angegebenen Avatar verwendet. Ihre Zustimmungserklärung muss sowohl den benutzerdefinierten Avatar als auch die Sprachsynchronisierung für avatar enthalten.
  • Wenn Sie keine Sprachsynchronisierung für Avatare erstellen, wird nur der benutzerdefinierte Avatar trainiert, und Ihre Zustimmungserklärung muss diesen Bereich widerspiegeln.

Die mündliche Einwilligungserklärung ist in mehreren Sprachen über das GitHub-Repository Azure-Samples/cognitive-services-speech-sdk verfügbar. Die Sprache der mündlichen Erklärung muss mit Ihrer Aufzeichnung identisch sein. Siehe auch die Offenlegung für Sprecher.

Weitere Informationen zum Aufzeichnen des Einwilligungsvideos finden Sie unter Aufzeichnen von Videobeispielen.

Führen Sie die folgenden Schritte aus, um ein Avatarsprecherprofil hinzuzufügen und ihre Einwilligungserklärung in Ihr Projekt hochzuladen:

  1. Melden Sie sich bei Speech Studio an.

  2. Wählen Sie Benutzerdefinierter Avatar> Name Ihres Projekts>Avatartalent einrichten>Einwilligungsvideo hochladen.

  3. Folgen Sie auf der Seite Einwilligungsvideo hochladen den Anweisungen, um das Video der Avatarsprechereinwilligung hochzuladen, das Sie zuvor aufgezeichnet haben.

    • Wählen Sie den Avatartyp aus, der erstellt werden soll. Erstellen Sie eine Sprachsynchronisierung für Ihren Avatar, die wie Ihre Avatar-Fähigkeit zusammen mit dem Avatar-Modell klingt, oder erstellen Sie einen Avatar ohne die Sprachsynchronisierung. Die Option zum Erstellen einer Sprachsynchronisierung für Avatare ist nur in den Regionen Südostasien, Westeuropa und West-USA 2 verfügbar.
    • Wählen Sie die Sprache der mündlichen Einwilligungserklärung aus, die vom Avatarsprecher aufgezeichnet wurde.
    • Geben Sie den Avatarsprechernamen und Ihren Firmennamen in derselben Sprache wie die aufgezeichnete Anweisung ein.
      • Der Name des Avatar-Talents muss der Name der Person sein, die die Einwilligungserklärung aufgezeichnet hat.
      • Der Firmenname muss mit dem Firmennamen übereinstimmen, der in der aufgezeichneten Erklärung gesprochen wurde.
    • Sie können Ihre Daten aus lokalen Dateien oder aus einem freigegebenen Speicher mit Azure Blob hochladen.

    Screenshot: Dialogfeld, in dem Sie das Video zur Einwilligung der Talent zum Hochladen auswählen.

  4. Wählen Sie Hochladen.

Nachdem die Einwilligung für die Nutzung der Avatar-Talente erfolgreich hochgeladen wurde, können Sie mit dem Training Ihres benutzerdefinierten Avatar-Modells fortfahren.

Schritt 3: Hinzufügen von Schulungsdaten

Der Spracherkennungsdienst verwendet Ihre Schulungsdaten, um einen einzigartigen Avatar zu erstellen, der dem Aussehen der Person in den Aufzeichnungen entspricht. Nachdem Sie das Avatar-Modell trainiert haben, können Sie mit der Synthese von Avatar-Videos beginnen oder es für Live-Chats in Ihren Anwendungen verwenden.

Alle Daten, die Sie hochladen, müssen die Anforderungen für den ausgewählten Datentyp erfüllen. Um sicherzustellen, dass der Spracherkennungsdienst Ihre Daten genau verarbeitet, ist es wichtig, Ihre Daten vor dem Upload korrekt zu formatieren. Informationen zum Bestätigen, dass Ihre Daten korrekt formatiert sind, finden Sie unter Datenanforderungen.

Hochladen Ihrer Daten

Wenn Sie bereit sind, Ihre Daten hochzuladen, wechseln Sie zur Registerkarte zum Trainingsdaten vorbereiten, um Ihre Daten hochzuladen.

Führen Sie die folgenden Schritte aus, um Trainingsdaten hochzuladen:

  1. Melden Sie sich bei Speech Studio an.

  2. Wählen Sie Benutzerdefinierter Avatar> Ihr Projektname >Trainingsdaten vorbereiten>Daten hochladen.

    Screenshot der Seite zur Vorbereitung von Schulungsdaten mit der Schaltfläche zum Hochladen von Schulungsdaten.

  3. Wählen Sie im Assistenten zum Hochladen von Daten einen Datentyp aus, und wählen Sie dann Weiter. Weitere Informationen zu den Datentypen (einschließlich Natürliches Sprechen, Stumm, Gesten und Status 0 Sprechen), finden Sie unter Aufzeichnende Videoclips.

  4. Wählen Sie lokale Dateien von Ihrem Computer aus, oder geben Sie die Azure Blob Storage-URL ein, wo Ihre Daten gespeichert werden.

  5. Wählen Sie Weiter.

  6. Überprüfen Sie die Details zum Upload, und wählen Sie Absenden.

Durch Klicken auf Senden werden die Datendateien automatisch überprüft. Bei der Datenüberprüfung werden Format, Größe und Gesamtvolumen der Videodateien geprüft. Beheben Sie ggf. auftretende Fehler, und klicken Sie erneut auf „Senden“.

Nachdem Sie die Daten hochgeladen haben, können Sie die Datenübersicht überprüfen, die anzeigt, ob Sie genügend Daten für den Beginn des Trainings bereitgestellt haben. In diesem Screenshot werden als Beispiel ausreichend Daten für das Training eines Avatars ohne weitere Gesten angezeigt.

Screenshot ausreichender Daten, die zum Trainieren eines Avatars ohne andere Gesten hinzugefügt wurden.

Schritt 4: Trainieren Ihres Avatarmodells

Wichtig

Alle Schulungsdaten im Projekt sind in der Schulung enthalten. Die Modellqualität hängt stark von den von Ihnen bereitgestellten Daten ab, und Sie sind für die Videoqualität verantwortlich. Stellen Sie sicher, dass Sie die Schulungsvideos entsprechend dem Leitfaden zum Aufzeichnen von Videobeispielen aufzeichnen.

Führen Sie zum Erstellen eines benutzerdefinierten Avatars in Speech Studio diese Schritte für eine der folgenden Methoden aus:

  1. Melden Sie sich bei Speech Studio an.

  2. Wählen Sie Benutzerdefinierter Avatar> Ihr Projektname >Modell trainieren>Modell trainieren.

  3. Geben Sie einen Namen ein, um das Modell zu identifizieren. Wählen Sie den Namen sorgfältig aus. Der Modellname wird vom SDK und der SSML-Eingabe als Avatarname in Ihrer Syntheseanforderung verwendet. Es sind nur Buchstaben, Ziffern, Bindestriche und Unterstriche zulässig. Verwenden Sie für jedes Modell einen eindeutigen Namen.

    Wichtig

    Der Name des Avatarmodells muss innerhalb derselben Spracherkennungs- oder KI-Services-Ressource eindeutig sein.

  4. Wählen Sie Trainieren, um mit dem Training des Modells zu beginnen.

Die Trainingsdauer hängt von der Menge der verwendeten Daten ab. Das Trainieren eines benutzerdefinierten Avatars dauert normalerweise 20–40 Computestunden. Überprüfen Sie die Preishinweise zur Berechnung von Schulungen.

Kopieren des benutzerdefinierten Avatarmodells in ein anderes Projekt (optional)

Das Training eines benutzerdefinierten Avatars ist aktuell nur in einigen Regionen verfügbar. Nachdem Ihr Avatarmodell in einer unterstützten Region trainiert wurde, können Sie es nach Bedarf in eine KI Services-Ressource für Sprache in einer anderen Region kopieren. Weitere Informationen finden Sie in den Fußnoten der Tabelle Regionen.

Hinweis

Sie können die Sprachsynchronisierung für das Avatarmodell nur in die Regionen kopieren, die die Sprachsynchronisierung für avatar-Feature unterstützen, bei denen es sich um die gleichen Regionen handelt, die persönliche Stimme unterstützen.

So kopieren Sie Ihr benutzerdefiniertes Avatarmodell in ein anderes Projekt:

  1. Wählen Sie auf der Registerkarte Modell trainieren ein Avatarmodell aus, das Sie kopieren möchten, und klicken Sie dann auf In Projekt kopieren.
  2. Wählen Sie das Abonnement, die Region, die AI Services-Ressource für Sprache und das Projekt aus, in das Sie das Modell kopieren möchten. Sie müssen über eine AI Services-Ressource für Sprache und Projekt in der Zielregion verfügen, andernfalls müssen Sie sie zuerst erstellen.
  3. Wählen Sie Übermitteln, um das Modell zu kopieren.

Nachdem das Modell kopiert wurde, wird eine Benachrichtigung im Speech Studio angezeigt.

Navigieren Sie zu dem Projekt, in das Sie das Modell kopiert haben, um die Modellkopie bereitzustellen.

Schritt 5: Bereitstellen und Verwenden Ihres Avatarmodells

Nachdem Sie Ihr Avatarmodell erfolgreich erstellt und trainiert haben, stellen Sie es auf Ihrem Endpunkt bereit.

So stellen Sie Ihren Avatar bereit:

  1. Melden Sie sich bei Speech Studio an.
  2. Wählen Sie Benutzerdefinierter Avatar> Projektname >Modelle bereitstellen.
  3. Wählen Sie Modell bereitstellen und dann ein Modell aus, das Sie bereitstellen möchten.
  4. Wählen Sie Bereitstellen, um die Bereitstellung zu starten.

    Wichtig

    Wenn ein Modell bereitgestellt wird, zahlen Sie für die kontinuierliche Betriebszeit des Endpunkts, unabhängig von Ihrer Interaktion mit diesem Endpunkt. Überprüfen Sie die Preishinweise, wie die Modellimplementierung belastet wird. Um Ausgaben zu reduzieren und Ressourcen zu sparen, können Sie eine Bereitstellung löschen, wenn das Modell nicht verwendet wird.

Nachdem Sie Ihren benutzerdefinierten Avatar bereitgestellt haben, ist er für die Verwendung in Speech Studio oder über die API verfügbar:

  • Der Avatar wird in der Avatarliste des Text-zu-Sprache-Avatars auf Speech Studio angezeigt.
  • Der Avatar wird in der Avatarliste des Live-Chat-Avatars auf Speech Studio angezeigt.
  • Sie können den Avatar aus der SDK- und SSML-Eingabe aufrufen, indem Sie den Namen des Avatarmodells angeben. Weitere Informationen finden Sie in den Avatareigenschaften.

Entfernen einer Bereitstellung

Führen Sie die folgenden Schritte aus, um Ihre Bereitstellung zu entfernen:

  1. Melden Sie sich bei Speech Studio an.
  2. Navigieren Sie zu Benutzerdefinierter Avatar> Ihr Projektname >Modell bereitstellen.
  3. Wählen Sie die Bereitstellung auf der Seite Modell bereitstellen aus. Das Modell wird aktiv gehostet, wenn der Status „Erfolgreich“ ist.
  4. Sie können die Schaltfläche Bereitstellung löschen auswählen und den Löschvorgang bestätigen, um das Hosting zu entfernen.

Tipp

Nachdem eine Bereitstellung entfernt wurde, bezahlen Sie nicht mehr für das Hosting. Das Löschen einer Bereitstellung führt nicht zum Löschen Ihres Modells. Wenn Sie das Modell erneut verwenden möchten, erstellen Sie eine neue Bereitstellung.

Nächste Schritte