Share via


Text Independent - Create Enrollment

Profil registrieren
Fügt dem vorhandenen Profil eine Registrierung hinzu. Die erste Registrierung muss ein vordefinierter Aktivierungsbegriff sein, der mithilfe der Api /phrases/{locale} aufgelistet werden kann. Wenn die Mindestanzahl der angeforderten Registrierungsaudios erreicht wird, wird ein Sprachdruck erstellt. Jede weitere Registrierung wird verwendet, um den Sprachdruck zu verbessern.

Einschränkungen:

  • Die minimale Audioeingabelänge pro Anforderung beträgt 1 Sekunde

  • Die maximale Audioeingabelänge pro Anforderung beträgt 120 Sekunden

  • Die minimale effektive Sprachlänge (ohne Stille und andere Nicht-Sprachframes) zum Erstellen eines Sprachabdrucks beträgt 20 Sekunden Diese Einschränkung kann deaktiviert werden, indem Sie "ignoreMinLength" auf true festlegen.

  • Die maximale gesamt zulässige Audioeingabelänge zum Erstellen eines Voiceprints beträgt 300 Sekunden

  • Minimales Audiosignal-Rausch-Verhältnis (SNR) beträgt 2dB

POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

URI-Parameter

Name In Erforderlich Typ Beschreibung
endpoint
path True

string

Unterstützte Cognitive Services-Endpunkte (Protokoll und Hostname, z. B. ). https://westus.api.cognitive.microsoft.com

profileId
path True

string

uuid

Eindeutiger Bezeichner für die Profil-ID (guid).

api-version
query True

string

Gibt die Version des für die Anforderung zu verwendenden Vorgangs an.

ignoreMinLength
query

boolean

Wenn true, wird sofort ein Sprachdruck für dieses Profil erstellt, unabhängig davon, wie viel Sprache bereitgestellt oder gespeichert wird. Der Standardwert ist "false".

Anforderungsheader

Media Types: "audio/wav; codecs=audio/pcm"

Name Erforderlich Typ Beschreibung
Ocp-Apim-Subscription-Key True

string

Anforderungstext

Media Types: "audio/wav; codecs=audio/pcm"

Name Typ Beschreibung
audioData

object

Binäre Audiodatei. Unterstützte Formate sind Audio/WAV; codecs=audio/pcm. Unterstützt Audio bis zu 5 MB.

Antworten

Name Typ Beschreibung
201 Created

TiEnrollmentInfo

Erstellt

Other Status Codes

SpeakerErrorInfo

Fehler

Headers

x-ms-error-code: string

Sicherheit

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Beispiele

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Definitionen

Name Beschreibung
Error
SpeakerErrorInfo

Sprecherfehlermeldung

TiEnrollmentInfo

Registrierungsinformationen zum Text-Independent Speaker-Profil

TrainingStatusType

Status, der den aktuellen Status des Profils darstellt. Folgende Werte sind verfügbar:

  • Registrierung: Das Profil verfügt über keinen Sprachdruck und ist nicht für Erkennungsanforderungen bereit.
  • Schulung: Der Sprachdruck des Profils wird erstellt und kann derzeit nicht für die Erkennung verwendet werden.
  • Registriert: Das Profil verfügt über eine Sprachausgabe und ist für Erkennungsanforderungen bereit.

Error

Name Typ Beschreibung
code

string

message

string

SpeakerErrorInfo

Sprecherfehlermeldung

Name Typ Beschreibung
error

Error

TiEnrollmentInfo

Registrierungsinformationen zum Text-Independent Speaker-Profil

Name Typ Beschreibung
audioLengthInSec

number

Diese Registrierungsaudiolänge in Sekunden.

audioSpeechLengthInSec

number

Diese Registrierung Audio reine Sprache (das ist die Menge an Audio nach dem Entfernen von Stille und Nicht-Sprachsegmenten) Länge in Sekunden.

enrollmentStatus

TrainingStatusType

Status, der den aktuellen Status des Profils darstellt. Folgende Werte sind verfügbar:

  • Registrierung: Das Profil verfügt über keinen Sprachdruck und ist nicht für Erkennungsanforderungen bereit.
  • Schulung: Der Sprachdruck des Profils wird erstellt und kann derzeit nicht für die Erkennung verwendet werden.
  • Registriert: Das Profil verfügt über eine Sprachausgabe und ist für Erkennungsanforderungen bereit.
enrollmentsCount

integer

Anzahl der für dieses Profil akzeptierten Registrierungsaudios.

enrollmentsLengthInSec

number

Gesamtlänge der für dieses Profil akzeptierten Registrierungsaudios in Sekunden.

enrollmentsSpeechLengthInSec

number

Summation der reinen Sprache (dies ist die Audiomenge nach dem Entfernen von Stille und Nicht-Sprachsegmenten) über alle Profilregistrierungen in Sekunden.

profileId

string

Eindeutiger Bezeichner für die Profil-ID (guid).

remainingEnrollmentsSpeechLengthInSec

number

Die Menge der reinen Sprache (also die Menge an Audiodaten nach dem Entfernen von Stille- und Spracherkennungssegmenten), die erforderlich ist, um die Profilregistrierung in Sekunden abzuschließen.

TrainingStatusType

Status, der den aktuellen Status des Profils darstellt. Folgende Werte sind verfügbar:

  • Registrierung: Das Profil verfügt über keinen Sprachdruck und ist nicht für Erkennungsanforderungen bereit.
  • Schulung: Der Sprachdruck des Profils wird erstellt und kann derzeit nicht für die Erkennung verwendet werden.
  • Registriert: Das Profil verfügt über eine Sprachausgabe und ist für Erkennungsanforderungen bereit.
Name Typ Beschreibung
Enrolled

string

Enrolling

string

Training

string