Sprechererkennung

Artikel
03/10/2024

Die Sprechererkennung von Azure AI Services – Speech Service bietet Algorithmen, die Sprecher anhand ihrer eindeutigen Spracheigenschaften überprüfen und identifizieren. Sprechererkennung wird verwendet, um die Frage "Wer spricht?" zu beantworten. Weitere Informationen

Die Stimme hat unverwechselbare Eigenschaften, die einem Individuum zugeordnet werden können. Wir bieten Sprecherüberprüfungs-APIs und Sprecheridentifikations-APIs für zwei Hauptanwendungen von Lautsprechererkennungstechnologien.

Sprecherüberprüfung

Die Sprecherüberprüfung kann entweder textabhängig oder textunabhängig sein. Bei der textabhängigen Überprüfung müssen die Sprecher sowohl bei der Registrierung als auch bei der Überprüfung dieselbe Passphrase verwenden. Die Überprüfung sowohl von Sprachinhalten als auch der Sprachsignatur ermöglicht ein Szenario mit mehrstufiger Überprüfung. Die textunabhängige Überprüfung bedeutet, dass Die Sprecher in der täglichen Sprache in den Registrierungs- und Überprüfungsphrasen sprechen können.

Überprüfung des abhängigen Textsprechers

In der Phase der Sprecherregistrierung wird die Stimme des Sprechers aufgezeichnet, indem eine Passphrase aus einer Reihe vordefinierter Ausdrücke gesprochen wird. Sprachfeatures werden aus der Audioaufzeichnung extrahiert, um eine eindeutige Sprachsignatur zu bilden, während die ausgewählte Passphrase erkannt wird. Zusammen würden die Sprachsignatur und die Passphrase verwendet, um den Sprecher zu überprüfen.

In der Überprüfungsphase wird die ID, die der zu überprüfenden Person zugeordnet ist, an die Sprecherüberprüfungs-API gesendet. Der Sprecherüberprüfungsdienst extrahiert Sprachfeatures und die Passphrase aus der Eingabespracheaufzeichnung. Anschließend werden die Sprachfeatures und die Passphrase mit dem Registrierungsprofil des entsprechenden Sprechers verglichen.

Die Antwort gibt "Accept" oder "Reject" mit einer Ähnlichkeitsbewertung von 0 bis 1 zurück. Die Antwort "Annehmen" oder "Ablehnen" ist ein Ergebnis, das sowohl das Ergebnis der Sprecherüberprüfung als auch das Ergebnis der Spracherkennung kombiniert, während die Ähnlichkeitsbewertung nur die Sprachähnlichkeit misst. Wir geben "Accept" zurück, wenn das Ergebnis der Spracherkennung mit dem Registrierungsbegriff übereinstimmt und die Stimmenähnlichkeitsbewertung größer oder gleich 0,5 ist. Das Ergebnis sollte jedoch basierend auf dem Szenario und anderen verwendeten Überprüfungsfaktoren bestimmt werden. Es wird empfohlen, mit Ihren eigenen Daten zu experimentieren und ihren Schwellenwert zu bestimmen, um "Annehmen"- oder "Ablehnen"-Antworten nach Bedarf außer Kraft zu setzen.

In der aktuellen Version der textabhängigen Sprecherüberprüfungs-API stellen wir 10 englische Ausdrücke für die Sprecher zur Auswahl bereit.

Ich werde ihm ein Angebot machen, das er nicht ablehnen kann.
Houston wir hatten ein Problem.
Meine Stimme ist mein Reisepass.
Apfelsaft schmeckt lustig nach Zahnpasta.
Sie können ohne Ihr Kennwort einsteigen.
Sie können das Sicherheitssystem jetzt aktivieren.
Meine Stimme ist stärker als Kennwörter.
Mein Kennwort ist nicht Ihr Unternehmen.
Mein Name ist Ihnen unbekannt.
Seien Sie selbst, jeder andere ist bereits genommen"

Sie können Ihre eigenen Passphrasen erstellen, indem Sie separate Anforderungen an die textunabhängige Sprecherüberprüfungs-API und die Spracherkennungs-API senden. Wenn Sie das Ergebnis der Sprecherüberprüfung und das Ergebnis der Spracherkennung kombinieren, können Sie die Identität des Sprechers ermitteln.

Die APIs dienen nicht zum Bestimmen, ob das Audio von einer echten Person oder einer Imitation oder Aufzeichnung eines registrierten Sprechers stammt. Das Generieren zufälliger Ausdrücke für den Sprecher zum Lesen gilt als effektiv, um Wiederholungsangriffe zu verhindern.

Überprüfung von textunabhängigen Sprechern

Die Sprecherüberprüfung kann auch textunabhängig sein, was bedeutet, dass es keine Einschränkungen für das gibt, was der Sprecher im Audio sagt.

In der Registrierungsphase werden Sprachfeatures aus dem Audio eines Sprechers extrahiert, um eine eindeutige Stimmsignatur zu bilden.

In der Überprüfungsphase werden das Audio und die ID, die der zu überprüfenden Person zugeordnet sind, an die Sprecherüberprüfungs-API gesendet. Der Sprecherüberprüfungsdienst extrahiert Sprachfeatures aus der Eingabesprachaufzeichnung. Anschließend werden die Sprachfeatures mit der Stimmsignatur im Registrierungsprofil des entsprechenden Sprechers verglichen.

Die Antwort gibt "Accept" oder "Reject" mit einer Ähnlichkeitsbewertung von 0 bis 1 zurück. Die Antwort "Akzeptieren" wird zurückgegeben, wenn die Ähnlichkeitsbewertung größer oder gleich 0,5 ist. Das Ergebnis sollte jedoch basierend auf dem Szenario und anderen verwendeten Überprüfungsfaktoren bestimmt werden. Es wird empfohlen, mit Ihren eigenen Daten zu experimentieren und Ihren Schwellenwert zu bestimmen, um die Antwort "Annehmen" oder "Ablehnen" nach Bedarf außer Kraft zu setzen.

Die APIs dienen nicht zum Bestimmen, ob das Audio von einer echten Person oder einer Imitation oder Aufzeichnung eines registrierten Sprechers stammt.

Sprecheridentifikation

Sprecheridentifikation ist die Aufgabe, die Identität einer unbekannten Stimme unter einer Reihe von Kandidaten zu bestimmen. Die Sprecheridentifikations-API gibt eine Liste der "besten Übereinstimmungen" basierend auf den Ähnlichkeitsbewertungen mit einer bereitgestellten Liste von IDs zurück. Die Sprecheridentifikations-API ist textunabhängig, da sie nicht mit dem vergleicht, was bei der Registrierung und Erkennung gesagt wurde.

Textunabhängige Sprecheridentifikation

Die Registrierung für die Sprecheridentifikation ist textunabhängig. Es spielt also keine Rolle, was der Sprecher im Audio sagt. Eine Passphrase ist nicht erforderlich. In der Registrierungsphase wird die Stimme des Sprechers aufgezeichnet. Stimmmerkmale werden extrahiert, um eine eindeutige Stimmsignatur zu bilden.

In der Identifikationsphase extrahiert der Sprecheridentifikationsdienst Stimmmerkmale in der Sprachaufzeichnung der Eingabe. Anschließend werden die Features mit den Stimmsignaturen in den Registrierungsdaten einer angegebenen Liste von Sprechern (bis zu 50 Kandidaten pro Anforderung) verglichen. Die Antwort umfasste eine identifizierte ID und fünf bestplatzierte IDs mit Ähnlichkeitswerten zwischen 0 und 1. Die identifizierte ID wird basierend auf der Ähnlichkeitsbewertung des am besten übereinstimmenden Sprechers bestimmt. Wenn keiner der Kandidaten eine Ähnlichkeitsbewertung von größer oder gleich 0,5 zurückgibt, gibt die Antwort eine Zeichenfolge von 0 zurück, die "keine Übereinstimmung gefunden" darstellt. Das Ergebnis sollte jedoch basierend auf Ihrem Szenario und anderen verwendeten Faktoren bestimmt werden. Es wird empfohlen, mit Ihren Daten zu experimentieren und Ihren Schwellenwert zu bestimmen, um die Standardeinstellung "Übereinstimmung oder keine Übereinstimmung" nach Bedarf außer Kraft zu setzen.