Q: Wird meine Bereitstellung automatisch aktualisiert, wenn eine neue Version eines Basismodells verfügbar ist?

Bereitstellungen werden nicht automatisch aktualisiert. Wenn Sie ein Modell angepasst und bereitgestellt haben, bleibt die vorhandene Bereitstellung unverändert. Sie können das bereitgestellte Modell außer Betrieb nehmen, indem Sie die neuere Version des Basismodells verwenden und es dann wieder bereitstellen, um eine höhere Genauigkeit zu erzielen. Sowohl Basismodelle als auch benutzerdefinierte Modelle werden nach einiger Zeit außer Betrieb gesetzt (siehe Lebenszyklus von Modell und Endpunkt ).

Question 1

Worin besteht der Unterschied zwischen einem Basismodell und einem benutzerdefinierten Modell zur Spracherkennung?

Accepted Answer

Ein Baselinemodell für die Spracherkennung wird mit Daten von Microsoft trainiert und wird bereits in der Cloud bereitgestellt. Sie können ein benutzerdefiniertes Modell erstellen und verwenden, um ein Modell zu haben, das optimal an eine Umgebung mit speziellen Umweltgeräuschen oder Sprachen angepasst ist. Für Fabrikhallen, Autos oder laute Straßen wäre ein angepasstes Akustikmodell erforderlich. Für bestimmte Themen, wie z. B. Biologie, Physik, Radiologie, Produktnamen und benutzerdefinierte Akronyme, würde ein angepasstes Sprachmodell benötigt. Wenn Sie ein benutzerdefiniertes Modell trainieren möchten, sollten Sie mit entsprechendem Text beginnen, um die Erkennung besonderer Begriffe und Phrasen zu verbessern.

Question 2

Wo fange ich an, wenn ich ein Basismodell verwenden möchte?

Accepted Answer

Rufen Sie zunächst einen API-Schlüssel und eine Region im Azure-Portal ab. Informationen zum Ausführen von REST-Aufrufen an ein vorab bereitgestelltes Basismodell finden Sie in der Dokumentation der REST-APIs. Wenn Sie WebSockets verwenden möchten, laden Sie das Speech SDK herunter.

Question 3

Muss ich immer ein benutzerdefiniertes Sprachmodell erstellen?

Accepted Answer

Nein. Wenn Ihre Anwendung generische, alltägliche Sprache verwendet, müssen Sie ein Modell nicht anpassen. Wenn Ihre Anwendung in einer Umgebung verwendet wird, in der es wenig oder gar keine Hintergrundgeräusche gibt, müssen Sie ein Modell nicht anpassen.

Sie können Basismodelle und angepasste Modelle im Portal bereitstellen und dann Genauigkeitsprüfungen für diese durchführen. Sie können dieses Feature verwenden, um die Genauigkeit eines Basismodells im Vergleich zu einem benutzerdefinierten Modell zu messen.

Question 4

Wie erfahre ich, wann die Verarbeitung für mein Dataset oder Modell abgeschlossen ist?

Accepted Answer

Derzeit ist der Status des Modells oder Datasets in der Tabelle die einzige Möglichkeit, dies zu erfahren. Wenn die Verarbeitung abgeschlossen ist, lautet der Status Erfolgreich.

Question 5

Kann ich mehrere Modelle erstellen?

Accepted Answer

Die Anzahl der Modelle, die Sie in Ihrer Sammlung haben können, ist nicht begrenzt.

Question 6

Ich habe festgestellt, dass ich einen Fehler gemacht habe. Wie breche ich einen laufenden Datenimport oder die laufende Modellerstellung ab?

Accepted Answer

Derzeit können Sie einen akustischen oder sprachlichen Anpassungsprozess nicht rückgängig machen. Sie können importierte Daten und Modelle löschen, wenn sie in einem Endzustand sind.

Question 7

Mit dem ausführlichen Ausgabeformat erhalte ich mehrere Ergebnisse für jede Phrase. Was sollte ich verwenden?

Accepted Answer

Verwenden Sie immer das erste Ergebnis, selbst wenn ein anderes Ergebnis („N-Best“) einen höheren Konfidenzwert aufweist. Der Speech-Dienst betrachtet das erste Ergebnis als das beste. Bei dem Ergebnis kann es sich auch um eine leere Zeichenfolge handeln, wenn keine Sprache erkannt wurde.

Die anderen Ergebnisse sind wahrscheinlich schlechter und verfügen möglicherweise nicht über vollständige Groß- und Kleinschreibung sowie Interpunktion. Diese Ergebnisse sind insbesondere in speziellen Szenarios hilfreich, z. B., wenn Sie Benutzern die Option bereitstellen möchten, Korrekturoptionen aus einer Liste auszuwählen, oder wenn falsch erkannte Befehle verarbeitet werden sollen.

Question 8

Warum gibt es mehrere Basismodelle?

Accepted Answer

Im Speech-Dienst können Sie aus mehreren Basismodellen auswählen. Jeder Modellname enthält das Datum, an dem es hinzugefügt wurde. Wenn Sie damit beginnen, ein benutzerdefiniertes Modell zu trainieren, verwenden Sie das jüngste Modell, um die höchste Genauigkeit zu erzielen. Ältere Basismodelle sind für einige Zeit weiterhin verfügbar, nachdem ein neues Modell veröffentlicht wurde. Sie können das Modell, mit dem Sie bisher gearbeitet haben, weiterhin verwenden, bis es außer Betrieb gesetzt wird (weitere Informationen unter Lebenszyklus von Modell und Endpunkt). Es wird weiterhin empfohlen, zum neuesten Basismodell zu wechseln, um die Genauigkeit zu verbessern.

Question 9

Kann ich mein vorhandenes Modell aktualisieren (Modellstapel)?

Accepted Answer

Sie können ein vorhandenes Modell nicht aktualisieren. Als Lösung können Sie das alte Dataset mit dem neuen Dataset kombinieren und neu anpassen.

Das alte und das neue Dataset müssen in einer einzigen ZIP-Datei (für akustische Daten) bzw. TXT-Datei (für Sprachdaten) zusammengefasst werden. Wenn die Anpassung abgeschlossen ist, stellen Sie das neue, aktualisierte Modell erneut bereit, um einen neuen Endpunkt zu erhalten.

Question 10

Wird meine Bereitstellung automatisch aktualisiert, wenn eine neue Version eines Basismodells verfügbar ist?

Accepted Answer

Bereitstellungen werden nicht automatisch aktualisiert.

Wenn Sie ein Modell angepasst und bereitgestellt haben, bleibt die vorhandene Bereitstellung unverändert. Sie können das bereitgestellte Modell außer Betrieb nehmen, indem Sie die neuere Version des Basismodells verwenden und es dann wieder bereitstellen, um eine höhere Genauigkeit zu erzielen.

Sowohl Basismodelle als auch benutzerdefinierte Modelle werden nach einiger Zeit außer Betrieb gesetzt (siehe Lebenszyklus von Modell und Endpunkt).

Question 11

Kann ich mein Modell herunterladen und lokal ausführen?

Accepted Answer

Sie können ein benutzerdefiniertes Modell lokal in einem Docker-Container ausführen.

Question 12

Kann ich meine Datasets, Modelle und Bereitstellungen in eine andere Region oder in ein anderes Abonnement kopieren bzw. verschieben?

Accepted Answer

Sie können die Models_Copy-REST-API verwenden, um ein benutzerdefiniertes Modell in eine andere Region oder ein anderes Abonnement zu kopieren. Datasets und Bereitstellungen können nicht kopiert werden. Sie können ein Datasets mithilfe der Modellkopien wieder in ein anderes Abonnement importieren und dort Endpunkte erstellen.

Question 13

Werden meine Anforderungen protokolliert?

Accepted Answer

Standardmäßig werden Anforderungen nicht protokolliert (weder Audio noch Transkription). Bei Bedarf können Sie die Option Log content from this endpoint (Inhalte von diesem Endpunkt protokollieren) auswählen, wenn Sie einen benutzerdefinierten Endpunkt erstellen. Im Speech SDK können Sie auch die Audioprotokollierung auf Grundlage von Anforderungen aktivieren, ohne dass Sie einen benutzerdefinierten Endpunkt erstellen müssen. In beiden Fällen werden die Audio- und Erkennungsergebnisse von Anforderungen in einem sicheren Speicher gespeichert. Abonnements, die Speicherressourcen von Microsoft verwenden, bleiben 30 Tage lang verfügbar.

Sie können die protokollierten Dateien auf der Bereitstellungsseite in Speech Studio exportieren, wenn Sie einen benutzerdefinierten Endpunkt mit der Option Log content from this endpoint (Inhalte von diesem Endpunkt protokollieren) verwenden. Wenn die Audioprotokollierung über das SDK aktiviert ist, rufen Sie die API auf, um auf die Dateien zuzugreifen. Sie können die Protokolle auch jederzeit über die API löschen.

Question 14

Werden meine Anforderungen gedrosselt?

Accepted Answer

Weitere Informationen finden Sie unter Speech-Dienst: Kontingente und Limits.

Question 15

Wie werden Zweikanalaudiodaten in Rechnung gestellt?

Accepted Answer

Wenn Sie jeden Kanal separat in einer eigenen Datei übermitteln, wird Ihnen die Audiodauer jeder Datei in Rechnung gestellt. Wenn Sie eine einzelne Datei mit den darin enthaltenen Multiplexkanälen übermitteln, wird Ihnen die Dauer der einzelnen Datei in Rechnung gestellt. Weitere Informationen zu Preisen finden Sie auf der Seite Azure KI Services – Preise.

Wichtig

Wenn Sie weitere Bedenken zum Datenschutz haben, die Sie von der Nutzung des Custom Speech Service abhalten, wenden Sie sich an einen der Supportkanäle.

Erhöhen der Parallelität

Weitere Informationen finden Sie unter Speech-Dienst: Kontingente und Grenzwerte.

Question 16

Wie groß darf das Dataset maximal sein, und was ist der Grund für dieses Limit?

Accepted Answer

Der Grenzwert ist auf die Beschränkung der Dateigröße für den HTTP-Upload zurückzuführen. Informationen zum tatsächlichen Grenzwert finden Sie unter Speech Service: Kontingente und Grenzwerte. Sie können Ihre Daten in mehrere Datasets unterteilen und alle zum Trainieren des Modells auswählen.

Question 17

Kann ich meine Textdateien komprimieren (ZIP), damit ich eine größere Textdatei hochladen kann?

Accepted Answer

Nein. Derzeit sind nur unkomprimierte Textdateien zulässig.

Question 18

Der Datenbericht besagt, dass fehlerhafte Äußerungen gefunden wurden. Was ist das Problem?

Accepted Answer

Wenn die Äußerungen in einer Datei nicht zu 100 % hochgeladen werden können, stellt dies kein Problem dar. Wenn der Großteil der Äußerungen in einem Akustik- oder Sprachdataset (z. B. > 95 %) erfolgreich importiert wird, kann das Dataset verwendet werden. Allerdings sollten Sie weiterhin herausfinden, warum Fehler bei den Äußerungen aufgetreten sind, und die Probleme dann beheben. Die meisten Probleme, z.B. Formatierungsfehler, sind einfach zu beheben.

Question 19

Wie viele Akustikdaten benötige ich?

Accepted Answer

Sie sollten zunächst mit 30 Minuten bis 1 Stunde Akustikdaten beginnen.

Question 20

Welche Daten soll ich sammeln?

Accepted Answer

Sammeln Sie Daten, die dem Anwendungsszenario und dem Anwendungsfall möglichst nahe kommen. Die Datensammlung sollte in Bezug auf Geräte, Umgebungen und Sprechertypen mit der Zielanwendung und den Benutzern übereinstimmen. Generell sollten Sie Daten von möglichst vielen Sprechern sammeln.

Question 21

Wie soll ich akustische Daten sammeln?

Accepted Answer

Sie können eine eigenständige Datensammlungsanwendung erstellen oder eine handelsübliche Audioaufzeichnungssoftware verwenden. Sie können auch eine Version der Anwendung erstellen, die Audiodaten protokolliert und dann diese Daten verwendet.

Question 22

Muss ich die Anpassungsdaten selbst transkribieren?

Accepted Answer

Ja. Sie können sie selbst transkribieren oder einen professionellen Transkriptionsdienst nutzen. Manche Benutzer bevorzugen professionelle Transkriptionsdienste, während andere Crowdsourcing nutzen oder die Daten selbst transkribieren.

Question 23

Wie lange dauert das Trainieren eines benutzerdefinierten Modells mit Audiodaten?

Accepted Answer

Das Trainieren eines Modells mit Audiodaten ist ein langwieriger Prozess. Je nach Menge der Daten kann das Erstellen eines benutzerdefinierten Modells mehrere Tage dauern. Wenn das Training nicht innerhalb einer Woche abgeschlossen werden kann, bricht der Dienst den Trainingsprozess möglicherweise ab und meldet das Modell als fehlgeschlagen.

Im Allgemeinen verarbeitet der Speech-Dienst ungefähr 10 Stunden an Audiodaten pro Tag in Regionen mit dedizierter Hardware. Das Training mit reinem Text ist schneller und wird normalerweise innerhalb weniger Minuten abgeschlossen.

Verwenden Sie eine der Regionen, in der dedizierte Hardware für das Training verfügbar ist. Der Speech-Dienst verwendet in diesen Regionen bis zu 100 Stunden Audiodaten für das Training.

Question 24

Was ist die Wort-Fehler-Rate (Word Error Rate, WER), und wie wird sie berechnet?

Accepted Answer

Die Wort-Fehler-Rate (WER) ist die Auswertungsmetrik für die Spracherkennung. WER wird berechnet als die Gesamtanzahl von Fehlern (Einfügungen, Löschungen und Ersetzungen), dividiert durch die Gesamtzahl der Wörter in der Referenztranskription. Weitere Informationen finden Sie unter Quantitatives Testen des Modells.

Question 25

Wie kann ich feststellen, ob die Ergebnisse einer Genauigkeitsprüfung gut sind?

Accepted Answer

Die Ergebnisse stellen einen Vergleich zwischen dem Basismodell und dem von Ihnen angepassten Modell dar. Damit sich Anpassungen lohnen, sollten Sie anstreben, das Basismodell zu übertreffen.

Question 26

Wie bestimme ich die Wort-Fehler-Rate (WER) eines Basismodells, damit ich sehen kann, ob es eine Verbesserung gab?

Accepted Answer

Die Offlinetestergebnisse zeigen die Genauigkeit des Basismodells und des benutzerdefinierten Modells sowie die Verbesserung gegenüber dem Basismodell.

Question 27

Wie viele Textdaten muss ich hochladen?

Accepted Answer

Es hängt davon ab, wie stark sich die in der Anwendung verwendeten Vokabeln und Ausdrücke von den Ausgangssprachmodellen unterscheiden. Für alle neuen Wörter ist es hilfreich, so viele Beispiele wie möglich für ihre Verwendung bereitzustellen. Für gängige Ausdrücke, die in Ihrer Anwendung verwendet werden, ist es nützlich, Ausdrücke in die Sprachdaten aufzunehmen und viele Beispiele bereitzustellen, weil dies das System anweist, auch auf diese Begriffe zu achten. Üblicherweise sollte das Sprachdataset mindestens 100 und typischerweise mehrere hundert Äußerungen oder mehr umfassen. Auch wenn bestimmte Arten von Abfragen häufiger als andere erwartet werden, können Sie mehrere Kopien der häufigen Abfragen in das Dataset einfügen.

Question 28

Kann ich einfach eine Liste von Wörtern hochladen?

Accepted Answer

Durch das Hochladen einer Liste von Wörtern werden diese dem Vokabular hinzugefügt, aber das System erlernt dabei nicht, wie die Wörter normalerweise verwendet werden. Durch die Bereitstellung vollständiger oder teilweiser Äußerungen (Sätze oder Ausdrücke, die von Benutzern üblicherweise verwendet werden) kann das Sprachmodell die neuen Wörter und deren Verwendung lernen. Das benutzerdefinierte Sprachmodell eignet sich nicht nur gut dazu, neue Wörter dem System hinzuzufügen, sondern auch, die Wahrscheinlichkeit bekannter Wörter für Ihre Anwendung anzupassen. Vollständige Äußerungen helfen dem System, besser zu lernen.

Freigeben über

Allgemein

Worin besteht der Unterschied zwischen einem Basismodell und einem benutzerdefinierten Modell zur Spracherkennung?

Wo fange ich an, wenn ich ein Basismodell verwenden möchte?

Muss ich immer ein benutzerdefiniertes Sprachmodell erstellen?

Wie erfahre ich, wann die Verarbeitung für mein Dataset oder Modell abgeschlossen ist?

Kann ich mehrere Modelle erstellen?

Ich habe festgestellt, dass ich einen Fehler gemacht habe. Wie breche ich einen laufenden Datenimport oder die laufende Modellerstellung ab?

Mit dem ausführlichen Ausgabeformat erhalte ich mehrere Ergebnisse für jede Phrase. Was sollte ich verwenden?

Warum gibt es mehrere Basismodelle?

Kann ich mein vorhandenes Modell aktualisieren (Modellstapel)?

Wird meine Bereitstellung automatisch aktualisiert, wenn eine neue Version eines Basismodells verfügbar ist?

Kann ich mein Modell herunterladen und lokal ausführen?

Kann ich meine Datasets, Modelle und Bereitstellungen in eine andere Region oder in ein anderes Abonnement kopieren bzw. verschieben?

Werden meine Anforderungen protokolliert?

Werden meine Anforderungen gedrosselt?

Wie werden Zweikanalaudiodaten in Rechnung gestellt?

Erhöhen der Parallelität

Importieren von Daten

Wie groß darf das Dataset maximal sein, und was ist der Grund für dieses Limit?

Kann ich meine Textdateien komprimieren (ZIP), damit ich eine größere Textdatei hochladen kann?

Der Datenbericht besagt, dass fehlerhafte Äußerungen gefunden wurden. Was ist das Problem?

Erstellen eines Akustikmodells

Wie viele Akustikdaten benötige ich?

Welche Daten soll ich sammeln?

Wie soll ich akustische Daten sammeln?

Muss ich die Anpassungsdaten selbst transkribieren?

Wie lange dauert das Trainieren eines benutzerdefinierten Modells mit Audiodaten?

Genauigkeitstests

Was ist die Wort-Fehler-Rate (Word Error Rate, WER), und wie wird sie berechnet?

Wie kann ich feststellen, ob die Ergebnisse einer Genauigkeitsprüfung gut sind?

Wie bestimme ich die Wort-Fehler-Rate (WER) eines Basismodells, damit ich sehen kann, ob es eine Verbesserung gab?

Erstellen eines Sprachmodells

Wie viele Textdaten muss ich hochladen?

Kann ich einfach eine Liste von Wörtern hochladen?

Nächste Schritte

Freigeben über

Häufig gestellte Fragen zur Spracherkennung

Allgemein

Worin besteht der Unterschied zwischen einem Basismodell und einem benutzerdefinierten Modell zur Spracherkennung?

Wo fange ich an, wenn ich ein Basismodell verwenden möchte?

Muss ich immer ein benutzerdefiniertes Sprachmodell erstellen?

Wie erfahre ich, wann die Verarbeitung für mein Dataset oder Modell abgeschlossen ist?

Kann ich mehrere Modelle erstellen?

Ich habe festgestellt, dass ich einen Fehler gemacht habe. Wie breche ich einen laufenden Datenimport oder die laufende Modellerstellung ab?

Mit dem ausführlichen Ausgabeformat erhalte ich mehrere Ergebnisse für jede Phrase. Was sollte ich verwenden?

Warum gibt es mehrere Basismodelle?

Kann ich mein vorhandenes Modell aktualisieren (Modellstapel)?

Wird meine Bereitstellung automatisch aktualisiert, wenn eine neue Version eines Basismodells verfügbar ist?

Kann ich mein Modell herunterladen und lokal ausführen?

Kann ich meine Datasets, Modelle und Bereitstellungen in eine andere Region oder in ein anderes Abonnement kopieren bzw. verschieben?

Werden meine Anforderungen protokolliert?

Werden meine Anforderungen gedrosselt?

Wie werden Zweikanalaudiodaten in Rechnung gestellt?

Erhöhen der Parallelität

Importieren von Daten

Wie groß darf das Dataset maximal sein, und was ist der Grund für dieses Limit?

Kann ich meine Textdateien komprimieren (ZIP), damit ich eine größere Textdatei hochladen kann?

Der Datenbericht besagt, dass fehlerhafte Äußerungen gefunden wurden. Was ist das Problem?

Erstellen eines Akustikmodells

Wie viele Akustikdaten benötige ich?

Welche Daten soll ich sammeln?

Wie soll ich akustische Daten sammeln?

Muss ich die Anpassungsdaten selbst transkribieren?

Wie lange dauert das Trainieren eines benutzerdefinierten Modells mit Audiodaten?

Genauigkeitstests

Was ist die Wort-Fehler-Rate (Word Error Rate, WER), und wie wird sie berechnet?

Wie kann ich feststellen, ob die Ergebnisse einer Genauigkeitsprüfung gut sind?

Wie bestimme ich die Wort-Fehler-Rate (WER) eines Basismodells, damit ich sehen kann, ob es eine Verbesserung gab?

Erstellen eines Sprachmodells

Wie viele Textdaten muss ich hochladen?

Kann ich einfach eine Liste von Wörtern hochladen?

Nächste Schritte

Feedback

Zusätzliche Ressourcen