Spracherkennung-REST-API

Artikel
11/23/2024

Die Rest-API für Text wird für die Batchtranskription und benutzerdefinierte Spracherkennung verwendet.

Wichtig

Version 2024-11-15 der Spracherkennungs-REST-API ist die aktuelle Version, die allgemein verfügbar ist.

Version 2024-05-15-preview der Spracherkennungs-REST-API wird zu einem Datum eingestellt, das noch bekannt gegeben wird.
Spracherkennungs-REST-API v3.0, v3.1, v3.2, 3.2-preview.1 und 3.2-preview.2 werden am 1. April 2026 eingestellt.

Weitere Informationen zum Upgraden finden Sie in den Migrationsleitfäden v3.0 zu v3.1, v3.1 zu v3.2 und v3.2 to 2024-11-15 der Spracherkennung-REST-API.

Weitere Informationen finden Sie in der Referenzdokumentation zur Sprachausgabe zur REST-API 2024-11-15

Verwenden Sie die Spracherkennung-REST-API für Folgendes:

Schnelle Transkription: Transkription von Audiodateien mit synchronen und viel schnelleren Ergebnissen als Echtzeitaudio. Verwenden Sie die schnelle Transkriptions-API (/speechtotext/transcriptions:transcribe) in den Szenarien, in denen Sie die Transkription einer Audioaufzeichnung so schnell wie möglich mit vorhersagbarer Latenz benötigen, z. B. schnelle Audio- oder Videotranskription oder Videoübersetzung.
Benutzerdefinierte Spracherkennung: Laden Sie eigene Daten hoch, testen und trainieren Sie ein benutzerdefiniertes Modell, vergleichen Sie die Genauigkeit zwischen Modellen, und stellen Sie ein Modell auf einem benutzerdefinierten Endpunkt bereit. Kopieren von Modellen in andere Abonnements, wenn Sie möchten, dass Kollegen Zugriff auf ein von Ihnen erstelltes Modell haben oder wenn Sie ein Modell in mehreren Regionen bereitstellen möchten.
Batch-Transkription: Transkribieren Sie Audiodateien als Batch aus mehreren URLs oder aus einem Azure-Container.

Die Spracherkennung-REST-API umfasst Features wie:

Abrufen von Protokollen für jeden Endpunkt, wenn Protokolle für diesen Endpunkt angefordert werden.
Anfordern des Manifests für die von Ihnen erstellten Modelle, um lokale Container einzurichten.
Hochladen von Daten aus Azure-Speicherkonten mithilfe eines SAS-URI (Shared Access Signature).
Verwenden von eigenem Speicher (Bring Your Own Storage, BYOS): Verwenden Sie Ihre eigenen Speicherkonten für Protokolle, Transkriptionsdateien und andere Daten.
Einige Vorgänge unterstützen Webhook-Benachrichtigungen. Sie können Ihre Webhooks dort registrieren, wo Benachrichtigungen gesendet werden.

Batch-Transkription

Die folgenden Vorgangsgruppen gelten für die Batchtranskription.

Vorgangsgruppe	Beschreibung
Modelle	Verwenden Sie Basismodelle oder benutzerdefinierte Modelle, um Audiodateien zu transkribieren. Sie können Modelle mit benutzerdefinierter Sprach- und Batchtranskription verwenden. So können Sie beispielsweise Audiodateien unter Verwendung eines Modells transkribieren, das mit einem bestimmten Dataset trainiert wurde. Beispiele zum Trainieren und Verwalten von benutzerdefinierten Sprachmodellen finden Sie unter "Trainieren eines Modells und eines benutzerdefinierten Sprachmodells ".
Abschriften	Verwenden Sie Transkriptionen, um eine große Menge an Audio im Speicher zu transkribieren. Wenn Sie die Batchtranskription verwenden, senden Sie mehrere Dateien pro Anforderung oder verweisen auf einen Azure Blob Storage-Container mit den Audiodateien, die transkribiert werden sollen. Beispiele für das Erstellen einer Transkription aus mehreren Audiodateien finden Sie unter Erstellen einer Batch-Transkription.
Webhooks	Verwenden Sie Web-Hooks, um Benachrichtigungen zu Erstellungs-, Verarbeitungs-, Abschluss- und Löschereignissen zu erhalten. Sie können Web-Hooks mit benutzerdefinierter Sprach - und Batchtranskription verwenden. Web-Hooks gelten für Datasets, Endpunkte, Auswertungen, Modelle und Transkriptionen.

Custom Speech

Die folgenden Vorgangsgruppen gelten für benutzerdefinierte Spracherkennung.

Vorgangsgruppe	Beschreibung
Datasets	Verwenden Sie Datasets, um benutzerdefinierte Sprachmodelle zu trainieren und zu testen. Sie können beispielsweise die Leistung einer benutzerdefinierten Spracherkennung , die mit einem bestimmten Dataset trainiert wurde, mit der Leistung eines Basismodells oder eines benutzerdefinierten Sprachmodells vergleichen, das mit einem anderen Dataset trainiert wurde. Beispiele zum Hochladen von Datasets finden Sie unter Hochladen von Trainings- und Testdatasets für Custom Speech.
Endpunkte	Stellen Sie benutzerdefinierte Sprachmodelle für Endpunkte bereit. Sie müssen einen benutzerdefinierten Endpunkt bereitstellen, um ein benutzerdefiniertes Sprachmodell zu verwenden. Beispiele für die Verwaltung von Bereitstellungsendpunkten finden Sie unter Bereitstellen eines Custom Speech-Modells.
Bewertungen	Verwenden Sie Auswertungen, um die Leistung verschiedener Modelle zu vergleichen. Sie können beispielsweise die Leistung eines benutzerdefinierten Sprachmodells vergleichen, das mit einem bestimmten Dataset trainiert wurde, mit der Leistung eines Basismodells oder eines benutzerdefinierten Modells, das mit einem anderen Dataset trainiert wurde. Beispiele zum Testen und Auswerten von benutzerdefinierten Sprachmodellen finden Sie unter Testerkennungsqualität und Testgenauigkeit .
Modelle	Verwenden Sie Basismodelle oder benutzerdefinierte Modelle, um Audiodateien zu transkribieren. Sie können Modelle mit benutzerdefinierter Sprach- und Batchtranskription verwenden. So können Sie beispielsweise Audiodateien unter Verwendung eines Modells transkribieren, das mit einem bestimmten Dataset trainiert wurde. Beispiele zum Trainieren und Verwalten von benutzerdefinierten Sprachmodellen finden Sie unter "Trainieren eines Modells und eines benutzerdefinierten Sprachmodells ".
Projekte	Verwenden Sie Projekte zum Verwalten von benutzerdefinierten Sprachmodellen, Schulungs- und Testdatensätzen und Bereitstellungsendpunkten. Benutzerdefinierte Sprachprojekte enthalten Modelle, Schulungs- und Testdatensätze und Bereitstellungsendpunkte. Jedes Projekt ist für ein Gebietsschema spezifisch. Sie können beispielsweise ein Projekt für das Englisch in den USA erstellen. Beispiele für das Erstellen von Projekten finden Sie unter Erstellen eines Custom Speech-Projekts.
Webhooks	Verwenden Sie Web-Hooks, um Benachrichtigungen zu Erstellungs-, Verarbeitungs-, Abschluss- und Löschereignissen zu erhalten. Sie können Web-Hooks mit benutzerdefinierter Sprach - und Batchtranskription verwenden. Web-Hooks gelten für Datasets, Endpunkte, Auswertungen, Modelle und Transkriptionen.

Dienststatus

Dienststatus bietet Einblicke in die allgemeine Integrität des Diensts und der Unterkomponenten. Weitere Informationen finden Sie unter Dienststatus .

Freigeben über

Spracherkennung-REST-API

Batch-Transkription

Custom Speech

Dienststatus

Nächste Schritte

Feedback

Zusätzliche Ressourcen