Verwenden der Sprachenerkennung
Das Feature für die Sprachenerkennung kann Text auswerten und einen Sprachbezeichner zurückgeben, der die Sprache angibt, in der ein Dokument geschrieben wurde.
Die Sprachenerkennung ist für Inhaltsspeicher nützlich, die beliebigen Text erfassen, dessen Sprache unbekannt ist. Sie können die Analyseergebnisse analysieren, um die Sprache des Eingabedokuments zu bestimmen. Die Antwort gibt außerdem eine Bewertung zwischen 0 und 1 zurück, um die Konfidenz des Modells anzugeben.
Mit dem Feature für die Sprachenerkennung können eine Vielzahl von Sprachen, Varianten und Dialekten sowie einige Regional- und Kultursprachen erkannt werden.
Entwicklungsoptionen
Zur Verwendung der Spracherkennung übermitteln Sie unformatierten, unstrukturierten Text zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne zusätzliche Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird. Es gibt zwei Möglichkeiten, die Spracherkennung zu nutzen:
Entwicklungsoption | BESCHREIBUNG |
---|---|
Language Studio | Language Studio ist eine webbasierte Plattform, mit der Sie ohne Azure-Konto und mit Ihren eigenen Daten die Verknüpfung von Entitäten mit Textbeispielen ausprobieren können, wenn Sie sich registrieren. Weitere Informationen finden Sie auf der Language Studio-Website oder im Language Studio-Schnellstart. |
REST-API oder Clientbibliothek (Azure SDK) | Integrieren Sie die Spracherkennung mithilfe der REST-API oder der Clientbibliothek, die in einer Vielzahl von Sprachen verfügbar ist, in Ihre Anwendungen. Weitere Informationen finden Sie im Schnellstart zur Spracherkennung. |
Docker-Container | Verwenden Sie den verfügbaren Docker-Container, um dieses Feature lokal bereitzustellen. Mithilfe dieser Docker-Container können Sie den Dienst näher an Ihre Daten heranbringen, um Compliance- oder Sicherheitsanforderungen zu erfüllen oder anderen betrieblichen Anforderungen gerecht zu werden. |
Festlegen der Art der Datenverarbeitung (optional)
Angeben des Sprachenerkennungsmodells
Standardmäßig verwendet die Sprachenerkennung das neueste verfügbare KI-Modell für Ihren Text. Sie können Ihre API-Anforderungen auch für die Verwendung einer bestimmten Modellversion konfigurieren.
Eingabesprachen
Wenn Sie auszuwertende Dokumente übermitteln, versucht die Sprachenerkennung, festzustellen, ob der Text in einer der unterstützten Sprachen geschrieben wurde.
Bei Inhalten in einer seltener verwendeten Sprache können Sie das Feature für die Sprachenerkennung ausprobieren, um zu sehen, ob es einen Code zurückgibt. Die Antwort bei Sprachen, die nicht erkannt werden können, lautet unknown
.
Übermitteln der Daten
Tipp
Sie können einen Docker-Container für die Sprachenerkennung verwenden, sodass Sie die API lokal verwenden können.
Die Analyse erfolgt, wenn die Anforderung eingeht. Die synchrone Verwendung des Spracherkennungsfeatures ist zustandslos. Auf Ihrem Konto werden keine Daten gespeichert, und die Ergebnisse werden sofort in der Antwort zurückgegeben.
Wenn Sie dieses Feature asynchron verwenden, sind die API-Ergebnisse ab der Erfassung der Anforderung wie in der Antwort angegeben 24 Stunden lang verfügbar. Nach diesem Zeitraum werden die Ergebnisse endgültig gelöscht und stehen nicht mehr zum Abruf zur Verfügung.
Abrufen von Sprachenerkennungsergebnissen
Wenn Sie Ergebnisse von der Sprachenerkennung erhalten, können Sie die Ergebnisse an eine Anwendung streamen oder die Ausgabe in einer Datei im lokalen System speichern.
Die Sprachenerkennung gibt für jedes übermittelte Dokument eine vorherrschende Sprache sowie den ISO 639-1-Namen, einen Anzeigenamen und eine Konfidenzbewertung zurück. Eine positive Bewertung von 1 stellt das höchstmögliche Konfidenzniveau der Analyse dar.
Mehrdeutige Inhalte
In einigen Fällen ist es unter Umständen schwierig, die Sprachen basierend auf den Eingaben eindeutig zu bestimmen. Mithilfe des Parameters countryHint
können Sie einen Länder-/Regionscode gemäß ISO 3166-1 alpha-2 angeben. Standardmäßig verwendet die API „US“ als Standardangabe für Land/Region. Wenn dieses Verhalten nicht erwünscht ist, können Sie diesen Parameter zurücksetzen, indem Sie diesen Wert auf eine leere Zeichenfolge, countryHint = ""
, festlegen.
„Communication“ ist beispielsweise sowohl im Englischen als auch im Französischen gebräuchlich, und bei unzureichendem Kontext basiert die Antwort auf dem Länder-/Regionshinweis „US“. Sollte bekannt sein, dass der Text aus Frankreich stammt, kann ein entsprechender Hinweis angegeben werden.
Input (Eingabe)
{
"documents": [
{
"id": "1",
"text": "communication"
},
{
"id": "2",
"text": "communication",
"countryHint": "fr"
}
]
}
Das Sprachenerkennungsmodell verfügt jetzt über zusätzlichen Kontext, um eine bessere Beurteilung zu ermöglichen:
Ausgabe
{
"documents":[
{
"detectedLanguage":{
"confidenceScore":0.62,
"iso6391Name":"en",
"name":"English"
},
"id":"1",
"warnings":[
]
},
{
"detectedLanguage":{
"confidenceScore":1.0,
"iso6391Name":"fr",
"name":"French"
},
"id":"2",
"warnings":[
]
}
],
"errors":[
],
"modelVersion":"2022-10-01"
}
Wenn das Analysetool die Eingabe nicht analysieren kann, wird (Unknown)
zurückgegeben. Ein Beispiel dafür ist die Übermittlung einer Textzeichenfolge, die ausschließlich aus Zahlen besteht.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "(Unknown)",
"iso6391Name": "(Unknown)",
"confidenceScore": 0.0
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Inhalt in verschiedenen Sprachen
Wenn in einem Dokument Inhalte in verschiedenen Sprachen enthalten sind, wird die Sprache zurückgegeben, die in den Inhalten überwiegt – allerdings mit einer niedrigeren positiven Bewertung. Die Bewertung spiegelt die marginale Stärke dieser Bewertung wider. Im folgenden Beispiel enthält die Eingabe eine Mischung aus Englisch, Spanisch und Französisch. Das Analysetool zählt die Zeichen der einzelnen Segmente, um die vorherrschende Sprache zu bestimmen.
Input (Eingabe)
{
"documents": [
{
"id": "1",
"text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
}
]
}
Ausgabe
Die resultierende Ausgabe enthält die vorherrschende Sprache mit einer Punktzahl von weniger als 1,0, wodurch eine niedrigere Zuverlässigkeit angegeben wird.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "Spanish",
"iso6391Name": "es",
"confidenceScore": 0.88
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Dienst- und Dateneinschränkungen
Informationen zur Größe und Anzahl der Anforderungen, die Sie pro Minute und pro Sekunde senden können, finden Sie im Artikel Diensteinschränkungen.
Siehe auch
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für