Sprache erkennen

3 Minuten

Tipp

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

Die Azure-Spracherkennungs-API wertet Texteingaben aus und gibt für jedes übermittelte Dokument Sprach-IDs mit einer Bewertung zurück, die die Stärke der Analyse angibt.

Diese Funktion ist nützlich für Inhaltsspeicher, die beliebigen Text sammeln, wobei die Sprache unbekannt ist. Ein weiteres Szenario könnte eine Chatanwendung umfassen. Wenn ein Benutzer eine Sitzung mit der Anwendung startet, kann die Spracherkennung verwendet werden, um zu bestimmen, welche Sprache sie verwendet, und Sie können die Antworten Ihrer Anwendung in der entsprechenden Sprache konfigurieren.

Sie können die Ergebnisse dieser Analyse analysieren, um zu bestimmen, welche Sprache im Eingabedokument verwendet wird. Die Antwort gibt auch eine Bewertung zurück, die das Vertrauen des Modells (einen Wert zwischen 0 und 1) widerspiegelt.

Die Spracherkennung kann mit Dokumenten oder einzelnen Ausdrücken verwendet werden. Es ist wichtig zu beachten, dass die Dokumentgröße unter 5.120 Zeichen liegt. Die Größenbeschränkung beträgt pro Dokument, und jede Auflistung ist auf 1.000 Elemente (IDs) beschränkt. Ein Beispiel für eine ordnungsgemäß formatierte JSON-Nutzlast, die Sie möglicherweise an den Dienst im Anforderungstext übermitteln können, wird hier gezeigt, einschließlich einer Sammlung von Dokumenten, die jeweils eine eindeutige ID und den zu analysierenden Text enthalten.

Der folgende Python-Code analysiert beispielsweise zwei (kurze) Dokumente, um die Sprache zu erkennen, in der sie geschrieben werden.

# Assumes code to create TextAnalyticsClient is above...

# Example text to analyze
documents = ["Hello World!", "Bonjour le monde!"]

# Detect language
response = client.detect_language(documents=documents)
for doc in response:
    print(f"Document: {doc.id}")
    print(f"\tPrimary Language: {doc.primary_language.name}")
    print(f"\tISO6391 Name: {doc.primary_language.iso6391_name}")
    print(f"\tConfidence Score: {doc.primary_language.confidence_score}")

Die Antwort enthält ein Ergebnis für jedes Dokument in der Anforderung, einschließlich der vorhergesagten Sprache und eines Werts, der das Konfidenzniveau der Vorhersage angibt. Das Konfidenzniveau ist ein Wert zwischen 0 und 1 mit Werten, die näher an 1 liegen, ein höheres Konfidenzniveau. Hier ist ein Beispiel für eine Antwort aus dem vorherigen Code.

Document: 0
        Primary Language: English
        ISO6391 Name: en
        Confidence Score: 0.9
Document: 1
        Primary Language: French
        ISO6391 Name: fr
        Confidence Score: 0.98

In unserem Beispiel zeigen beide Sprachen einen hohen Konfidenzwert, hauptsächlich weil der Text relativ einfach und leicht zu identifizieren ist.

Wenn Sie versuchen, die Sprache eines Dokuments mit mehrsprachigem Inhalt zu erkennen, zum Beispiel I know a cool AI developer. He has a certain je ne sais quoi!, kann die Antwort möglicherweise ein gewisses Maß an Mehrdeutigkeit widerspiegeln. Gemischte Sprachinhalte innerhalb desselben Dokuments geben die Sprache mit der größten Darstellung des Inhalts zurück, aber mit einer niedrigeren positiven Bewertung, die die marginale Stärke dieser Bewertung widerspiegelt.

Die letzte zu berücksichtigende Bedingung ist, wenn es Mehrdeutigkeit hinsichtlich des Sprachinhalts gibt. Das Szenario kann auftreten, wenn Sie Textinhalte übermitteln, die der Analyzer nicht analysieren kann, z. B. aufgrund von Zeichencodierungsproblemen beim Konvertieren des Texts in eine Zeichenfolgenvariable. Daher wird die Antwort für den Sprachnamen und den ISO-Code als (unknown) zurückgegeben, und der Bewertungswert wird als 0 zurückgegeben.

Feedback

War diese Seite hilfreich?