Verwenden der Sprachenerkennung

Artikel
10/16/2024

Das Feature für die Sprachenerkennung kann Text auswerten und einen Sprachbezeichner zurückgeben, der die Sprache angibt, in der ein Dokument geschrieben wurde.

Die Sprachenerkennung ist für Inhaltsspeicher nützlich, die beliebigen Text erfassen, dessen Sprache unbekannt ist. Sie können die Analyseergebnisse analysieren, um die Sprache des Eingabedokuments zu bestimmen. Die Antwort gibt außerdem eine Bewertung zwischen 0 und 1 zurück, um die Konfidenz des Modells anzugeben.

Mit dem Feature für die Sprachenerkennung können eine Vielzahl von Sprachen, Varianten und Dialekten sowie einige Regional- und Kultursprachen erkannt werden.

Entwicklungsoptionen

Zur Verwendung der Spracherkennung übermitteln Sie unformatierten, unstrukturierten Text zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne zusätzliche Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird. Es gibt drei Möglichkeiten, die Sprachenerkennung zu nutzen:

Entwicklungsoption	BESCHREIBUNG
Language Studio	Language Studio ist eine webbasierte Plattform, mit der Sie ohne Azure-Konto und mit Ihren eigenen Daten die Verknüpfung von Entitäten mit Textbeispielen ausprobieren können, wenn Sie sich registrieren. Weitere Informationen finden Sie auf der Language Studio-Website oder im Language Studio-Schnellstart.
REST-API oder Clientbibliothek (Azure SDK)	Integrieren Sie die Spracherkennung mithilfe der REST-API oder der Clientbibliothek, die in einer Vielzahl von Sprachen verfügbar ist, in Ihre Anwendungen. Weitere Informationen finden Sie im Schnellstart zur Spracherkennung.
Docker-Container	Verwenden Sie den verfügbaren Docker-Container, um dieses Feature lokal bereitzustellen. Mithilfe dieser Docker-Container können Sie den Dienst näher an Ihre Daten heranbringen, um Compliance- oder Sicherheitsanforderungen zu erfüllen oder anderen betrieblichen Anforderungen gerecht zu werden.

Festlegen der Art der Datenverarbeitung (optional)

Angeben des Sprachenerkennungsmodells

Standardmäßig verwendet die Sprachenerkennung das neueste verfügbare KI-Modell für Ihren Text. Sie können Ihre API-Anforderungen auch für die Verwendung einer bestimmten Modellversion konfigurieren.

Eingabesprachen

Wenn Sie auszuwertende Dokumente übermitteln, versucht die Sprachenerkennung, festzustellen, ob der Text in einer der unterstützten Sprachen geschrieben wurde.

Bei Inhalten in einer seltener verwendeten Sprache können Sie das Feature für die Sprachenerkennung ausprobieren, um zu sehen, ob es einen Code zurückgibt. Die Antwort bei Sprachen, die nicht erkannt werden können, lautet unknown.

Übermitteln der Daten

Tipp

Sie können einen Docker-Container für die Sprachenerkennung verwenden, sodass Sie die API lokal verwenden können.

Die Analyse erfolgt, wenn die Anforderung eingeht. Die synchrone Verwendung des Spracherkennungsfeatures ist zustandslos. Auf Ihrem Konto werden keine Daten gespeichert, und die Ergebnisse werden sofort in der Antwort zurückgegeben.

Wenn Sie dieses Feature asynchron verwenden, sind die API-Ergebnisse ab der Erfassung der Anforderung wie in der Antwort angegeben 24 Stunden lang verfügbar. Nach diesem Zeitraum werden die Ergebnisse endgültig gelöscht und stehen nicht mehr zum Abruf zur Verfügung.

Abrufen von Sprachenerkennungsergebnissen

Wenn Sie Ergebnisse von der Sprachenerkennung erhalten, können Sie die Ergebnisse an eine Anwendung streamen oder die Ausgabe in einer Datei im lokalen System speichern.

Die Spracherkennung gibt eine prädominante Sprache für jedes Dokument zurück, das Sie übermitteln (zusammen mit dem ISO 639-1-Namen, einem lesbaren Namen, einer Konfidenzbewertung, dem Schriftsystemnamen und dem Schriftsystemcode gemäß ISO 15924-Standard). Eine positive Bewertung von 1 stellt das höchstmögliche Konfidenzniveau der Analyse dar.

Mehrdeutige Inhalte

In einigen Fällen ist es unter Umständen schwierig, die Sprachen basierend auf den Eingaben eindeutig zu bestimmen. Mithilfe des Parameters countryHint können Sie einen Länder-/Regionscode gemäß ISO 3166-1 alpha-2 angeben. Standardmäßig verwendet die API „US“ als Standardangabe für Land/Region. Wenn dieses Verhalten nicht erwünscht ist, können Sie diesen Parameter zurücksetzen, indem Sie diesen Wert auf eine leere Zeichenfolge, countryHint = "", festlegen.

„Communication“ ist beispielsweise sowohl im Englischen als auch im Französischen gebräuchlich, und bei unzureichendem Kontext basiert die Antwort auf dem Länder-/Regionshinweis „US“. Sollte bekannt sein, dass der Text aus Frankreich stammt, kann ein entsprechender Hinweis angegeben werden.

Hinweis

Mehrdeutige Inhalte können dazu führen, dass Konfidenzbewertungen niedriger sind. Die countryHint-Eigenschaft in der Antwort ist nur zulässig, wenn die Konfidenzbewertung unter 0,8 liegt.

Eingabe

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

Mit dem zweiten Dokument verfügt das Spracherkennungsmodell über zusätzlichen Kontext, um ein besseres Urteil fällen zu können, da es die countryHint-Eigenschaft in der obigen Eingabe enthält. Dadurch wird die folgende Ausgabe zurückgegeben.

Output

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Wenn das Analysetool die Eingabe nicht analysieren kann, wird (Unknown) zurückgegeben. Ein Beispiel dafür ist die Übermittlung einer Textzeichenfolge, die ausschließlich aus Zahlen besteht.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2023-12-01"
}

Inhalt in verschiedenen Sprachen

Wenn in einem Dokument Inhalte in verschiedenen Sprachen enthalten sind, wird die Sprache zurückgegeben, die in den Inhalten überwiegt – allerdings mit einer niedrigeren positiven Bewertung. Die Bewertung spiegelt die marginale Stärke dieser Bewertung wider. Im folgenden Beispiel enthält die Eingabe eine Mischung aus Englisch, Spanisch und Französisch. Das Analysetool zählt die Zeichen der einzelnen Segmente, um die vorherrschende Sprache zu bestimmen.

Input (Eingabe)

{
    "documents": [
        {
            "id": "1",
            "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
        }
    ]
}

Ausgabe

Die resultierende Ausgabe enthält die vorherrschende Sprache mit einer Punktzahl von weniger als 1,0, wodurch eine niedrigere Zuverlässigkeit angegeben wird.

{
    "kind": "LanguageDetectionResults",
    "results": {
        "documents": [
            {
                "id": "1",
                "detectedLanguage": {
                    "name": "Spanish",
                    "iso6391Name": "es",
                    "confidenceScore": 0.97,
                    "script": "Latin",
                    "scriptCode": "Latn"
                },
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2023-12-01"
    }
}

Schriftsystemname und Schriftsystemcode

Hinweis

Die Schriftsystemerkennung ist derzeit auf ausgewählte Sprachen beschränkt.
Die Schriftsystemerkennung ist nur für Texteingaben verfügbar, die länger als zwölf Zeichen sind.

Die Spracherkennung bietet die Möglichkeit, mehr als ein Schriftsystem pro Sprache gemäß dem ISO 15924-Standard zu erkennen. Insbesondere gibt die Spracherkennung zwei schriftsystembezogene Eigenschaften zurück:

script: lesbarer Name des identifizierten Schriftsystems
scriptCode: ISO 15924-Code für das identifizierte Schriftsystem

Die Ausgabe der API enthält den Wert der scriptCode-Eigenschaft für Dokumente, die mindestens zwölf Zeichen lang sind, und entspricht der Liste der unterstützten Sprachen und Schriftsysteme. Die Schriftsystemerkennung soll Benutzern helfen, deren Sprache in mehr als einem Schriftsystem transkribiert oder geschrieben werden kann (z. B. Kasachisch oder Hindi).

Zuvor wurde die Spracherkennung entwickelt, um die Sprache von Dokumenten in einer Vielzahl von Sprachen, Dialekten und regionalen Varianten zu erkennen, was jedoch durch die „Romanisierung“ beschränkt wurde. Die Romanisierung bezieht sich auf die Umwandlung von Text von einem Schreibsystem in das römische (lateinische) Schriftsystem und ist erforderlich, um viele indoeuropäische Sprachen zu erkennen. Es gibt jedoch andere Sprachen, die in mehreren Schriftsystemen geschrieben sind (z. B. Kasachisch, das in den Schriftsystemen Kyrillisch, Arabisch und Latein geschrieben werden kann). Es gibt auch andere Fälle, in denen Benutzer aufgrund der eingeschränkten Verfügbarkeit von Tastaturen, die das Devanagari-Schriftsystem unterstützen, ihre Sprache in mehr als ein Schriftsystem transkribieren möchten oder müssen (z. B. Hindi transkribiert in das lateinische Schriftsystem).

Folglich verhält sich die erweiterte Unterstützung der Spracherkennung für die Schriftsystemerkennung wie folgt:

Input (Eingabe)

{ 
    "kind": "LanguageDetection", 
    "parameters": { 
        "modelVersion": "latest" 
    }, 
    "analysisInput": { 
        "documents": [ 
            { 
                "id": "1", 
                "text": "आप कहाँ जा रहे हैं?" 
            }, 
            { 
                "id": "2", 
                "text": "Туған жерім менің - Қазақстаным" 
            } 
        ] 
    } 
}

Ausgabe

Die resultierende Ausgabe besteht aus der prädominanten Sprache zusammen mit dem Schriftsystemnamen, Schriftsystemcode und einer Konfidenzbewertung.

{ 
    "kind": "LanguageDetectionResults", 
    "results": { 
        "documents": [ 
            { 
                "id": "1", 
                "detectedLanguage": { 
                    "name": "Hindi", 
                    "iso6391Name": "hi", 
                    "confidenceScore": 1.0, 
                    "script": "Devanagari", 
                    "scriptCode": "Deva" 
                }, 
                "warnings": [] 
            }, 
            { 
                "id": "2", 
                "detectedLanguage": { 
                    "name": "Kazakh", 
                    "iso6391Name": "kk", 
                    "confidenceScore": 1.0, 
                    "script": "Cyrillic",  
                    "scriptCode": "Cyrl" 
                }, 
                "warnings": [] 
            } 
        ], 
        "errors": [], 
        "modelVersion": "2023-12-01" 
    } 
}

Grenzwerte für Dienste und Daten

Informationen zur Größe und Anzahl der Anforderungen, die Sie pro Minute und pro Sekunde senden können, finden Sie im Artikel Diensteinschränkungen.

Siehe auch

Überblick über Sprachenerkennung

Teilen über