Sprach- und Regionsunterstützung für LUIS

Artikel
01/19/2024

Wichtig

LUIS wird am 1. Oktober 2025 eingestellt, und ab dem 1. April 2023 können Sie keine neuen LUIS-Ressourcen erstellen. Es wird die Migration Ihrer LUIS-Anwendungen zu Conversational Language Understanding empfohlen, um fortgesetzte Produktunterstützung und mehrsprachige Funktionen zu erhalten.

LUIS bietet eine Reihe von Features innerhalb des Diensts. Nicht alle Funktionen besitzen die gleiche Sprachparität. Stellen Sie sicher, dass die Features, an denen Sie interessiert sind, in Ihrer gewünschten Sprache und Kultur unterstützt werden. Eine LUIS-App ist kulturspezifisch, und die Kultur kann nach dem Festlegen nicht mehr geändert werden.

Mehrsprachige LUIS-Apps

Wenn Sie eine mehrsprachige LUIS-Clientanwendung benötigen, z. B. einen Chatbot, haben Sie ein paar Optionen. Wenn LUIS alle Sprachen unterstützt, entwickeln Sie eine LUIS-App für jede Sprache. Jede LUIS-App weist eine eindeutige App-ID und ein eindeutiges Endpunktprotokoll auf. Wenn Sie Sprachverständnis für eine von LUIS nicht unterstützte Sprache bereitstellen möchten, können Sie mithilfe des Translator-Diensts die Äußerung in eine unterstützte Sprache übersetzen, die Äußerung an den LUIS-Endpunkt senden und die resultierenden Bewertungen empfangen.

Hinweis

Eine neuere Version der Language Understanding-Funktionen ist jetzt als Teil von Azure KI Language verfügbar. Weitere Informationen finden Sie in der Dokumentation zu Azure KI Language. Informationen zu Sprachverständnisfunktionen, die mehrere Sprachen innerhalb des Sprachdiensts unterstützen, finden Sie unter Conversational Language Understanding.

Unterstützte Sprachen

LUIS versteht Äußerungen in den folgenden Sprachen:

Sprache	Gebietsschema	Vordefinierte Domäne	Vordefinierte Entität	Ausdrucklistenempfehlungen	**Stimmungsanalyse und Schlüsselbegriffserkennung
Arabisch (Vorschau, modernes Hocharabisch)	`ar-AR`	-	-	-	-
*Chinesisch	`zh-CN`	✔	✔	✔	-
Niederländisch	`nl-NL`	✔	-	-	✔
Englisch (USA)	`en-US`	✔	✔	✔	✔
English (UK)	`en-GB`	✔	✔	✔	✔
Französisch (Kanada)	`fr-CA`	-	-	-	✔
Französisch (Frankreich)	`fr-FR`	✔	✔	✔	✔
Deutsch	`de-DE`	✔	✔	✔	✔
Gujarati (Vorschau)	`gu-IN`	-	-	-	-
Hindi (Vorschau)	`hi-IN`	-	✔	-	-
Italienisch	`it-IT`	✔	✔	✔	✔
*Japanisch	`ja-JP`	✔	✔	✔	Nur Schlüsselausdruck
Koreanisch	`ko-KR`	✔	-	-	Nur Schlüsselausdruck
Marathi (Vorschau)	`mr-IN`	-	-	-	-
Portugiesisch (Brasilien)	`pt-BR`	✔	✔	✔	Nicht alle Unterkulturen
Spanisch (Mexiko)	`es-MX`	-	✔	✔	✔
Spanisch (Spanien)	`es-ES`	✔	✔	✔	✔
Tamil (Vorschau)	`ta-IN`	-	-	-	-
Telugu (Vorschau)	`te-IN`	-	-	-	-
Türkisch	`tr-TR`	✔	✔	-	Nur Stimmung

Die Sprachunterstützung variiert für vordefinierte Entitäten und vordefinierte Domänen.

* Hinweise zur Unterstützung von Chinesisch

In der Kultur zh-CN erwartet LUIS den vereinfachten chinesischen Zeichensatz anstelle des traditionellen.
Die Namen der Absichten, Entitäten, Features und regulären Ausdrücke können in chinesischen oder lateinischen Zeichen vorliegen.
Informationen zu den in der Kultur zh-CN unterstützten vordefinierten Domänen finden Sie in der Referenz zu vordefinierten Domänen.

\* Hinweise zur Unterstützung von Japanisch

Da LUIS keine syntaktische Analyse bietet und den Unterschied zwischen Keigo und informellem Japanisch nicht versteht, müssen Sie die unterschiedlichen Formalitätsstufen als Trainingsbeispiele für Ihre Anwendungen integrieren.
- でございます ist nicht dasselbe wie です.
- です ist nicht dasselbe wie だ.

**Hinweise zur Sprachdienstunterstützung

Der Sprachdienst beinhaltet eine vorgefertigte keyPhrase-Entität und Standpunktanalyse. Für die Subkulturen pt-PT und pt-BR wird nur Portugiesisch unterstützt. Alle anderen Kulturen werden auf primärer Kulturebene unterstützt.

Unterstützte Sprachen der Speech-API

Informationen zu den Sprachen für den Spracherkennungsmodus von Speech finden Sie unter Unterstützte Sprachen für Speech.

Unterstützte Sprachen der Bing-Rechtschreibprüfung

Eine Liste und den Status der unterstützten Sprachen finden Sie unter Liste und Status der unterstützten Sprachen für die Bing-Rechtschreibprüfung.

Seltene oder fremdsprachliche Wörter in einer Anwendung

In der Kultur en-us lernt LUIS, die meisten englischen Wörter zu unterscheiden, einschließlich umgangssprachlicher. In der Kultur zh-cn lernt LUIS, die meisten chinesische Zeichen zu unterscheiden. Wenn Sie ein seltenes Wort in en-us bzw. ein seltenes Zeichen in zh-cn verwenden und sehen, dass LUIS das betreffende Wort bzw. Zeichen offenbar nicht unterscheiden kann, können Sie das Wort oder Zeichen einem Ausdruckslistenfeature hinzufügen. Beispielsweise sollten Wörter außerhalb der Kultur der Anwendung, also fremdsprachliche Wörter, einem Ausdruckslistenfeature hinzugefügt werden.

Hybridsprachen

Hybridsprachen kombinieren Wörter aus zwei Kulturen, z.B. Englisch und Chinesisch. Diese Sprachen werden in LUIS nicht unterstützt, da eine App auf einer einzelnen Kultur basiert.

Tokenisierung

Zum Ausführen von maschinellem Lernen unterteilt LUIS eine Äußerung basierend auf der Kultur in Token.

Sprache	Jedes Leerzeichen oder Sonderzeichen	Zeichenebene	Zusammengesetzte Wörter
Arabisch	✔
Chinesisch		✔
Niederländisch	✔		✔
Englisch (en-us)	✔
Englisch (en-GB)	✔
Französisch (fr-FR)	✔
Französisch (fr-CA)	✔
Deutsch	✔		✔
Gujarati	✔
Hindi	✔
Italienisch	✔
Japanisch			✔
Koreanisch		✔
Marathi	✔
Portugiesisch (Brasilien)	✔
Spanisch (es-ES)	✔
Spanisch (es-MX)	✔
Tamilisch	✔
Telugu	✔
Türkisch	✔

Benutzerdefinierte Tokenizer-Versionen

Die folgenden Kulturen weisen benutzerdefinierte Tokenizer-Versionen auf:

Kultur	Version	Zweck
Deutsch `de-de`	1.0.0	Wendet die Tokenisierung auf Wörter an, indem sie mithilfe eines auf maschinellem Lernen basierenden Tokenizer getrennt werden, der versucht, zusammengesetzte Wörter in ihre einzelnen Komponenten zu zerlegen. Wenn ein Benutzer `Ich fahre einen krankenwagen` als Äußerung eingibt, wird sie in `Ich fahre einen kranken wagen` geändert. Ermöglicht das unabhängige Markieren von `kranken` und `wagen` als unterschiedliche Entitäten.
Deutsch `de-de`	1.0.2	Wendet die Tokenisierung auf Wörter an, indem bei Leerzeichen eine Trennung erfolgt. Wenn ein Benutzer `Ich fahre einen krankenwagen` als Äußerung eingibt, bleibt es ein einzelnes Token. Daher ist `krankenwagen` als eine einzelne Entität gekennzeichnet.
Niederländisch `nl-nl`	1.0.0	Wendet die Tokenisierung auf Wörter an, indem sie mithilfe eines auf maschinellem Lernen basierenden Tokenizer getrennt werden, der versucht, zusammengesetzte Wörter in ihre einzelnen Komponenten zu zerlegen. Wenn ein Benutzer `Ik ga naar de kleuterschool` als Äußerung eingibt, wird sie in `Ik ga naar de kleuter school` geändert. Ermöglicht das unabhängige Markieren von `kleuter` und `school` als unterschiedliche Entitäten.
Niederländisch `nl-nl`	1.0.1	Wendet die Tokenisierung auf Wörter an, indem bei Leerzeichen eine Trennung erfolgt. Wenn ein Benutzer `Ik ga naar de kleuterschool` als Äußerung eingibt, bleibt es ein einzelnes Token. Daher ist `kleuterschool` als eine einzelne Entität gekennzeichnet.

Migrieren zwischen Tokenizer-Versionen

Die Tokenisierung erfolgt auf App-Ebene. Die Tokenisierung auf Versionsebene wird nicht unterstützt.

Importieren Sie die Datei als neue App, anstelle einer Version. Diese Aktion bedeutet, dass die neue App eine andere App-ID besitzt, aber die in der Datei angegebene Tokenizer-Version verwendet.