Taal- en regioondersteuning voor LUIS

Artikel
01/19/2024

Belangrijk

LUIS wordt op 1 oktober 2025 buiten gebruik gesteld en vanaf 1 april 2023 kunt u geen nieuwe LUIS-resources meer maken. We raden u aan uw LUIS-toepassingen te migreren naar conversationele taalbegrip om te profiteren van doorlopende productondersteuning en meertalige mogelijkheden.

LUIS heeft diverse functies binnen de service. Niet alle functies bevinden zich in dezelfde taalpariteit. Zorg ervoor dat de functies die u interesseren, worden ondersteund in de taalcultuur die u als doel heeft. Een LUIS-app is cultuurspecifiek en kan niet worden gewijzigd zodra deze is ingesteld.

Meertalige LUIS-apps

Als u een meertalige LUIS-clienttoepassing nodig hebt, zoals een chatbot, hebt u een aantal opties. Als LUIS alle talen ondersteunt, ontwikkelt u een LUIS-app voor elke taal. Elke LUIS-app heeft een unieke app-id en een eindpuntlogboek. Als u taalkennis moet bieden voor een taal die LUIS niet ondersteunt, kunt u de Translator-service gebruiken om de uiting te vertalen naar een ondersteunde taal, de utterance verzenden naar het LUIS-eindpunt en de resulterende scores ontvangen.

Notitie

Er is nu een nieuwere versie van Language Understanding mogelijkheden beschikbaar als onderdeel van Azure AI Language. Zie Azure AI Language Documentation (Taaldocumentatie voor Azure AI) voor meer informatie. Zie Conversational Language Understanding voor mogelijkheden voor taalkennis die ondersteuning bieden voor meerdere talen in de taalservice.

Ondersteunde talen

LUIS begrijpt uitingen in de volgende talen:

Taal	Landinstelling	Vooraf gedefinieerd domein	Vooraf gemaakte entiteit	Aanbevelingen voor de frasenlijst	**Sentimentanalyse en sleuteltermextractie
Arabisch (preview - modern standaard Arabisch)	`ar-AR`	-	-	-	-
*Chinees	`zh-CN`	✔	✔	✔	-
Nederlands	`nl-NL`	✔	-	-	✔
Engels (Verenigde Staten)	`en-US`	✔	✔	✔	✔
Engels (VK)	`en-GB`	✔	✔	✔	✔
Frans (Canada)	`fr-CA`	-	-	-	✔
Frans (Frankrijk)	`fr-FR`	✔	✔	✔	✔
Duits	`de-DE`	✔	✔	✔	✔
Gujarati (preview)	`gu-IN`	-	-	-	-
Hindi (preview)	`hi-IN`	-	✔	-	-
Italiaans	`it-IT`	✔	✔	✔	✔
*Japans	`ja-JP`	✔	✔	✔	Alleen sleutelterm
Koreaans	`ko-KR`	✔	-	-	Alleen sleutelterm
Marathi (preview)	`mr-IN`	-	-	-	-
Portugees (Brazilië)	`pt-BR`	✔	✔	✔	niet alle subculturen
Spaans (Mexico)	`es-MX`	-	✔	✔	✔
Spaans (Spanje)	`es-ES`	✔	✔	✔	✔
Tamil (preview)	`ta-IN`	-	-	-	-
Telugu (preview)	`te-IN`	-	-	-	-
Turks	`tr-TR`	✔	✔	-	Alleen gevoel

Taalondersteuning varieert voor vooraf gemaakte entiteiten en vooraf gemaakte domeinen.

*Chinese ondersteuningsopmerkingen

In de zh-CN cultuur verwacht LUIS de tekenset vereenvoudigd Chinees in plaats van de traditionele tekenset.
De namen van intenties, entiteiten, kenmerken en reguliere expressies kunnen chinese of Romeinse tekens bevatten.
Zie de verwijzing naar vooraf gemaakte domeinen voor informatie over welke vooraf gemaakte domeinen worden ondersteund in de zh-CN cultuur.

*Japanse ondersteuningsopmerkingen

Omdat LUIS geen syntactische analyse biedt en het verschil tussen Keigo en informeel Japans niet begrijpt, moet u de verschillende niveaus van formaliteit opnemen als trainingsvoorbeelden voor uw toepassingen.
- でございます is niet hetzelfde als です.
- です is niet hetzelfde als だ.

**Ondersteuningsopmerkingen voor taalservice

De Language-service bevat vooraf gemaakte entiteit en sentimentanalyse met keyPhrase. Alleen Portugees wordt ondersteund voor subculturen: pt-PT en pt-BR. Alle andere culturen worden ondersteund op het niveau van de primaire cultuur.

Ondersteunde talen voor speech-API

Zie Talen die worden ondersteund voor spraak voor talen in de spraakdicteermodus.

Ondersteunde talen voor Bing Spellingcontrole

Zie Ondersteunde talen voor Bing Spellingcontrole voor een lijst met ondersteunde talen en status.

Zeldzame of vreemde woorden in een toepassing

In de en-us cultuur leert LUIS de meeste Engelse woorden te onderscheiden, inclusief slang. In de zh-cn cultuur leert LUIS de meeste Chinese karakters te onderscheiden. Als u een zeldzaam woord in en-us of teken in zh-cngebruikt en u ziet dat LUIS dat woord of teken niet kan onderscheiden, kunt u dat woord of teken toevoegen aan een woordgroepenlijstfunctie. Woorden die buiten de cultuur van de toepassing staan, dat wil zeggen, vreemde woorden, moeten bijvoorbeeld worden toegevoegd aan een woordgroepenlijstfunctie.

Hybride talen

Hybride talen combineren woorden uit twee culturen, zoals Engels en Chinees. Deze talen worden niet ondersteund in LUIS omdat een app is gebaseerd op één cultuur.

Tokenisatie

Om machine learning uit te voeren, breekt LUIS een uiting in tokens op basis van cultuur.

Taal	elke ruimte of speciaal teken	tekenniveau	samengestelde woorden
Arabisch	✔
Chinees		✔
Nederlands	✔		✔
Engels (en-us)	✔
Engels (en-GB)	✔
Frans (fr-FR)	✔
Frans (fr-CA)	✔
Duits	✔		✔
Gujarati	✔
Hindi	✔
Italiaans	✔
Japans			✔
Koreaans		✔
Mahrati	✔
Portugees (Brazilië)	✔
Spaans (es-ES)	✔
Spaans (es-MX)	✔
Tamil	✔
Telugu	✔
Turks	✔

Aangepaste tokenizerversies

De volgende culturen hebben aangepaste tokenizerversies:

Cultuur	Versie	Doel
Duits `de-de`	1.0.0	Tokeniseert woorden door ze te splitsen met behulp van een op machine learning gebaseerde tokenizer die probeert samengestelde woorden op te splitsen in hun afzonderlijke onderdelen. Als een gebruiker invoert `Ich fahre einen krankenwagen` als een utterance, wordt deze ingesteld op `Ich fahre einen kranken wagen`. Het markeren van `kranken` en `wagen` onafhankelijk als verschillende entiteiten toestaan.
Duits `de-de`	1.0.2	Tokeniseert woorden door ze op spaties te splitsen. Als een gebruiker invoert `Ich fahre einen krankenwagen` als een uiting, blijft het één token. Is dus `krankenwagen` gemarkeerd als één entiteit.
Nederlands `nl-nl`	1.0.0	Tokeniseert woorden door ze te splitsen met behulp van een op machine learning gebaseerde tokenizer die probeert samengestelde woorden op te splitsen in hun afzonderlijke onderdelen. Als een gebruiker invoert `Ik ga naar de kleuterschool` als een utterance, wordt deze ingesteld op `Ik ga naar de kleuter school`. Het markeren van `kleuter` en `school` onafhankelijk als verschillende entiteiten toestaan.
Nederlands `nl-nl`	1.0.1	Tokeniseert woorden door ze op spaties te splitsen. Als een gebruiker invoert `Ik ga naar de kleuterschool` als een uiting, blijft het één token. Is dus `kleuterschool` gemarkeerd als één entiteit.

Migreren tussen tokenizerversies

Tokenisatie vindt plaats op app-niveau. Er is geen ondersteuning voor tokenisatie op versieniveau.

Importeer het bestand als een nieuwe app in plaats van een versie. Deze actie betekent dat de nieuwe app een andere app-id heeft, maar de tokenizer-versie gebruikt die is opgegeven in het bestand.