Shromažďování dat pro vaši aplikaci

Článek
01/19/2024

Důležité

Služba LUIS bude 1. října 2025 vyřazena a od 1. dubna 2023 nebude možné vytvářet nové prostředky služby LUIS. Doporučujeme migrovat aplikace LUIS na porozumění konverzačnímu jazyku , abyste mohli využívat výhod nepřetržité podpory produktů a vícejazyčných funkcí.

Aplikace Language Understanding (LUIS) potřebuje data jako součást vývoje aplikace.

Data používaná ve službě LUIS

Služba LUIS používá text jako data k trénování a testování aplikace LUIS z důvodu klasifikace záměrů a extrakce entit. Potřebujete dostatečně velkou datovou sadu, abyste měli dostatek dat k vytvoření samostatných datových sad pro trénování i testování, které mají rozmanitost a rozdělení uvedené konkrétně níže. Data v každé z těchto sad by se neměla překrývat.

Výběr trénovacích dat pro příklady promluv

Vyberte promluvy pro trénovací sadu na základě následujících kritérií:

Nejlepší jsou skutečná data:
- Skutečná data z klientské aplikace: Vyberte výroky, které jsou skutečnými daty z klientské aplikace. Pokud zákazník dnes odešle webový formulář se svým dotazem a vy vytváříte robota, můžete začít s použitím dat webového formuláře.
- Data z crowd source: Pokud nemáte žádná data, zvažte crowd sourcing promluvy. Zkuste pro svůj scénář použít crowd-source promluvy od skutečné populace uživatelů, abyste získali nejlepší aproximaci skutečných dat, která vaše aplikace uvidí. Lidské výroky z davu jsou lepší než výroky generované počítačem. Když sestavíte datovou sadu syntetických promluv generovaných podle konkrétních vzorů, bude chybět většina přirozených variací, které uvidíte u lidí vytvářejících promluvy, a v produkčním prostředí se dobře nezobecní.
Rozmanitost dat:
- Rozmanitost oblastí: Zajistěte, aby data pro každý záměr byla co nejvíce různorodá, včetně formulací (volba slov) a gramatiky. Pokud se snažíte o zásadách lidských zdrojů týkajících se dnů dovolené, ujistěte se, že máte promluvy, které představují termíny, které se používají ve všech oblastech, které obsluhujete. Například v Evropě se lidé mohou ptát taking a holiday na a v USA se mohou ptát na taking vacation days.
- Jazyková rozmanitost: Pokud máte uživatele s různými rodnými jazyky, kteří komunikují ve druhém jazyce, ujistěte se, že máte promluvy, které představují jiné než rodilí mluvčí.
- Rozmanitost vstupu: Zvažte cestu vstupu dat. Pokud shromažďujete data od jedné osoby, oddělení nebo vstupního zařízení (mikrofonu), pravděpodobně vám chybí rozmanitost, která bude pro vaši aplikaci důležitá, aby se dozvěděla o všech vstupních cestách.
- Rozmanitost interpunkce: Vezměte v úvahu, že lidé používají různé úrovně interpunkce v textových aplikacích a ujistěte se, že používáte interpunkci různě. Pokud používáte data, která pocházejí z řeči, nebudou obsahovat žádnou interpunkci, takže by neměla být ani vaše data.
Distribuce dat: Ujistěte se, že data rozložená mezi záměry představují stejné rozložení dat, která klientská aplikace přijímá. Pokud vaše aplikace LUIS klasifikuje výroky, které jsou žádostmi o naplánování dovolené (50 %), ale zobrazí se v ní také výroky o dotazování na zbývající dny dovolené (20 %), schvalování dovolených (20 %) a některých z nich mimo rozsah a konverzace (10 %), pak by vaše datová sada měla obsahovat procenta vzorku každého typu promluvy.
Použití všech datových formulářů: Pokud vaše aplikace LUIS bude přijímat data ve více formách, nezapomeňte tyto formuláře zahrnout do trénovacích promluv. Pokud například klientská aplikace přijímá hlasový i zadaný textový vstup, musíte mít vygenerované promluvy převodu řeči na text i napsané promluvy. Uvidíte různé variace v tom, jak lidé mluví podle toho, jak píšou, a také různé chyby v rozpoznávání řeči a překlepech. Všechny tyto varianty by měly být reprezentovány ve vašich trénovacích datech.
Pozitivní a negativní příklady: Aby se aplikace LUIS naučila, musí se naučit, co je záměr (pozitivní) a co ne (negativní). Ve službě LUIS můžou být promluvy pozitivní pouze pro jeden záměr. Když se do záměru přidá promluva, služba LUIS automaticky z této ukázkové promluvy udělá negativní příklad pro všechny ostatní záměry.
Data mimo obor aplikace: Pokud se ve vaší aplikaci zobrazí promluvy, které spadají mimo vaše definované záměry, nezapomeňte je poskytnout. Příklady, které nejsou přiřazené ke konkrétnímu definovanému záměru, budou označeny záměrem None (Žádný ). Pro záměr None (Žádný ) je důležité mít realistické příklady, které umožní správně předpovědět promluvy, které jsou mimo rozsah definovaných záměrů.

Pokud například vytváříte robota pro personální oddělení, který se zaměřuje na volno a máte tři záměry:
- naplánování nebo úprava dovolené
- inquire about available leave days
- schválit/zamítnout dovolenou
Chcete mít jistotu, že máte promluvy, které pokrývají oba tyto záměry, ale také potenciální promluvy mimo daný rozsah, které by aplikace měla sloužit, například:
- What are my medical benefits?
- Who is my HR rep?
- tell me a joke
Vzácné příklady: Aplikace musí obsahovat vzácné i běžné příklady. Pokud vaše aplikace nikdy neviděla vzácné příklady, nebude je v produkčním prostředí moct identifikovat. Pokud používáte skutečná data, budete moct přesněji předpovědět, jak bude vaše aplikace LUIS fungovat v produkčním prostředí.

Kvalita místo množství

Před přidáním dalších dat zvažte kvalitu stávajících dat. Se službou LUIS používáte strojové učení. Vaše aplikace LUIS používá kombinaci popisků a vámi definovaných funkcí strojového učení. K vytvoření nejlepší předpovědi nespoléhá jednoduše na množství popisků. Rozmanitost příkladů a jejich reprezentace toho, co vaše aplikace LUIS uvidí v produkčním prostředí, je nejdůležitější.

Předběžné zpracování dat

Následující kroky předběžného zpracování vám pomůžou vytvořit lepší aplikaci LUIS:

Odebrání duplicit: Duplicitní promluvy neuškodí, ale ani nepomůžou, takže jejich odebráním ušetříte čas při označování.
Použití stejného předběžného zpracování klient-aplikace: Pokud vaše klientská aplikace, která volá koncový bod predikce služby LUIS, použije zpracování dat za běhu před odesláním textu do služby LUIS, měli byste aplikaci LUIS vytrénovat na data zpracovávaná stejným způsobem.
Nepoužívejte nové procesy čištění, které klientská aplikace nepoužívá: Pokud klientská aplikace přijímá text vygenerovaný řečí přímo bez jakéhokoli čištění, jako je gramatika nebo interpunkce, musí se promluvy odrážet stejně, včetně chybějící interpunkce a všech dalších chybných rozpoznání, se kterými budete muset počítat.
Nevymazávejte data: Nezbavujte se chybně formátovaného vstupu, ke kterému může dojít zkomoleným rozpoznáváním řeči, náhodnými stisknutí kláves nebo chybně napsaným nebo chybně napsaným textem. Pokud vaše aplikace uvidí podobné vstupy, je důležité, aby se na nich vytrénovala a otestovala. Pokud byste nečekali, že mu vaše aplikace porozumí, přidejte poškozený záměr vstupu . Označte tato data, abyste aplikaci LUIS pomohli předpovědět správnou odpověď za běhu. Klientská aplikace může zvolit vhodnou odpověď na nesrozumitelné promluvy, jako Please try againje .

Označování dat

Označte text, jako by byl správný: Ukázkové promluvy by měly mít popisky všech forem entity. To zahrnuje text, který je chybně napsaný, chybně napsaný a nesprávně přeložený.

Kontrola dat po spuštění aplikace LUIS v produkčním prostředí

Po nasazení aplikace do produkčního prostředí zkontrolujte promluvy koncového bodu a monitorujte skutečný provoz promluv. To vám umožní aktualizovat trénovací promluvy o skutečná data, což vaši aplikaci vylepší. Každou aplikaci vytvořenou pomocí dat z crowd source nebo jiných než reálných scénářů bude potřeba vylepšit na základě jejich skutečného použití.

Výběr testovacích dat pro dávkové testování

Všechny výše uvedené principy pro trénování promluv platí pro promluvy, které byste měli použít pro testovací sadu. Zajistěte, aby distribuce mezi záměry a entitami co nejvíce odrážela skutečnou distribuci.

Nepoužívejte v testovací sadě opakovaně promluvy z trénovací sady. To nesprávně ztěžuje vaše výsledky a neposkytuje vám správnou představu o tom, jak bude vaše aplikace LUIS fungovat v produkčním prostředí.

Po publikování první verze aplikace byste měli testovací sadu aktualizovat promluvami z reálného provozu, aby testovací sada odrážela produkční distribuci a mohli v průběhu času monitorovat realistický výkon.

Další kroky

Zjistěte, jak služba LUIS mění data před predikcí.