Adatgyűjtés az alkalmazáshoz

Cikk
09/01/2024

Fontos

A LUIS 2025. október 1-jén megszűnik, és 2023. április 1-től nem hozhat létre új LUIS-erőforrásokat. Javasoljuk, hogy a LUIS-alkalmazásokat a beszélgetési nyelv megértésére migrálja, hogy kihasználhassa a terméktámogatás és a többnyelvű képességek előnyeit.

A Language Understanding (LUIS) alkalmazásnak adatokra van szüksége az alkalmazásfejlesztés részeként.

A LUIS-ban használt adatok

A LUIS adatokként szöveggel tanítja be és teszteli a LUIS-alkalmazást a szándékok besorolásához és az entitások kinyeréséhez. Elég nagy adatkészletre van szüksége, amely elegendő adatkészlettel rendelkezik ahhoz, hogy külön adatkészleteket hozzon létre mind a betanításhoz, mind a teszteléshez, amelyekben a sokszínűség és a terjesztés kifejezetten alább van kiállítva. Az egyes készletek adatai nem fedik egymást.

Betanítási adatok kiválasztása például kimondott szövegekhez

A következő feltételek alapján válassza ki a betanítási csoport kimondott szövegeit:

A valós adatok a legjobbak:
- Valós adatok az ügyfélalkalmazásból: Válassza ki az ügyfélalkalmazásból származó valós adatokat tartalmazó kimondott szövegeket. Ha az ügyfél ma küld egy webes űrlapot a vizsgálatával, és Ön robotot készít, a webes űrlap adataival kezdheti.
- Közösségi forrásból származó adatok: Ha nem rendelkezik meglévő adatokkal, fontolja meg a közösségi forrásokból származó kimondott szövegeket. Próbálja meg a tényleges felhasználói populációból származó kimondott szövegeket a forgatókönyvéhez használni, hogy a lehető legjobban közelítse meg az alkalmazás által látott valós adatokat. A tömeg által létrehozott emberi kimondott szövegek jobbak, mint a számítógép által létrehozott kimondott szövegek. Amikor egy adott mintákon létrehozott szintetikus kimondott szövegekből álló adatkészletet hoz létre, az nem fog sok természetes változatot látni a kimondott szövegek létrehozásakor, és nem fog jól általánosítani az éles környezetben.
Az adatok sokfélesége:
- Régiók sokfélesége: Győződjön meg arról, hogy az egyes szándékok adatai a lehető legkülönfélébbek, beleértve a kifejezéseket (szóválasztást) és a nyelvhelyességet. Ha a szabadságnapokra vonatkozó HR-szabályzatokkal kapcsolatos szándékot tanít, győződjön meg arról, hogy rendelkezik olyan kimondott szövegekkel, amelyek az összes kiszolgált régióban használt kifejezéseket képviselik. Európában például az emberek rákérdezhetnek taking a holiday , és az USA-ban az emberek rákérdezhetnek taking vacation days.
- Nyelvi sokszínűség: Ha a felhasználók különböző anyanyelvükön kommunikálnak egy második nyelven, győződjön meg arról, hogy olyan kimondott szövegek vannak, amelyek nem natív beszélőket jelölnek.
- Bemeneti sokféleség: Fontolja meg az adatbeviteli útvonalat. Ha egy személytől, részlegtől vagy bemeneti eszköztől (mikrofontól) gyűjt adatokat, valószínűleg hiányzik a sokszínűség, amely fontos lesz az alkalmazás számára az összes bemeneti útvonal megismeréséhez.
- Írásjelek sokfélesége: Vegye figyelembe, hogy a szövegalkalmazásokban különböző szintű írásjeleket használnak, és győződjön meg arról, hogy az írásjelek használatának sokfélesége is eltérő. Ha beszédből származó adatokat használ, nem lesz írásjele, így az adatoknak sem szabad.
Adateloszlás: Győződjön meg arról, hogy a szándékok közötti adateloszlás megegyezik az ügyfélalkalmazás által kapott adatok szórásával. Ha a LUIS-alkalmazás osztályozza azokat a kimondott szövegeket, amelyek szabadság ütemezésére vonatkozó kérések (50%), de beszédelemeket is látni fognak a szabadságnapokkal kapcsolatos kérdésekről (20%), a levelek jóváhagyásáról (20%), valamint néhány hatókörön kívüli és csevegésről (10%), akkor az adatkészletnek rendelkeznie kell az egyes kimondott szövegek mintaszázalékaival.
Az összes adatűrlap használata: Ha a LUIS-alkalmazás több űrlapon is adatokat vesz fel, mindenképpen vegye fel ezeket az űrlapokat a betanítási kimondott szövegekbe. Ha például az ügyfélalkalmazás beszéd- és gépelt szövegbevitelt is használ, beszédet kell létrehoznia a szöveghez, valamint be kell gépelnie a kimondott szövegeket. A beszédfelismerésben és az elírásokban különböző eltéréseket láthat az emberek beszédfelismerési módjában. Ezt a változatot a betanítási adatokban kell ábrázolni.
Pozitív és negatív példák: A LUIS-alkalmazások tanításához meg kell ismernie, hogy mi a szándék (pozitív), és mi nem (negatív). A LUIS-ban a kimondott szövegek csak egyetlen szándék esetén lehetnek pozitívak. Amikor kimondott szöveget ad hozzá egy szándékhoz, a LUIS automatikusan negatív példává teszi ugyanazt a kimondott szöveget az összes többi szándék esetében.
Az alkalmazás hatókörén kívüli adatok: Ha az alkalmazás a definiált szándékokon kívül eső kimondott szövegeket fog látni, győződjön meg róla, hogy megadja azokat. Azok a példák, amelyek nincsenek hozzárendelve egy adott meghatározott szándékhoz, a Nincs szándék címkével lesznek ellátva. Fontos, hogy a Nincs szándékra reális példák legyenek a definiált szándékok hatókörén kívül eső kimondott szövegek megfelelő előrejelzéséhez.

Ha például egy szabadságra összpontosító HR-robotot hoz létre, és három szándéka van:
- szabadság ütemezése vagy szerkesztése
- érdeklődjön a szabadnapokról
- kilépés jóváhagyása/elutasítása
Győződjön meg arról, hogy mindkét szándékot lefedő kimondott szövegekkel rendelkezik, de az alkalmazás által a következő hatókörön kívüli lehetséges kimondott szövegeket is lefedi:
- What are my medical benefits?
- Who is my HR rep?
- tell me a joke
Ritka példák: Az alkalmazásnak ritka példákat és gyakori példákat kell létrehoznia. Ha az alkalmazás még soha nem látott ritka példákat, nem fogja tudni azonosítani őket éles környezetben. Ha valós adatokat használ, pontosabban előrejelezheti, hogy a LUIS-alkalmazás hogyan fog működni éles környezetben.

Minőség mennyiség helyett

További adatok hozzáadása előtt fontolja meg a meglévő adatok minőségét. A LUIS-val gépi tanítást használ. A címkék és az Ön által definiált gépi tanulási funkciók kombinációja az, amit a LUIS-alkalmazás használ. Nem csak a címkék mennyiségére támaszkodik a legjobb előrejelzés érdekében. A példák sokfélesége és azok ábrázolása, hogy a LUIS-alkalmazás mit fog látni az éles környezetben, a legfontosabb rész.

Adatok előfeldolgozása

Az alábbi előfeldolgozási lépések segítenek egy jobb LUIS-alkalmazás létrehozásában:

Ismétlődések eltávolítása: A kimondott szövegek duplikálása nem fog fájni, de ezek sem segítenek, így az eltávolításuk időt takarít meg a címkézéshez.
Azonos ügyfélalkalmazás-előfeldolgozás alkalmazása: Ha az ügyfélalkalmazás, amely meghívja a LUIS előrejelzési végpontját, futásidőben alkalmazza az adatfeldolgozást, mielőtt elküldené a szöveget a LUIS-nak, akkor a LUIS-alkalmazást ugyanúgy feldolgozott adatokra kell betanítsa.
Ne alkalmazzon olyan új törlési folyamatokat, amelyeket az ügyfélalkalmazás nem használ: Ha az ügyfélalkalmazás közvetlenül, például nyelvtan vagy írásjelek törlése nélkül fogadja el a beszéd által generált szöveget, a kimondott szövegeknek ugyanazt kell tükrözniük, beleértve a hiányzó írásjeleket és egyéb téves észleléseket is, amelyeket figyelembe kell vennie.
Ne törölje az adatokat: Ne szabaduljon meg a hibásan formázott bemenettől, amelyet a hibás beszédfelismerés, a véletlen billentyűlenyomások vagy a hibásan beírt/hibásan írt szövegből kaphat. Ha az alkalmazás ilyen bemeneteket fog látni, fontos, hogy betanítsa és tesztelje őket. Adjon hozzá helytelen beviteli szándékot, ha nem várná el, hogy az alkalmazás megértse. Címkézze fel ezeket az adatokat, hogy a LUIS-alkalmazás futásidőben előre jelezhesse a megfelelő választ. Az ügyfélalkalmazás kiválaszthatja a megfelelő választ a nem értelmezhető kimondott szövegekre, például Please try again.

Adatok címkézése

A szöveg feliratozása úgy, mintha helyes lenne: A példaszövegeknek címkével kell rendelkezniük egy entitás minden formájával. Ide tartoznak a hibásan írt, helytelenül írt és félrefordított szövegek.

Adatok áttekintése, miután a LUIS-alkalmazás éles környezetben van

Tekintse át a végponti kimondott szövegeket a valódi kimondott szöveg forgalmának figyeléséhez, miután üzembe helyezett egy alkalmazást az éles környezetben. Ez lehetővé teszi, hogy valós adatokkal frissítse a betanítási kimondott szövegeket, ami javítja az alkalmazást. A közösségi forrásból vagy nem valós forgatókönyvek adataiból készült alkalmazásokat a valós használat alapján kell továbbfejleszteni.

Adatkijelölés tesztelése kötegelt teszteléshez

A kimondott szövegek betanítására fent felsorolt alapelvek a tesztkészlethez használandó kimondott szövegekre vonatkoznak. Győződjön meg arról, hogy a szándékok és entitások közötti eloszlás a lehető legszorosabban tükrözi a valós eloszlást.

A tesztkészletben ne használja újra a betanítási készlet kimondott szövegeit. Ez helytelenül torzítja az eredményeket, és nem adja meg a megfelelő jelzést arról, hogy a LUIS-alkalmazás hogyan fog éles környezetben teljesíteni.

Az alkalmazás első verziójának közzététele után frissítenie kell a tesztkészletet a valós forgalomból származó kimondott szövegekkel, hogy a tesztkészlet tükrözze az éles terjesztést, és időben monitorozhassa a valósághű teljesítményt.

Következő lépések

Megtudhatja, hogyan módosítja a LUIS az adatokat az előrejelzés előtt

Megosztás a következőn keresztül: