Az Azure Language szövegelemzési képességeinek ismertetése
Az Azure Language az Foundry Tools ajánlatainak része, amelyek strukturálatlan szövegeken keresztül képesek fejlett természetes nyelvi feldolgozásra. Az Azure Language szövegelemzési funkciói a következők:
- Az elnevezett entitásfelismerés azonosítja a személyeket, helyeket, eseményeket és egyebeket. Ez a funkció egyéni kategóriák kinyerésére is testre szabható.
- Az entitások összekapcsolása azonosítja az ismert entitásokat a Wikipédiára mutató hivatkozással együtt.
- A személyes azonosítási adatok (PII) észlelése azonosítja a személyes bizalmas információkat, beleértve a személyes egészségügyi információkat is.
- A nyelvészlelés azonosítja a szöveg nyelvét, és visszaad egy olyan nyelvi kódot, mint az "en" az angolhoz.
- A hangulatelemzés és a véleménybányászat azt határozza meg, hogy a szöveg pozitív vagy negatív-e.
- Az összegzés a legfontosabb információk azonosításával összegzi a szöveget.
- A kulcskifejezések kinyerése a strukturálatlan szövegek fő fogalmait sorolja fel.
Tekintsünk meg közelebbről néhányat ezek közül a funkciók közül.
Entitásfelismerés és csatolás
Strukturálatlan szöveget adhat meg az Azure Language számára, és visszaadja a felismert szöveg entitásainak listáját. Az entitás egy adott típusú vagy kategóriás elem; és bizonyos esetekben altípus, például:
| Típus | Altípus | példa |
|---|---|---|
| Személy | "Bill Gates", "John" | |
| Elhelyezkedés | "Párizs", "New York" | |
| Szervezet | „Microsoft” | |
| Mennyiség | Szám | "6" vagy "hat" |
| Mennyiség | Százalék | "25%" vagy "ötven százalék" |
| Mennyiség | Sorszámú | "1." vagy "első" |
| Mennyiség | Kor | "90 napos" vagy "30 éves" |
| Mennyiség | Valuta | "10.99" |
| Mennyiség | Dimenzió | "10 mérföld", "40 cm" |
| Mennyiség | Hőmérséklet | "45 fok" |
| Dátum/idő | "2012. február 4. 18:30" | |
| Dátum/idő | Dátum | "2017. május 2." vagy "2017.02.05." |
| Dátum/idő | Idő | "reggel 8 óra" vagy "8:00" |
| Dátum/idő | Dátumtartomány | "Május 2-től május 5-ig" |
| Dátum/idő | Időtartomány | "18:00–19:00" |
| Dátum/idő | Időtartam | "1 perc 45 másodperc" |
| Dátum/idő | Beállít | "minden kedden" |
| URL |
https://www.bing.com
|
|
support@microsoft.com
|
||
| USA-alapú telefonszám | "(312) 555-0176" | |
| IP-cím | "10.0.1.125" |
Az Azure Language az entitások összekapcsolását is támogatja az entitások egyértelműsítéséhez egy adott hivatkozás csatolásával. Felismert entitások esetén a szolgáltatás egy adott Wikipedia-cikk URL-címét adja vissza.
Tegyük fel például, hogy az Azure Language használatával észleli az entitásokat az alábbi étterem-felülvizsgálati kivonatban:
"Múlt héten ettem seattle-i étteremben."
| Entitás | Típus | Altípus | Wikipedia URL-címe |
|---|---|---|---|
| Seattle | Elhelyezkedés | https://en.wikipedia.org/wiki/Seattle | |
| múlt héten | Dátum/idő | Dátumtartomány |
Nyelvfelismerés
Az Azure Language nyelvfelismerési funkciójával azonosíthatja azt a nyelvet, amelyben a szöveg meg van írva. A szolgáltatás minden elküldött dokumentum esetében észleli a következőt:
- A nyelv neve (például "angol").
- Az ISO 6391 nyelvi kód (például "en").
- A nyelvészlelés megbízhatósági szintjét jelző pontszám.
Vegyük például azt a forgatókönyvet, amikor ön egy étterem tulajdonosa és üzemeltetője. Az ügyfelek felméréseket végezhetnek, és visszajelzést küldhetnek az élelmiszerről, a szolgáltatásról, a személyzetről stb. Tegyük fel, hogy a következő véleményeket kapta az ügyfelektől:
1. áttekintés: "A fantastic place for lunch. The soup was delicious."
2. Értékelés: "Comida maravillosa y gran servicio."
3. felülvizsgálat: "The croque monsieur avec frites was terrific. Bon appetit!"
Az Azure Language szövegelemzési képességeivel észlelheti az egyes vélemények nyelvét; és a következő eredményekkel válaszolhat:
| Dokumentum | Nyelv neve | ISO 6391-kód | Pontszám |
|---|---|---|---|
| 1. felülvizsgálat | Angol | Angol | 1.0 |
| 2. felülvizsgálat | Spanyol | es | 1.0 |
| 3. felülvizsgálat | Angol | Angol | 0,9 |
Figyelje meg, hogy a 3. felülvizsgálathoz észlelt nyelv angol, annak ellenére, hogy a szöveg angol és francia keveréket tartalmaz. A nyelvészlelési szolgáltatás a szöveg elsődleges nyelvére összpontosít. A szolgáltatás algoritmussal határozza meg az elsődleges nyelvet, például a kifejezések hosszát vagy a nyelv teljes szövegmennyiségét a szöveg más nyelveihez képest. Az elsődleges nyelv a visszaadott érték, valamint a nyelvi kód. A megbízhatósági pontszám a vegyes nyelvű szöveg miatt 1-nél kisebb lehet.
Előfordulhat, hogy a szöveg nem egyértelmű jellegű, vagy vegyes nyelvű tartalommal rendelkezik. Ezek a helyzetek kihívást jelenthetnek. A nem egyértelmű tartalom például olyan eset, amikor a dokumentum korlátozott szöveget vagy írásjeleket tartalmaz. Ha például az Azure Language használatával elemzi a következő szöveget: ":-)", a nyelvnév és a nyelvi azonosító ismeretlen értéket eredményeznek, valamint egy NaN pontszámot, ami nem szám jelzésére szolgál.
Hangulatelemzés és véleménybányászat
Az Azure Language szövegelemzési képességei kiértékelhetik a szövegeket, és hangulatpontszámokat és címkéket adhatnak vissza az egyes mondatokhoz. Ez a képesség hasznos lehet a pozitív és negatív hangulat észleléséhez a közösségi médiában, az ügyfélértékelésekben, a vitafórumokon és egyebekben.
Az Azure Language egy előre összeállított gépi tanulási besorolási modellt használ a szöveg kiértékeléséhez. A szolgáltatás a hangulatpontszámokat három kategóriában adja vissza: pozitív, semleges és negatív. Az egyes kategóriákban 0 és 1 közötti pontszámot ad meg. A pontszámok azt jelzik, hogy a megadott szöveg mennyire valószínűleg egy bizonyos érzelmet vagy hangulatot tükröz. Egy dokumentum érzelmi töltete is meg van határozva.
Például a következő két étteremértékelés elemezhető a hangulat szempontjából:
1. felülvizsgálat: "Tegnap este vacsoráztunk ezen az étteremben, és az első dolog, amit észrevettem, hogy milyen udvarias volt a személyzet. Barátságosan üdvözöltek minket, és azonnal az asztalunkra vittek. Az asztal tiszta volt, a székek kényelmesek voltak, és az étel csodálatos volt."
és
2. felülvizsgálat: "Étkezési tapasztalatunk ebben az étteremben az egyik legrosszabb volt, amit valaha is láttam. A szolgáltatás lassú volt, és az étel szörnyű volt. Soha többé nem eszem ebben a létesítményben."
Az első értékelés hangulati pontszáma lehet: Dokumentum hangulata: pozitív pozitív pontszám: 0,90 Semleges pontszám: 0,10 Negatív pontszám: 0,00
A második felülvizsgálat válasz lehet: Dokumentum hangulata: negatív Pozitív pontszám: 0,00 Semleges pontszám: 0,00 Negatív pontszám: 0,99
Kulcskifejezések kinyerése
A kulcskifejezések kinyerése a szöveg fő pontjait azonosítja. Vegyük figyelembe a korábban tárgyalt éttermi forgatókönyvet. Ha nagy számú felméréssel rendelkezik, hosszú időt vehet igénybe a vélemények elolvasása. Ehelyett használhatja a Language service kulcskifejezés-kinyerési képességeit a fő pontok összegzéséhez.
Kaphat egy felülvizsgálatot, például:
"Itt vacsoráztunk születésnapi ünnepségre, és fantasztikus élményben volt részem. Barátságos hostess fogadott minket, és azonnal az asztalunkra került. A hangulat nyugodt volt, az étel csodálatos volt, és a szolgáltatás fantasztikus volt. Ha szereti a nagyszerű ételeket és figyelmes kiszolgálást, próbálja ki ezt a helyet."
A kulcskifejezések kinyerése a következő kifejezések kinyerésével adhat némi kontextust a felülvizsgálathoz:
- születésnapi ünnepség
- fantasztikus élmény
- barátságos házigazda
- nagyszerű étel
- figyelmes szolgáltatás
- vacsora
- tábla
- Hangulat
- hely
Ezután tekintsük át az Azure Language beszélgetési AI-képességeit.