Az Azure Language szövegelemzési képességeinek ismertetése

Befejeződött

Az Azure Language az Foundry Tools ajánlatainak része, amelyek strukturálatlan szövegeken keresztül képesek fejlett természetes nyelvi feldolgozásra. Az Azure Language szövegelemzési funkciói a következők:

  • Az elnevezett entitásfelismerés azonosítja a személyeket, helyeket, eseményeket és egyebeket. Ez a funkció egyéni kategóriák kinyerésére is testre szabható.
  • Az entitások összekapcsolása azonosítja az ismert entitásokat a Wikipédiára mutató hivatkozással együtt.
  • A személyes azonosítási adatok (PII) észlelése azonosítja a személyes bizalmas információkat, beleértve a személyes egészségügyi információkat is.
  • A nyelvészlelés azonosítja a szöveg nyelvét, és visszaad egy olyan nyelvi kódot, mint az "en" az angolhoz.
  • A hangulatelemzés és a véleménybányászat azt határozza meg, hogy a szöveg pozitív vagy negatív-e.
  • Az összegzés a legfontosabb információk azonosításával összegzi a szöveget.
  • A kulcskifejezések kinyerése a strukturálatlan szövegek fő fogalmait sorolja fel.

Tekintsünk meg közelebbről néhányat ezek közül a funkciók közül.

Entitásfelismerés és csatolás

Strukturálatlan szöveget adhat meg az Azure Language számára, és visszaadja a felismert szöveg entitásainak listáját. Az entitás egy adott típusú vagy kategóriás elem; és bizonyos esetekben altípus, például:

Típus Altípus példa
Személy "Bill Gates", "John"
Elhelyezkedés "Párizs", "New York"
Szervezet „Microsoft”
Mennyiség Szám "6" vagy "hat"
Mennyiség Százalék "25%" vagy "ötven százalék"
Mennyiség Sorszámú "1." vagy "első"
Mennyiség Kor "90 napos" vagy "30 éves"
Mennyiség Valuta "10.99"
Mennyiség Dimenzió "10 mérföld", "40 cm"
Mennyiség Hőmérséklet "45 fok"
Dátum/idő "2012. február 4. 18:30"
Dátum/idő Dátum "2017. május 2." vagy "2017.02.05."
Dátum/idő Idő "reggel 8 óra" vagy "8:00"
Dátum/idő Dátumtartomány "Május 2-től május 5-ig"
Dátum/idő Időtartomány "18:00–19:00"
Dátum/idő Időtartam "1 perc 45 másodperc"
Dátum/idő Beállít "minden kedden"
URL https://www.bing.com
Email support@microsoft.com
USA-alapú telefonszám "(312) 555-0176"
IP-cím "10.0.1.125"

Az Azure Language az entitások összekapcsolását is támogatja az entitások egyértelműsítéséhez egy adott hivatkozás csatolásával. Felismert entitások esetén a szolgáltatás egy adott Wikipedia-cikk URL-címét adja vissza.

Tegyük fel például, hogy az Azure Language használatával észleli az entitásokat az alábbi étterem-felülvizsgálati kivonatban:

"Múlt héten ettem seattle-i étteremben."

Entitás Típus Altípus Wikipedia URL-címe
Seattle Elhelyezkedés https://en.wikipedia.org/wiki/Seattle
múlt héten Dátum/idő Dátumtartomány

Nyelvfelismerés

Az Azure Language nyelvfelismerési funkciójával azonosíthatja azt a nyelvet, amelyben a szöveg meg van írva. A szolgáltatás minden elküldött dokumentum esetében észleli a következőt:

  • A nyelv neve (például "angol").
  • Az ISO 6391 nyelvi kód (például "en").
  • A nyelvészlelés megbízhatósági szintjét jelző pontszám.

Vegyük például azt a forgatókönyvet, amikor ön egy étterem tulajdonosa és üzemeltetője. Az ügyfelek felméréseket végezhetnek, és visszajelzést küldhetnek az élelmiszerről, a szolgáltatásról, a személyzetről stb. Tegyük fel, hogy a következő véleményeket kapta az ügyfelektől:

1. áttekintés: "A fantastic place for lunch. The soup was delicious."

2. Értékelés: "Comida maravillosa y gran servicio."

3. felülvizsgálat: "The croque monsieur avec frites was terrific. Bon appetit!"

Az Azure Language szövegelemzési képességeivel észlelheti az egyes vélemények nyelvét; és a következő eredményekkel válaszolhat:

Dokumentum Nyelv neve ISO 6391-kód Pontszám
1. felülvizsgálat Angol Angol 1.0
2. felülvizsgálat Spanyol es 1.0
3. felülvizsgálat Angol Angol 0,9

Figyelje meg, hogy a 3. felülvizsgálathoz észlelt nyelv angol, annak ellenére, hogy a szöveg angol és francia keveréket tartalmaz. A nyelvészlelési szolgáltatás a szöveg elsődleges nyelvére összpontosít. A szolgáltatás algoritmussal határozza meg az elsődleges nyelvet, például a kifejezések hosszát vagy a nyelv teljes szövegmennyiségét a szöveg más nyelveihez képest. Az elsődleges nyelv a visszaadott érték, valamint a nyelvi kód. A megbízhatósági pontszám a vegyes nyelvű szöveg miatt 1-nél kisebb lehet.

Előfordulhat, hogy a szöveg nem egyértelmű jellegű, vagy vegyes nyelvű tartalommal rendelkezik. Ezek a helyzetek kihívást jelenthetnek. A nem egyértelmű tartalom például olyan eset, amikor a dokumentum korlátozott szöveget vagy írásjeleket tartalmaz. Ha például az Azure Language használatával elemzi a következő szöveget: ":-)", a nyelvnév és a nyelvi azonosító ismeretlen értéket eredményeznek, valamint egy NaN pontszámot, ami nem szám jelzésére szolgál.

Hangulatelemzés és véleménybányászat

Az Azure Language szövegelemzési képességei kiértékelhetik a szövegeket, és hangulatpontszámokat és címkéket adhatnak vissza az egyes mondatokhoz. Ez a képesség hasznos lehet a pozitív és negatív hangulat észleléséhez a közösségi médiában, az ügyfélértékelésekben, a vitafórumokon és egyebekben.

Az Azure Language egy előre összeállított gépi tanulási besorolási modellt használ a szöveg kiértékeléséhez. A szolgáltatás a hangulatpontszámokat három kategóriában adja vissza: pozitív, semleges és negatív. Az egyes kategóriákban 0 és 1 közötti pontszámot ad meg. A pontszámok azt jelzik, hogy a megadott szöveg mennyire valószínűleg egy bizonyos érzelmet vagy hangulatot tükröz. Egy dokumentum érzelmi töltete is meg van határozva.

Például a következő két étteremértékelés elemezhető a hangulat szempontjából:

1. felülvizsgálat: "Tegnap este vacsoráztunk ezen az étteremben, és az első dolog, amit észrevettem, hogy milyen udvarias volt a személyzet. Barátságosan üdvözöltek minket, és azonnal az asztalunkra vittek. Az asztal tiszta volt, a székek kényelmesek voltak, és az étel csodálatos volt."

és

2. felülvizsgálat: "Étkezési tapasztalatunk ebben az étteremben az egyik legrosszabb volt, amit valaha is láttam. A szolgáltatás lassú volt, és az étel szörnyű volt. Soha többé nem eszem ebben a létesítményben."

Az első értékelés hangulati pontszáma lehet: Dokumentum hangulata: pozitív pozitív pontszám: 0,90 Semleges pontszám: 0,10 Negatív pontszám: 0,00

A második felülvizsgálat válasz lehet: Dokumentum hangulata: negatív Pozitív pontszám: 0,00 Semleges pontszám: 0,00 Negatív pontszám: 0,99

Kulcskifejezések kinyerése

A kulcskifejezések kinyerése a szöveg fő pontjait azonosítja. Vegyük figyelembe a korábban tárgyalt éttermi forgatókönyvet. Ha nagy számú felméréssel rendelkezik, hosszú időt vehet igénybe a vélemények elolvasása. Ehelyett használhatja a Language service kulcskifejezés-kinyerési képességeit a fő pontok összegzéséhez.

Kaphat egy felülvizsgálatot, például:

"Itt vacsoráztunk születésnapi ünnepségre, és fantasztikus élményben volt részem. Barátságos hostess fogadott minket, és azonnal az asztalunkra került. A hangulat nyugodt volt, az étel csodálatos volt, és a szolgáltatás fantasztikus volt. Ha szereti a nagyszerű ételeket és figyelmes kiszolgálást, próbálja ki ezt a helyet."

A kulcskifejezések kinyerése a következő kifejezések kinyerésével adhat némi kontextust a felülvizsgálathoz:

  • születésnapi ünnepség
  • fantasztikus élmény
  • barátságos házigazda
  • nagyszerű étel
  • figyelmes szolgáltatás
  • vacsora
  • tábla
  • Hangulat
  • hely

Ezután tekintsük át az Azure Language beszélgetési AI-képességeit.