Vysvětlení možností analýzy textu jazyka Azure
Azure Language je součástí nabídek Foundry Tools, které můžou provádět pokročilé zpracování přirozeného jazyka nad nestrukturovaným textem. Mezi funkce analýzy textu jazyka Azure patří:
- Rozpoznávání pojmenovaných entit identifikuje lidi, místa, události a další. Tuto funkci lze také přizpůsobit pro extrahování vlastních kategorií.
- Propojení entit identifikuje známé entity společně s odkazem na Wikipedii.
- Detekce osobních údajů (PII) identifikuje citlivé osobní údaje, včetně osobních zdravotních údajů (PHI).
- Rozpoznávání jazyka identifikuje jazyk textu a vrátí kód jazyka, například "en" pro angličtinu.
- Analýza mínění a dolování názorů identifikuje, zda je text pozitivní nebo negativní.
- Shrnutí shrnuje text tím, že identifikuje nejdůležitější informace.
- Extrakce klíčových frází uvádí hlavní koncepty z nestrukturovaného textu.
Pojďme se podrobněji podívat na některé z těchto funkcí.
Rozpoznávání a propojení entit
Můžete poskytnout nestrukturovaný text do Azure Language, a ten vrátí seznam entit v textu, které rozpozná. Entita je položka určitého typu nebo kategorie; a v některých případech podtyp, například:
| Typ | Podtyp | Příklad |
|---|---|---|
| Osoba | Bill Gates, John | |
| Umístění | "Paříž", "New York" | |
| Organizace | "Microsoft" | |
| Množství | Číslo | "6" nebo "šest" |
| Množství | Procento | "25%" nebo "padesát procent" |
| Množství | Pořadový | "1." nebo "první" |
| Množství | Věk | "90 dní starý" nebo "30 let starý" |
| Množství | Měna | "10.99" |
| Množství | Dimenze | "10 mil", "40 cm" |
| Množství | Teplota | "45 stupňů" |
| Datum a čas | 18:30 4. února 2012 | |
| Datum a čas | Datum | "2. května 2017" nebo "05/02/2017" |
| Datum a čas | Čas | "8:00 ráno" nebo "8:00" |
| Datum a čas | Časový rozsah | "2. května do 5. května" |
| Datum a čas | Časový rozsah | 18:00 do 19:00 |
| Datum a čas | Doba trvání | "1 minuta a 45 sekund" |
| Datum a čas | Nastavit | "každé úterý" |
| URL |
https://www.bing.com
|
|
support@microsoft.com
|
||
| Telefonní číslo z USA | "(312) 555-0176" | |
| IP adresa | "10.0.1.125" |
Jazyk Azure také podporuje propojení entit, které pomáhá odstraňovat nejednoznačnost entit napojením na konkrétní odkaz. Pro rozpoznané entity vrátí služba adresu URL relevantního článku na Wikipedii .
Předpokládejme například, že pomocí jazyka Azure detekujete entity v následujícím extrahování recenze restaurace:
Minulý týden jsem jedla v restauraci v Seattlu.
| Entita | Typ | Podtyp | Adresa URL Wikipedie |
|---|---|---|---|
| Seattle | Umístění | https://en.wikipedia.org/wiki/Seattle | |
| Minulý týden | Datum a čas | Časový rozsah |
Rozpoznávání jazyka
Pomocí funkce rozpoznávání jazyka Azure můžete identifikovat jazyk, ve kterém je text napsaný. Pro každý dokument odeslaný službou zjistí:
- Název jazyka (například angličtina).
- Kód jazyka ISO 6391 (například "en").
- Skóre označující úroveň spolehlivosti rozpoznávání jazyka.
Představte si například scénář, ve kterém vlastníte a provozujete restauraci. Zákazníci můžou provádět průzkumy a poskytovat zpětnou vazbu k potravinám, službám, zaměstnancům atd. Předpokládejme, že jste od zákazníků obdrželi následující recenze:
Hodnocení 1: "Fantastické místo na oběd. Polévka byla vynikající."
Recenze 2: "Comida maravillosa y gran servicio."
Hodnocení 3: "Croque monsieur avec frites byl skvělý. Bon appetit!"
Pomocí funkcí analýzy textu v jazyce Azure můžete zjistit jazyk pro každou z těchto kontrol; a může reagovat s následujícími výsledky:
| Dokument | Název jazyka | Kód ISO 6391 | Skóre |
|---|---|---|---|
| Recenze 1 | Angličtina | písmeno n | 1.0 |
| Recenze 2 | Španělština | es | 1.0 |
| Recenze 3 | Angličtina | písmeno n | 0,9 |
Všimněte si, že jazyk zjištěný pro recenzi 3 je angličtina, navzdory textu obsahujícímu kombinaci angličtiny a francouzštiny. Služba rozpoznávání jazyka se zaměřuje na převládající jazyk v textu. Služba používá algoritmus k určení převládajícího jazyka, například délky frází nebo celkového množství textu jazyka v porovnání s jinými jazyky v textu. Převládajícím jazykem je vrácená hodnota spolu s kódem jazyka. Skóre spolehlivosti může být menší než 1 v důsledku textu smíšeného jazyka.
Může existovat text, který je nejednoznačný ve své povaze nebo obsahuje smíšený jazyk. Tyto situace můžou představovat výzvu. Příklad nejednoznačného obsahu by byl případ, kdy dokument obsahuje omezený text nebo pouze interpunkci. Například při použití služby Azure Language k analýze textu ":-)" je výsledkem hodnota neznámá pro název jazyka a identifikátor jazyka, a skóre NaN (které se používá k označení není číslo).
Analýza sentimentu a dolování názorů
Funkce analýzy textu v jazyce Azure můžou vyhodnotit text a vrátit skóre mínění a popisky pro každou větu. Tato funkce je užitečná pro detekci pozitivního a negativního mínění v sociálních médiích, recenzích zákazníků, diskuzních fórech a dalších.
Jazyk Azure používá k vyhodnocení textu předem připravený klasifikační model strojového učení. Služba vrátí skóre mínění ve třech kategoriích: kladné, neutrální a záporné. V každé kategorii je k dispozici skóre mezi 0 a 1. Skóre označují, jak pravděpodobné je, že zadaný text je určitým míněním. K dispozici je také jedno mínění o dokumentu.
Například následující dvě recenze restaurací by mohly být analyzovány pro sentiment:
Recenze 1: "Včera večer jsme měli večeři v této restauraci a první věc, kterou jsem si všiml, bylo, že byl zdvořilý personál. Byli jsme pozdravováni přátelským způsobem a okamžitě jsme se dostali do našeho stolu. Stůl byl čistý, židle byly pohodlné a jídlo bylo úžasné."
a
Recenze 2: "Naše zkušenost s jídlem v této restauraci byla jedna z nejhorších, jakou jsem kdy zažil. Obsluha byla pomalá a jídlo bylo příšerné. Už nikdy v tomto podniku nebudu jíst."
Skóre mínění pro první recenzi může být: Mínění dokumentu: kladné kladné skóre: 0,90 Neutrální skóre: 0,10 Záporné skóre: 0,00
Druhá recenze může vrátit odpověď: Mínění dokumentu: záporné kladné skóre: 0,00 Neutrální skóre: 0,00 Záporné skóre: 0,99
Extrakce klíčových frází
Extrakce klíčových frází identifikuje hlavní body textu. Představte si scénář restaurace, o kterém jsme mluvili dříve. Pokud máte velký počet průzkumů, může to trvat dlouhou dobu, než si projdete recenze. Místo toho můžete pomocí funkcí extrakce klíčových frází služby Language shrnout hlavní body.
Můžete obdržet recenzi, například:
"Měli jsme tu večeři na oslavu narozenin a měli fantastický zážitek. Pozdravili jsme přátelskou hostesku a hned jsme se dostali k našemu stolu. Atmosféra byla uvolněná, jídlo bylo úžasné a služba byla úžasná. Pokud se vám líbí skvělé jídlo a pozorné služby, měli byste vyzkoušet toto místo."
Extrakce klíčových frází může poskytnout určitý kontext této recenze extrahováním následujících frází:
- Oslava narozenin
- fantastický zážitek
- přátelská hostitelka
- skvělé jídlo
- pozorná obsluha
- večeře
- tabulka
- Atmosféra
- místo
Teď se podíváme na konverzační funkce AI jazyka Azure.