Vysvětlení možností analýzy textu jazyka Azure

Dokončeno

Azure Language je součástí nabídek Foundry Tools, které můžou provádět pokročilé zpracování přirozeného jazyka nad nestrukturovaným textem. Mezi funkce analýzy textu jazyka Azure patří:

  • Rozpoznávání pojmenovaných entit identifikuje lidi, místa, události a další. Tuto funkci lze také přizpůsobit pro extrahování vlastních kategorií.
  • Propojení entit identifikuje známé entity společně s odkazem na Wikipedii.
  • Detekce osobních údajů (PII) identifikuje citlivé osobní údaje, včetně osobních zdravotních údajů (PHI).
  • Rozpoznávání jazyka identifikuje jazyk textu a vrátí kód jazyka, například "en" pro angličtinu.
  • Analýza mínění a dolování názorů identifikuje, zda je text pozitivní nebo negativní.
  • Shrnutí shrnuje text tím, že identifikuje nejdůležitější informace.
  • Extrakce klíčových frází uvádí hlavní koncepty z nestrukturovaného textu.

Pojďme se podrobněji podívat na některé z těchto funkcí.

Rozpoznávání a propojení entit

Můžete poskytnout nestrukturovaný text do Azure Language, a ten vrátí seznam entit v textu, které rozpozná. Entita je položka určitého typu nebo kategorie; a v některých případech podtyp, například:

Typ Podtyp Příklad
Osoba Bill Gates, John
Umístění "Paříž", "New York"
Organizace "Microsoft"
Množství Číslo "6" nebo "šest"
Množství Procento "25%" nebo "padesát procent"
Množství Pořadový "1." nebo "první"
Množství Věk "90 dní starý" nebo "30 let starý"
Množství Měna "10.99"
Množství Dimenze "10 mil", "40 cm"
Množství Teplota "45 stupňů"
Datum a čas 18:30 4. února 2012
Datum a čas Datum "2. května 2017" nebo "05/02/2017"
Datum a čas Čas "8:00 ráno" nebo "8:00"
Datum a čas Časový rozsah "2. května do 5. května"
Datum a čas Časový rozsah 18:00 do 19:00
Datum a čas Doba trvání "1 minuta a 45 sekund"
Datum a čas Nastavit "každé úterý"
URL https://www.bing.com
Email support@microsoft.com
Telefonní číslo z USA "(312) 555-0176"
IP adresa "10.0.1.125"

Jazyk Azure také podporuje propojení entit, které pomáhá odstraňovat nejednoznačnost entit napojením na konkrétní odkaz. Pro rozpoznané entity vrátí služba adresu URL relevantního článku na Wikipedii .

Předpokládejme například, že pomocí jazyka Azure detekujete entity v následujícím extrahování recenze restaurace:

Minulý týden jsem jedla v restauraci v Seattlu.

Entita Typ Podtyp Adresa URL Wikipedie
Seattle Umístění https://en.wikipedia.org/wiki/Seattle
Minulý týden Datum a čas Časový rozsah

Rozpoznávání jazyka

Pomocí funkce rozpoznávání jazyka Azure můžete identifikovat jazyk, ve kterém je text napsaný. Pro každý dokument odeslaný službou zjistí:

  • Název jazyka (například angličtina).
  • Kód jazyka ISO 6391 (například "en").
  • Skóre označující úroveň spolehlivosti rozpoznávání jazyka.

Představte si například scénář, ve kterém vlastníte a provozujete restauraci. Zákazníci můžou provádět průzkumy a poskytovat zpětnou vazbu k potravinám, službám, zaměstnancům atd. Předpokládejme, že jste od zákazníků obdrželi následující recenze:

Hodnocení 1: "Fantastické místo na oběd. Polévka byla vynikající."

Recenze 2: "Comida maravillosa y gran servicio."

Hodnocení 3: "Croque monsieur avec frites byl skvělý. Bon appetit!"

Pomocí funkcí analýzy textu v jazyce Azure můžete zjistit jazyk pro každou z těchto kontrol; a může reagovat s následujícími výsledky:

Dokument Název jazyka Kód ISO 6391 Skóre
Recenze 1 Angličtina písmeno n 1.0
Recenze 2 Španělština es 1.0
Recenze 3 Angličtina písmeno n 0,9

Všimněte si, že jazyk zjištěný pro recenzi 3 je angličtina, navzdory textu obsahujícímu kombinaci angličtiny a francouzštiny. Služba rozpoznávání jazyka se zaměřuje na převládající jazyk v textu. Služba používá algoritmus k určení převládajícího jazyka, například délky frází nebo celkového množství textu jazyka v porovnání s jinými jazyky v textu. Převládajícím jazykem je vrácená hodnota spolu s kódem jazyka. Skóre spolehlivosti může být menší než 1 v důsledku textu smíšeného jazyka.

Může existovat text, který je nejednoznačný ve své povaze nebo obsahuje smíšený jazyk. Tyto situace můžou představovat výzvu. Příklad nejednoznačného obsahu by byl případ, kdy dokument obsahuje omezený text nebo pouze interpunkci. Například při použití služby Azure Language k analýze textu ":-)" je výsledkem hodnota neznámá pro název jazyka a identifikátor jazyka, a skóre NaN (které se používá k označení není číslo).

Analýza sentimentu a dolování názorů

Funkce analýzy textu v jazyce Azure můžou vyhodnotit text a vrátit skóre mínění a popisky pro každou větu. Tato funkce je užitečná pro detekci pozitivního a negativního mínění v sociálních médiích, recenzích zákazníků, diskuzních fórech a dalších.

Jazyk Azure používá k vyhodnocení textu předem připravený klasifikační model strojového učení. Služba vrátí skóre mínění ve třech kategoriích: kladné, neutrální a záporné. V každé kategorii je k dispozici skóre mezi 0 a 1. Skóre označují, jak pravděpodobné je, že zadaný text je určitým míněním. K dispozici je také jedno mínění o dokumentu.

Například následující dvě recenze restaurací by mohly být analyzovány pro sentiment:

Recenze 1: "Včera večer jsme měli večeři v této restauraci a první věc, kterou jsem si všiml, bylo, že byl zdvořilý personál. Byli jsme pozdravováni přátelským způsobem a okamžitě jsme se dostali do našeho stolu. Stůl byl čistý, židle byly pohodlné a jídlo bylo úžasné."

a

Recenze 2: "Naše zkušenost s jídlem v této restauraci byla jedna z nejhorších, jakou jsem kdy zažil. Obsluha byla pomalá a jídlo bylo příšerné. Už nikdy v tomto podniku nebudu jíst."

Skóre mínění pro první recenzi může být: Mínění dokumentu: kladné kladné skóre: 0,90 Neutrální skóre: 0,10 Záporné skóre: 0,00

Druhá recenze může vrátit odpověď: Mínění dokumentu: záporné kladné skóre: 0,00 Neutrální skóre: 0,00 Záporné skóre: 0,99

Extrakce klíčových frází

Extrakce klíčových frází identifikuje hlavní body textu. Představte si scénář restaurace, o kterém jsme mluvili dříve. Pokud máte velký počet průzkumů, může to trvat dlouhou dobu, než si projdete recenze. Místo toho můžete pomocí funkcí extrakce klíčových frází služby Language shrnout hlavní body.

Můžete obdržet recenzi, například:

"Měli jsme tu večeři na oslavu narozenin a měli fantastický zážitek. Pozdravili jsme přátelskou hostesku a hned jsme se dostali k našemu stolu. Atmosféra byla uvolněná, jídlo bylo úžasné a služba byla úžasná. Pokud se vám líbí skvělé jídlo a pozorné služby, měli byste vyzkoušet toto místo."

Extrakce klíčových frází může poskytnout určitý kontext této recenze extrahováním následujících frází:

  • Oslava narozenin
  • fantastický zážitek
  • přátelská hostitelka
  • skvělé jídlo
  • pozorná obsluha
  • večeře
  • tabulka
  • Atmosféra
  • místo

Teď se podíváme na konverzační funkce AI jazyka Azure.