Förstå funktionerna för textanalys i Azure Language

Fullbordad

Azure Language är en del av Foundry Tools-erbjudandena som kan utföra avancerad bearbetning av naturligt språk över ostrukturerad text. Azure Languages textanalysfunktioner omfattar:

  • Namngiven entitetsigenkänning identifierar personer, platser, händelser med mera. Den här funktionen kan också anpassas för att extrahera anpassade kategorier.
  • Entitetslänkning identifierar kända entiteter tillsammans med en länk till Wikipedia.
  • Identifiering av personligt identifierande information (PII) identifierar personligt känslig information, inklusive personlig hälsoinformation (PHI).
  • Språkidentifiering identifierar språket i texten och returnerar en språkkod som "en" för engelska.
  • Attitydanalys och åsiktsutvinning identifierar om texten är positiv eller negativ.
  • Sammanfattning sammanfattar text genom att identifiera den viktigaste informationen.
  • Extrahering av nyckelfraser visar huvudbegreppen från ostrukturerad text.

Låt oss ta en närmare titt på några av dessa funktioner.

Entitetsigenkänning och länkning

Du kan ange ostrukturerad text i Azure Language och returnera en lista över entiteter i texten som den känner igen. En entitet är ett objekt av en viss typ eller kategori. och i vissa fall undertyp, till exempel:

Typ Subtyp Exempel
Person "Bill Gates", "John"
Plats "Paris", "New York"
Organisation ”Microsoft”
Kvantitet Nummer "6" eller "sex"
Kvantitet Procent "25%" eller "femtio procent"
Kvantitet Ordinal "1:a" eller "första"
Kvantitet Ålder "90 dagar gammal" eller "30 år gammal"
Kvantitet Valuta "10.99"
Kvantitet Mått "10 mil", "40 cm"
Kvantitet Temperatur "45 grader"
Datum och tid "18:30 4 februari 2012"
Datum och tid Datum "2 maj 2017" eller "2017-05-02"
Datum och tid Tid "08:00" eller "8:00"
Datum och tid Datumintervall "2 maj till 5 maj"
Datum och tid Tidsintervall "18:00 till 19:00"
Datum och tid Varaktighet "1 minut och 45 sekunder"
Datum och tid Ställ in "varje tisdag"
Webbadress https://www.bing.com
E-postmeddelande support@microsoft.com
USA-baserat telefonnummer "(312) 555-0176"
IP-adress "10.0.1.125"

Azure Language har också stöd för entitetslänkning för att skilja entiteter åt genom att länka till en specifik referens. För identifierade entiteter returnerar tjänsten en URL för en relevant Wikipedia-artikel .

Anta till exempel att du använder Azure Language för att identifiera entiteter i följande granskningsextrakt för restaurang:

"Jag åt på restaurangen i Seattle förra veckan."

Enhet Typ Subtyp Wikipedia-URL
Seattle Plats https://en.wikipedia.org/wiki/Seattle
Förra veckan Datum och tid Datumintervall

Språkidentifiering

Du kan identifiera språket där text skrivs med Azure Languages språkidentifieringsfunktion. För varje dokument som skickas identifierar tjänsten:

  • Språknamnet (till exempel "Engelska").
  • Språkkoden ISO 6391 (till exempel "en").
  • En poäng som anger en förtroendenivå för språkidentifieringen.

Tänk dig till exempel ett scenario där du äger och driver en restaurang. Kunder kan utföra undersökningar och ge feedback om maten, tjänsten, personalen och så vidare. Anta att du fick följande recensioner från kunder:

Recension 1: "Ett fantastiskt ställe för lunch. Soppan var utsökt.""

Recension 2: "Comida maravillosa y gran servicio."

Recension 3: "Croque monsieur avec frites var fantastisk. Bon appetit!"

Du kan använda textanalysfunktionerna i Azure Language för att identifiera språket för var och en av dessa granskningar. och den kan svara med följande resultat:

Dokument Språknamn ISO 6391-kod Poäng
Recension 1 Engelska en 1.0
Recension 2 Spanska Es 1.0
Recension 3 Engelska en 0,9

Observera att det språk som identifierats för granskning 3 är engelska, trots att texten innehåller en blandning av engelska och franska. Tjänsten för språkidentifiering fokuserar på det dominerande språket i texten. Tjänsten använder en algoritm för att fastställa det dominerande språket, till exempel längden på fraser eller den totala mängden text för språket jämfört med andra språk i texten. Det dominerande språket är värdet som returneras, tillsammans med språkkoden. Konfidenspoängen kan vara mindre än 1 till följd av den blandade språktexten.

Det kan finnas text som är tvetydig eller som har blandat språkinnehåll. Dessa situationer kan utgöra en utmaning. Ett tvetydigt innehållsexempel skulle vara ett fall där dokumentet innehåller begränsad text eller endast skiljetecken. Om du till exempel använder Azure Language för att analysera texten ":-)" resulterar det i ett okänt värde för språknamnet och språkidentifieraren och en poäng på NaN (som används för att ange inte ett tal).

Attitydanalys och åsiktsutvinning

Funktionerna för textanalys i Azure Language kan utvärdera text och returnera sentimentpoäng och etiketter för varje mening. Den här funktionen är användbar för att identifiera positiva och negativa känslor i sociala medier, kundrecensioner, diskussionsforum med mera.

Azure Language använder en fördefinierad klassificeringsmodell för maskininlärning för att utvärdera texten. Tjänsten returnerar sentimentpoäng i tre kategorier: positiva, neutrala och negativa. I var och en av kategorierna anges en poäng mellan 0 och 1. Poängen anger hur sannolikt den angivna texten är en viss attityd. Ett dokumentsentiment tillhandahålls också.

Följande två restaurangrecensioner kan till exempel analyseras för sentiment:

Recension 1: "Vi åt middag på den här restaurangen igår kväll och det första jag märkte var hur artig personalen var. Vi hälsades på ett vänligt sätt och fördes till vårt bord direkt. Bordet var rent, stolarna var bekväma och maten var fantastisk."

och

Recension 2: "Vår matupplevelse på den här restaurangen var en av de värsta jag någonsin haft. Servicen var långsam och maten var hemsk. Jag kommer aldrig att äta på den här anläggningen igen."

Sentimentpoängen för den första recensionen kan vara: Dokumentsentiment: positiv positiv poäng: 0,90 Neutral poäng: 0,10 Negativ poäng: 0,00

Den andra granskningen kan returnera ett svar: Dokumentsentiment: negativ positiv poäng: 0,00 Neutral poäng: 0,00 Negativ poäng: 0,99

Extrahering av nyckelfraser

Extrahering av nyckelfraser identifierar huvudpunkterna i texten. Tänk på det restaurangscenario som diskuterats tidigare. Om du har ett stort antal undersökningar kan det ta lång tid att läsa igenom recensionerna. I stället kan du använda funktionerna för extrahering av nyckelfraser i språktjänsten för att sammanfatta huvudpunkterna.

Du kan få en recension, till exempel:

" Vi åt middag här för ett födelsedagsfirande och hade en fantastisk upplevelse. Vi hälsades av en vänlig värdinnan och fördes till vårt bord direkt. Stämningen var avslappnad, maten var fantastisk och servicen var fantastisk. Om du gillar god mat och uppmärksam service bör du prova det här stället."

Extrahering av nyckelfraser kan ge viss kontext till den här granskningen genom att extrahera följande fraser:

  • födelsedagsfirande
  • fantastisk upplevelse
  • vänlig värdinna
  • Fantastisk mat
  • uppmärksam service
  • middag
  • bord/tabell
  • atmosfär
  • plats

Nu ska vi titta på Azure Languages funktioner för konversations-AI.