Forstå Azure Languages tekstanalysefunktioner
Azure Language er en del af Foundry Tools-tilbuddene, der kan udføre avanceret naturlig sprogbehandling over ustruktureret tekst. Azure Languages tekstanalysefunktioner omfatter:
- Navngivet enhedsgenkendelse identificerer personer, steder, begivenheder og meget mere. Denne funktion kan også tilpasses for at udtrække brugerdefinerede kategorier.
- Enhed, der linker identificerer kendte enheder sammen med et link til Wikipedia.
- Registrering af personidentifikationsoplysninger (PII) identificerer personfølsomme oplysninger, herunder personlige sundhedsoplysninger.
- Sprogregistrering identificerer sproget i teksten og returnerer en sprogkode, f.eks. "en" for engelsk.
- analyse af synspunkter og identificerer, om tekst er positiv eller negativ.
- opsummering opsummerer tekst ved at identificere de vigtigste oplysninger.
- Udtræk af nøglesætninger viser hovedbegreberne fra ustruktureret tekst.
Lad os se nærmere på nogle af disse funktioner.
Enhedsgenkendelse og -sammenkædning
Du kan give Azure Language ustruktureret tekst, og det returnerer en liste over entiteter i teksten, som det genkender. En enhed er et element af en bestemt type eller en kategori. og i nogle tilfælde undertype, f.eks.:
| Slags | Undertype | Eksempel |
|---|---|---|
| Person | "Bill Gates", "John" | |
| Sted | "Paris", "New York" | |
| Organisation | "Microsoft" | |
| Mængde | Tal | "6" eller "seks" |
| Mængde | Procentdel | "25%" eller "halvtreds procent" |
| Mængde | Ordenstal | "1st" eller "first" |
| Mængde | Alder | "90 dage gammel" eller "30 år gammel" |
| Mængde | Valuta | "10.99" |
| Mængde | Dimension | "10 miles", "40 cm" |
| Mængde | Temperatur | "45 grader" |
| Dato og klokkeslæt | "18:30 Februar 4, 2012" | |
| Dato og klokkeslæt | Dato | "2. maj 2017" eller "05/02/2017" |
| Dato og klokkeslæt | Tid | "8am" eller "8:00" |
| Dato og klokkeslæt | Datorange | "2. maj til 5. maj" |
| Dato og klokkeslæt | TimeRange | "18:00 til 19:00" |
| Dato og klokkeslæt | Varighed | "1 minut og 45 sekunder" |
| Dato og klokkeslæt | Sæt | "hver tirsdag" |
| URL | "https://www.bing.com" |
|
"support@microsoft.com" |
||
| Usa-baseret telefonnummer | "(312) 555-0176" | |
| IP-adresse | "10.0.1.125" |
Azure Language understøtter også entitetslinking for at hjælpe med at adskille entiteter ved at linke til en specifik reference. For genkendte enheder returnerer tjenesten en URL-adresse til en relevant Wikipedia- artikel.
For eksempel, antag at du bruger Azure Language til at opdage enheder i følgende restaurantanmeldelsesuddrag:
"jeg spiste på restauranten i Seattle i sidste uge."
| Enhed | Slags | Undertype | URL-adresse til Wikipedia |
|---|---|---|---|
| Seattle | Sted | https://en.wikipedia.org/wiki/Seattle | |
| Sidste uge | Dato og klokkeslæt | Datorange |
Sprogregistrering
Du kan identificere det sprog, teksten er skrevet på, med Azure Languages sprogdetektionsfunktion. For hvert dokument, der er sendt, registrerer tjenesten:
- Sprognavnet (f.eks. "engelsk").
- ISO 6391-sprogkoden (f.eks. "en").
- En score, der angiver et sikkerhedsniveau i registreringen af sprog.
Overvej f.eks. et scenarie, hvor du ejer og driver en restaurant. Kunderne kan gennemføre undersøgelser og give feedback om maden, tjenesten, personalet osv. Lad os antage, at du har modtaget følgende anmeldelser fra kunder:
Anmeldelse 1: "A fantastic place for lunch. The soup was delicious."
Anmeldelse 2: "Comida maravillosa y gran servicio."
Anmeldelse 3: "The croque monsieur avec frites was terrific. Bon appetit!"
Du kan bruge tekstanalysefunktionerne i Azure Language til at opdage sproget for hver af disse anmeldelser; og den kan svare med følgende resultater:
| Dokument | Sprognavn | ISO 6391-kode | Score |
|---|---|---|---|
| Gennemse 1 | Engelsk | en | 1.0 |
| Gennemse 2 | Spansk | Es | 1.0 |
| Gennemse 3 | Engelsk | en | 0.9 |
Bemærk, at det sprog, der registreres til gennemsyn 3, er engelsk på trods af den tekst, der indeholder en blanding af engelsk og fransk. Tjenesten til registrering af sprog fokuserer på det dominerende sprog i teksten. Tjenesten bruger en algoritme til at bestemme det fremherskende sprog, f.eks. længden af sætninger eller den samlede tekstmængde for sproget sammenlignet med andre sprog i teksten. Det fremherskende sprog er den værdi, der returneres sammen med sprogkoden. Konfidensscoren kan være mindre end 1 som følge af teksten på det blandede sprog.
Der kan være tekst, der er tvetydig i naturen, eller som har indhold på blandet sprog. Disse situationer kan udgøre en udfordring. Et tvetydigt indholdseksempel er et tilfælde, hvor dokumentet indeholder begrænset tekst eller kun tegnsætning. For eksempel resulterer brugen af Azure Language til at analysere teksten ":-)" i en værdi på ukendt for sprognavnet og sprogidentifikatoren, samt en score på NaN (som bruges til at angive ikke et tal).
Analyse af synspunkter og minedrift med mening
Tekstanalysefunktionerne i Azure Language kan evaluere tekst og returnere sentiment-scores og etiketter for hver sætning. Denne funktion er nyttig til at registrere positive og negative synspunkter på sociale medier, kundeanmeldelser, diskussionsforummer og meget mere.
Azure Language bruger en forudbygget maskinlæringsklassifikationsmodel til at evaluere teksten. Tjenesten returnerer synspunktsscore i tre kategorier: positiv, neutral og negativ. I hver af kategorierne angives der en score mellem 0 og 1. Scorer angiver, hvor sandsynligt det er, at den angivne tekst er et bestemt synspunkt. Der gives også ét dokument synspunkt.
Følgende to restaurantanmeldelser kan f.eks. analyseres for synspunkt:
anmeldelse 1: "Vi spiste middag på denne restaurant i går aftes, og det første, jeg bemærkede, var, hvor høfligt personalet var. Vi blev mødt på en venlig måde og ført til vores tabel med det samme. Bordet var rent, stolene var komfortable, og maden var fantastisk."
og
anmeldelse 2: "Vores spiseoplevelse på denne restaurant var en af de værste, jeg nogensinde har haft. Betjeningen var langsom, og maden var forfærdelig. Jeg vil aldrig spise på dette etablissement igen."
Synspunktsscoren for den første gennemgang kan være: Dokumentsynet: positiv positiv score: 0,90 Neutral score: 0,10 Negativ score: 0,00
Den anden gennemgang kan returnere et svar: Dokumentets synspunkt: negativ positiv score: 0,00 Neutral score: 0,00 Negativ score: 0,99
Udtrækning af nøgleudtryk
Udtræk af nøglesætning identificerer hovedpunkterne fra tekst. Overvej det tidligere diskuterede restaurantscenarie. Hvis du har et stort antal undersøgelser, kan det tage lang tid at læse anmeldelserne igennem. Du kan i stedet bruge funktionerne til udtræk af nøgleudtryk i tjenesten Language til at opsummere hovedpunkterne.
Du modtager muligvis en anmeldelse, f.eks.:
"Vi spiste middag her til en fødselsdagsfest og havde en fantastisk oplevelse. Vi blev mødt af en venlig værtinde og taget til vores tabel med det samme. Stemningen var afslappet, maden var fantastisk, og tjenesten var fantastisk. Hvis du kan lide god mad og opmærksom service, bør du prøve dette sted."
Udtræk af nøglesætning kan give en kontekst til denne gennemgang ved at udtrække følgende sætninger:
- fødselsdagsfest
- fantastisk oplevelse
- venlig værtinde
- god mad
- opmærksom service
- middag
- tabel
- miljø
- sted
Lad os dernæst se på Azure Languages konversations-AI-muligheder.