Aan de slag met tekstanalyse
Azure AI Language maakt deel uit van de Azure AI-services die geavanceerde verwerking van natuurlijke taal kunnen uitvoeren op ongestructureerde tekst. De functies voor tekstanalyse van Azure AI Language zijn onder andere:
- Herkenning van benoemde entiteiten identificeert personen, plaatsen, gebeurtenissen en meer. Deze functie kan ook worden aangepast om aangepaste categorieën te extraheren.
- Entiteitskoppeling identificeert bekende entiteiten samen met een koppeling naar Wikipedia.
- De detectie van persoonlijke identificatiegegevens (PII) identificeert persoonlijke gevoelige informatie, waaronder persoonlijke gezondheidsinformatie (PHI).
- Taaldetectie identificeert de taal van de tekst en retourneert een taalcode, zoals 'en' voor engels.
- Sentimentanalyse en meninganalyse geeft aan of tekst positief of negatief is.
- Samenvatting geeft een overzicht van de tekst door de belangrijkste informatie te identificeren.
- Sleuteltermextractie bevat de belangrijkste concepten van ongestructureerde tekst.
Entiteitsherkenning en -koppeling
U kunt Azure AI Language voorzien van ongestructureerde tekst en er wordt een lijst met entiteiten geretourneerd in de tekst die wordt herkend. Een entiteit is een item van een bepaald type of een categorie; en in sommige gevallen subtype, zoals in de volgende tabel.
Type | Subtype | voorbeeld |
---|---|---|
Persoon | "Bill Gates", "John" | |
Locatie | "Parijs", "New York" | |
Organisatie | "Microsoft" | |
Aantal | Aantal | "6" of "zes" |
Aantal | Percentage | "25%" of "vijftig procent" |
Aantal | Rangtelwoord | "1e" of "eerste" |
Aantal | Leeftijd | "90 dagen oud" of "30 jaar oud" |
Aantal | Valuta | "10,99%" |
Aantal | Dimensie | "10 kilometer", "40 cm" |
Aantal | Temperatuur | "45 graden" |
Datum/tijd | "6:30 4 februari 2012" | |
Datum/tijd | Datum | "2 mei 2017" of "02-05-2017" |
Datum/tijd | Tijd | "8 AM" of "8:00" |
Datum/tijd | DateRange | "van 2 mei tot 5 mei" |
Datum/tijd | TimeRange | "van 18:00 uur tot 19.00 uur" |
Datum/tijd | Duur | "1 minuut en 45 seconden" |
Datum/tijd | Instellen | "elke dinsdag" |
URL | "https://www.bing.com " |
|
"support@microsoft.com " |
||
Telefoonnummer (NL) | "010-1234567" | |
IP-adres | "10.0.1.125" |
Azure AI Language biedt ook ondersteuning voor entiteitskoppelingen om entiteiten ondubbelzinnig te maken door een koppeling naar een specifieke verwijzing te maken. Voor erkende entiteiten retourneert de service een URL van een relevant Wikipedia-artikel.
Stel dat u Azure AI Language gebruikt om entiteiten te detecteren in het volgende restaurantbeoordelingsextract:
"Vorige week heb ik in het restaurant in Seattle gegeven."
Entity | Type | Subtype | Wikipedia-URL |
---|---|---|---|
Seattle | Locatie | https://en.wikipedia.org/wiki/Seattle | |
vorige week | Datum/tijd | DateRange |
Taaldetectie
Gebruik de mogelijkheid voor taaldetectie van Azure AI Language om de taal te identificeren waarin tekst wordt geschreven. U kunt meerdere documenten tegelijk verzenden voor analyse. Voor elk verzonden document detecteert de service het volgende:
- De naam van de taal (bijvoorbeeld "Engels").
- De ISO 639-1-taalcode (bijvoorbeeld 'en').
- Een score die een vertrouwensniveau voor de taaldetectie aangeeft.
Denk bijvoorbeeld aan het scenario dat u de eigenaar bent van een restaurant en dat klanten enquêtes kunnen invullen en feedback kunnen geven op het eten, de service, het personeel, enzovoort. Stel dat u de volgende beoordelingen van klanten hebt ontvangen:
Bekijk 1: "Een fantastische plek voor de lunch. De soep was heerlijk.'
Beoordeling 2: "Comida maravillosa y gran servicio."
Beoordeling 3: "De croque monsieur avec frites was geweldig. Bon appetit!"
U kunt de mogelijkheden voor tekstanalyse in Azure AI Language gebruiken om de taal van deze beoordelingen te detecteren; en het kan reageren met de volgende resultaten:
Document | Naam van de taal | ISO 6391 Code | Score |
---|---|---|---|
Beoordeling 1 | English | en | 1.0 |
Beoordeling 2 | Spaans | es | 1.0 |
Beoordeling 3 | English | en | 0,9 |
U ziet dat de taal die voor beoordeling 3 is gedetecteerd Engels is, ondanks dat de tekst een mix is van Engels en Frans. De taaldetectieservice is gericht op de overheersende taal in de tekst. De service gebruikt een algoritme om de overheersende taal te bepalen, zoals de lengte van woordgroepen of de totale hoeveelheid tekst voor de taal vergeleken met andere talen in de tekst. De overheersende taal is de geretourneerde waarde, samen met de taalcode. De betrouwbaarheidsscore kan kleiner zijn dan 1 als gevolg van de tekst in gemengde taal.
Er kan sprake zijn van dubbelzinnige tekst of inhoud in gemengde taal. Deze situaties kunnen een uitdaging opleveren. Een voorbeeld van ambigue inhoud is een document dat maar weinig tekst bevat of alleen leestekens. Als u bijvoorbeeld Azure AI Language gebruikt om de tekst ':-)' te analyseren, resulteert dit in een waarde van onbekend voor de taalnaam en de taal-id, en een score van NaN (die wordt gebruikt om geen getal aan te geven).
Sentimentanalyse en meninganalyse
Met de mogelijkheden voor tekstanalyse in Azure AI Language kunt u tekst evalueren en gevoelsscores en labels voor elke zin retourneren. Deze mogelijkheid is handig voor het detecteren van positief en negatief sentiment in sociale media, beoordelingen van klanten, discussieforums en meer.
Azure AI Language maakt gebruik van een vooraf samengesteld machine learning-classificatiemodel om de tekst te evalueren. De service retourneert sentimentscores in drie categorieën: positief, neutraal en negatief. In elk van de categorieën wordt een score tussen 0 en 1 opgegeven. Scores geven aan hoe waarschijnlijk de opgegeven tekst een bepaald gevoel is. Er wordt ook één document sentiment gegeven.
De volgende twee restaurantbeoordelingen kunnen bijvoorbeeld worden geanalyseerd op sentiment:
Beoordeling 1: "We hadden gisteravond een diner in dit restaurant en het eerste wat ik zag was hoe beleefd het personeel was. We werden begroet op een vriendelijke manier en direct naar onze tafel gebracht. De tafel was schoon, de stoelen waren comfortabel en het eten was geweldig.'
en
Beoordeling 2: "Onze eetervaring in dit restaurant was een van de slechtste die ik ooit heb gehad. De service was traag en het eten was verschrikkelijk. Ik eet nooit meer in deze inrichting.'
De gevoelsscore voor de eerste beoordeling kan zijn: Document sentiment: positieve positieve score: .90 Neutrale score: .10 Negatieve score: .00
De tweede beoordeling kan een antwoord retourneren: Gevoel van document: negatief positief: .00 Neutrale score: .00 Negatieve score: .99
Sleuteltermextractie
Sleuteltermextractie identificeert de belangrijkste punten uit tekst. Bekijk het eerder beschreven restaurantscenario. Als u een groot aantal enquêtes hebt, kan het lang duren om de beoordelingen te lezen. In plaats daarvan kunt u de sleuteltermextractiemogelijkheden van de Taalservice gebruiken om de belangrijkste punten samen te vatten.
Stel, u ontvangt de beoordeling:
"We hadden hier een diner voor een verjaardagsfeest en hadden een fantastische ervaring. We werden begroet door een vriendelijke gastvrouw en meteen naar onze tafel gebracht. De sfeer was ontspannen, het eten was geweldig en service was geweldig. Als je van heerlijk eten en attente service houdt, moet je deze plek proberen.'
Met sleuteltermextractie kan enige context aan deze beoordeling worden gegeven door de volgende sleuteltermen te extraheren:
- verjaardagsfeest
- geweldige ervaring
- vriendelijke gastvrouw
- lekker eten
- attente bediening
- gegeten
- table
- sfeer
- restaurant
Naast het gebruik van sentimentanalyse om te bepalen dat dit een positieve beoordeling is, kunt u ook de sleuteltermservice gebruiken om belangrijke elementen van de beoordeling te identificeren.
Een resource maken voor Azure AI Language
Als u Azure AI Language in een toepassing wilt gebruiken, moet u een geschikte resource inrichten in uw Azure-abonnement. U kunt een van de volgende typen resources kiezen:
- Een taalresource : kies dit resourcetype als u alleen Azure AI Language-services wilt gebruiken of als u de toegang en facturering voor de resource afzonderlijk van andere services wilt beheren.
- Een Azure AI-servicesresource : kies dit resourcetype als u Azure AI Language wilt gebruiken in combinatie met andere Azure AI-services en u de toegang en facturering voor deze services samen wilt beheren.