Cognitieve vaardigheid voor entiteitsherkenning (v3)

Met de vaardigheid Entity Recognition (v3) worden entiteiten van verschillende typen uit tekst geëxtraheerd. Deze entiteiten vallen onder 14 verschillende categorieën, variërend van personen en organisaties tot URL's en telefoonnummers. Deze vaardigheid maakt gebruik van de Machine Learning-modellen voor benoemde entiteitsherkenning die worden geleverd door Azure AI Language.

Notitie

Deze vaardigheid is gebonden aan Azure AI-services en vereist een factureerbare resource voor transacties die groter zijn dan 20 documenten per indexeerfunctie per dag. Voor de uitvoering van ingebouwde vaardigheden worden kosten in rekening gebracht voor de bestaande betalen per gebruik-prijs van Azure AI-services.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Gegevenslimieten

De maximale grootte van een record moet 50.000 tekens zijn, zoals gemeten door String.Length. Als u uw gegevens moet opsplitsen voordat u deze naar de vaardigheid EntityRecognition verzendt, kunt u overwegen de vaardigheid Tekst splitsen te gebruiken. Wanneer u een splitsvaardigheid gebruikt, stelt u de paginalengte in op 5000 voor de beste prestaties.

Vaardigheidsparameters

Parameters zijn hoofdlettergevoelig en zijn allemaal optioneel.

Parameternaam Beschrijving
categories Matrix van categorieën die moeten worden geëxtraheerd. Mogelijke categorietypen: "Person", , "Organization""Location", , "Quantity", "DateTime", "URL", "Email", , "Product""ipAddress""Event""Skill""Address""phoneNumber""personType" Als er geen categorie is opgegeven, worden alle typen geretourneerd.
defaultLanguageCode Taalcode van de invoertekst. Als de standaardtaalcode niet is opgegeven, wordt Engels (en) gebruikt als de standaardtaalcode.
Zie de volledige lijst met ondersteunde talen. Niet alle entiteitscategorieën worden ondersteund voor alle talen; zie de onderstaande opmerking.
minimumPrecision Een waarde tussen 0 en 1. Als de betrouwbaarheidsscore (in de namedEntities uitvoer) lager is dan deze waarde, wordt de entiteit niet geretourneerd. De standaardwaarde is 0.
modelVersion (Optioneel) Hiermee geeft u de versie van het model op die moet worden gebruikt bij het aanroepen van de API voor entiteitsherkenning. Deze wordt standaard ingesteld op de meest recente versie wanneer deze niet is opgegeven. U wordt aangeraden deze waarde niet op te geven, tenzij dit nodig is.

Invoer van vaardigheden

Invoernaam Beschrijving
languageCode Een tekenreeks die de taal van de records aangeeft. Als deze parameter niet is opgegeven, wordt de standaardtaalcode gebruikt om de records te analyseren.
Zie de volledige lijst met ondersteunde talen.
text De te analyseren tekst.

Uitvoer van vaardigheden

Notitie

Niet alle entiteitscategorieën worden ondersteund voor alle talen. Zie NER-entiteitscategorieën (Supported Named Entity Recognition) om te weten welke entiteitscategorieën worden ondersteund voor de taal die u gaat gebruiken.

Uitvoernaam Beschrijving
persons Een matrix met tekenreeksen waarbij elke tekenreeks de naam van een persoon vertegenwoordigt.
locations Een matrix met tekenreeksen waarbij elke tekenreeks een locatie vertegenwoordigt.
organizations Een matrix met tekenreeksen waarbij elke tekenreeks een organisatie vertegenwoordigt.
quantities Een matrix met tekenreeksen waarbij elke tekenreeks een hoeveelheid vertegenwoordigt.
dateTimes Een matrix met tekenreeksen waarbij elke tekenreeks een datum/tijd-waarde vertegenwoordigt (zoals deze in de tekst wordt weergegeven).
urls Een matrix met tekenreeksen waarbij elke tekenreeks een URL vertegenwoordigt
emails Een matrix van tekenreeksen waarbij elke tekenreeks een e-mail vertegenwoordigt
personTypes Een matrix met tekenreeksen waarbij elke tekenreeks een PersonType vertegenwoordigt
events Een matrix met tekenreeksen waarbij elke tekenreeks een gebeurtenis vertegenwoordigt
products Een matrix met tekenreeksen waarbij elke tekenreeks een product vertegenwoordigt
skills Een matrix met tekenreeksen waarbij elke tekenreeks een vaardigheid vertegenwoordigt
addresses Een matrix met tekenreeksen waarbij elke tekenreeks een adres vertegenwoordigt
phoneNumbers Een matrix met tekenreeksen waarbij elke tekenreeks een telefoonnummer vertegenwoordigt
ipAddresses Een matrix met tekenreeksen waarbij elke tekenreeks een IP-adres vertegenwoordigt
namedEntities Een matrix met complexe typen die de volgende velden bevatten:
  • category
  • Subcategorie
  • confidenceScore (Hogere waarde betekent dat het meer een echte entiteit is)
  • lengte (de lengte (aantal tekens) van deze entiteit)
  • offset (de locatie waar deze is gevonden in de tekst)
  • tekst (de werkelijke entiteitsnaam zoals deze wordt weergegeven in de tekst)

Voorbeelddefinitie

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Voorbeeldinvoer

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Voorbeelduitvoer

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

De offsets die worden geretourneerd voor entiteiten in de uitvoer van deze vaardigheid, worden rechtstreeks geretourneerd door de Language Service-API's. Dit betekent dat als u ze gebruikt om te indexeren in de oorspronkelijke tekenreeks, u de stringInfo-klasse in .NET moet gebruiken om de juiste inhoud te extraheren. Zie Ondersteuning voor meertalige en emoji's in taalservicefuncties voor meer informatie.

Waarschuwingscases

Als de taalcode voor het document niet wordt ondersteund, wordt er een waarschuwing geretourneerd en worden er geen entiteiten geëxtraheerd.

Zie ook