Delen via


Cognitieve vaardigheid voor entiteitsherkenning (v2)

Met de vaardigheid Voor entiteitsherkenning (v2) worden entiteiten van verschillende typen uit tekst geëxtraheerd. Deze vaardigheid maakt gebruik van de machine learning-modellen die worden geleverd door Text Analytics in Azure AI-services.

Belangrijk

De vaardigheid Entity Recognition (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) wordt nu stopgezet en vervangen door Microsoft.Skills.Text.V3.EntityRecognitionSkill. Volg de aanbevelingen in afgeschafte vaardigheden om te migreren naar een ondersteunde vaardigheid.

Notitie

Wanneer u het bereik uitbreidt door de verwerkingsfrequentie te verhogen, meer documenten toe te voegen of meer AI-algoritmen toe te voegen, moet u een factureerbare Azure AI-servicesresource koppelen. Er worden kosten in rekening gebracht bij het aanroepen van API's in Azure AI-services en voor het extraheren van afbeeldingen als onderdeel van de document krakende fase in Azure AI Search. Er worden geen kosten in rekening gebracht voor het extraheren van tekst uit documenten.

Voor de uitvoering van ingebouwde vaardigheden worden kosten in rekening gebracht voor de bestaande betalen per gebruik-prijs van Azure AI-services. Prijzen voor afbeeldingextractie worden beschreven op de pagina met prijzen van Azure AI Search.

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkill

Gegevenslimieten

De maximale grootte van een record moet 50.000 tekens zijn, zoals gemeten door String.Length. Als u uw gegevens wilt opsplitsen voordat u deze naar de sleuteltermextractor verzendt, kunt u overwegen de vaardigheid Tekst splitsen te gebruiken. Als u een vaardigheid voor tekstsplitsing gebruikt, stelt u de paginalengte in op 5000 voor de beste prestaties.

Vaardigheidsparameters

Parameters zijn hoofdlettergevoelig en zijn allemaal optioneel.

Parameternaam Beschrijving
categories Matrix van categorieën die moeten worden geëxtraheerd. Mogelijke categorietypen: "Person", , "Organization""Location", "Quantity", , "Datetime", "URL". "Email" Als er geen categorie is opgegeven, worden alle typen geretourneerd.
defaultLanguageCode Taalcode van de invoertekst. De volgende talen worden ondersteund: ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans. Niet alle entiteitscategorieën worden ondersteund voor alle talen; zie de onderstaande opmerking.
minimumPrecision Een waarde tussen 0 en 1. Als de betrouwbaarheidsscore (in de namedEntities uitvoer) lager is dan deze waarde, wordt de entiteit niet geretourneerd. De standaardwaarde is 0.
includeTypelessEntities Stel deze true optie in als u bekende entiteiten wilt herkennen die niet in de huidige categorieën passen. Herkende entiteiten worden geretourneerd in het entities complexe uitvoerveld. 'Windows 10' is bijvoorbeeld een bekende entiteit (een product), maar omdat 'Producten' geen ondersteunde categorie is, wordt deze entiteit opgenomen in het uitvoerveld van de entiteiten. Standaard is false

Invoer van vaardigheden

Invoernaam Beschrijving
languageCode Optioneel. Standaard is "en".
text De te analyseren tekst.

Uitvoer van vaardigheden

Notitie

Niet alle entiteitscategorieën worden ondersteund voor alle talen. De "Person"typen , "Location"en "Organization" entiteitscategorie worden ondersteund voor de volledige lijst met talen hierboven. Alleen de, en, es, fr en zh-hans ondersteunen extractie van "Quantity", "Datetime", , "URL"en "Email" typen. Zie Taal- en regioondersteuning voor de Text Analytics-API voor meer informatie.

Uitvoernaam Beschrijving
persons Een matrix met tekenreeksen waarbij elke tekenreeks de naam van een persoon vertegenwoordigt.
locations Een matrix met tekenreeksen waarbij elke tekenreeks een locatie vertegenwoordigt.
organizations Een matrix met tekenreeksen waarbij elke tekenreeks een organisatie vertegenwoordigt.
quantities Een matrix met tekenreeksen waarbij elke tekenreeks een hoeveelheid vertegenwoordigt.
dateTimes Een matrix met tekenreeksen waarbij elke tekenreeks een datum/tijd-waarde vertegenwoordigt (zoals deze in de tekst wordt weergegeven).
urls Een matrix met tekenreeksen waarbij elke tekenreeks een URL vertegenwoordigt
emails Een matrix van tekenreeksen waarbij elke tekenreeks een e-mail vertegenwoordigt
namedEntities Een matrix met complexe typen die de volgende velden bevatten:
  • category
  • waarde (de werkelijke naam van de entiteit)
  • offset (de locatie waar deze is gevonden in de tekst)
  • betrouwbaarheid (hogere waarde betekent dat het meer een echte entiteit is)
entities Een matrix van complexe typen die uitgebreide informatie bevatten over de entiteiten die zijn geëxtraheerd uit tekst, met de volgende velden
  • naam (de werkelijke entiteitsnaam. Dit vertegenwoordigt een genormaliseerd formulier)
  • wikipediaId
  • wikipediaLanguage
  • wikipediaUrl (een koppeling naar Wikipedia-pagina voor de entiteit)
  • bingId
  • type (de categorie van de herkende entiteit)
  • subType (alleen beschikbaar voor bepaalde categorieën, dit geeft een gedetailleerdere weergave van het entiteitstype)
  • komt overeen (een complexe verzameling die bevat)
    • tekst (de onbewerkte tekst voor de entiteit)
    • offset (de locatie waar deze is gevonden)
    • lengte (de lengte van de onbewerkte entiteitstekst)

Voorbeelddefinitie

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "minimumPrecision": 0.5,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

Voorbeeldinvoer

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Voorbeelduitvoer

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": 0.98
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

Houd er rekening mee dat de offsets die worden geretourneerd voor entiteiten in de uitvoer van deze vaardigheid rechtstreeks worden geretourneerd vanuit de Text Analytics-API. Dit betekent dat als u ze gebruikt om te indexeren in de oorspronkelijke tekenreeks, u de klasse StringInfo in .NET moet gebruiken om de juiste inhoud te extraheren. Meer informatie vindt u hier.

Waarschuwingscases

Als de taalcode voor het document niet wordt ondersteund, wordt er een waarschuwing geretourneerd en worden er geen entiteiten geëxtraheerd.

Zie ook