Delen via


Cognitieve vaardigheid voor benoemde entiteitsherkenning (v2)

Met de vaardigheid Named Entity Recognition (v2) worden benoemde entiteiten uit tekst geëxtraheerd. Beschikbare entiteiten bevatten de typen personen location organization.

Belangrijk

Benoemde vaardigheid voor entiteitsherkenning (v2) (Microsoft.Skills.Text.NamedEntityRecognitionSkill) wordt nu stopgezet en vervangen door Microsoft.Skills.Text.V3.EntityRecognitionSkill. Volg de aanbevelingen in afgeschafte Azure AI Search-vaardigheden om te migreren naar een ondersteunde vaardigheid.

Notitie

Wanneer u het bereik uitbreidt door de verwerkingsfrequentie te verhogen, meer documenten toe te voegen of meer AI-algoritmen toe te voegen, moet u een factureerbare Azure AI-servicesresource koppelen. Er worden kosten in rekening gebracht bij het aanroepen van API's in Azure AI-services en voor het extraheren van afbeeldingen als onderdeel van de document krakende fase in Azure AI Search. Er worden geen kosten in rekening gebracht voor het extraheren van tekst uit documenten. Voor de uitvoering van ingebouwde vaardigheden worden kosten in rekening gebracht voor de bestaande betalen per gebruik-prijs van Azure AI-services.

Afbeeldingsextractie is een toeslag die wordt gemeten door Azure AI Search, zoals wordt beschreven op de pagina met prijzen. Tekstextractie is gratis.

@odata.type

Microsoft.Skills.Text.NamedEntityRecognitionSkill

Gegevenslimieten

De maximale grootte van een record moet 50.000 tekens zijn, zoals gemeten door String.Length. Als u uw gegevens wilt opsplitsen voordat u deze naar de sleuteltermextractor verzendt, kunt u overwegen de vaardigheid Tekst splitsen te gebruiken. Als u een vaardigheid voor tekstsplitsing gebruikt, stelt u de paginalengte in op 5000 voor de beste prestaties.

Vaardigheidsparameters

Parameters zijn hoofdlettergevoelig.

Parameternaam Beschrijving
categorieën Matrix van categorieën die moeten worden geëxtraheerd. Mogelijke categorietypen: "Person", "Location", "Organization". Als er geen categorie is opgegeven, worden alle typen geretourneerd.
defaultLanguageCode Taalcode van de invoertekst. De volgende talen worden ondersteund: de, en, es, fr, it
minimumPrecision Een getal tussen 0 en 1. Als de precisie lager is dan deze waarde, wordt de entiteit niet geretourneerd. De standaardwaarde is 0.

Invoer van vaardigheden

Invoernaam Beschrijving
languageCode Optioneel. Standaard is "en".
sms verzenden De te analyseren tekst.

Uitvoer van vaardigheden

Uitvoernaam Beschrijving
personen Een matrix met tekenreeksen waarbij elke tekenreeks de naam van een persoon vertegenwoordigt.
locaties Een matrix met tekenreeksen waarbij elke tekenreeks een locatie vertegenwoordigt.
organizations Een matrix met tekenreeksen waarbij elke tekenreeks een organisatie vertegenwoordigt.
entities Een matrix van complexe typen. Elk complex type bevat de volgende velden:
  • categorie ("person", "organization"of "location")
  • waarde (de werkelijke entiteitsnaam)
  • offset (de locatie waar deze is gevonden in de tekst)
  • betrouwbaarheid (een waarde tussen 0 en 1 die aangeeft dat de waarde een werkelijke entiteit is)

Voorbeelddefinitie

  {
    "@odata.type": "#Microsoft.Skills.Text.NamedEntityRecognitionSkill",
    "categories": [ "Person", "Location", "Organization"],
    "defaultLanguageCode": "en",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      }
    ]
  }

Voorbeeldinvoer

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia… Ana Smith is provided as a reference.",
             "languageCode": "en"
           }
      }
    ]
}

Voorbeelduitvoer

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "Joe Romero", "Ana Smith"],
        "locations": ["Chile", "Australia"],
        "organizations":["Microsoft"],
        "entities":  
        [
          {
            "category":"person",
            "value": "Joe Romero",
            "offset": 33,
            "confidence": 0.87
          },
          {
            "category":"person",
            "value": "Ana Smith",
            "offset": 124,
            "confidence": 0.87
          },
          {
            "category":"location",
            "value": "Chile",
            "offset": 88,
            "confidence": 0.99
          },
          {
            "category":"location",
            "value": "Australia",
            "offset": 112,
            "confidence": 0.99
          },
          {
            "category":"organization",
            "value": "Microsoft",
            "offset": 54,
            "confidence": 0.99
          }
        ]
      }
    }
  ]
}

Waarschuwingscases

Als de taalcode voor het document niet wordt ondersteund, wordt er een waarschuwing geretourneerd en worden er geen entiteiten geëxtraheerd.

Zie ook