Kognitivní dovednost rozpoznávání entit (v3)

Článek
10/20/2023

Dovednost Rozpoznávání entit (v3) extrahuje entity různých typů textu. Tyto entity spadají do 14 různých kategorií, od lidí a organizací až po adresy URL a telefonní čísla. Tato dovednost používá modely strojového učení pro rozpoznávání pojmenovaných entit, které poskytuje jazyk Azure AI.

Poznámka:

Tato dovednost je vázána na služby Azure AI a vyžaduje fakturovatelný prostředek pro transakce, které překračují 20 dokumentů na indexer za den. Provádění integrovaných dovedností se účtuje za stávající cenu průběžných plateb za služby Azure AI.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Omezení dat

Maximální velikost záznamu by měla být 50 000 znaků měřená String.Lengthhodnotou . Pokud potřebujete data před odesláním do dovednosti EntityRecognition rozdělit, zvažte použití dovednosti Rozdělení textu. Při použití rozdělené dovednosti nastavte délku stránky na 5000, aby byl nejlepší výkon.

Parametry dovedností

Parametry rozlišují malá a velká písmena a jsou všechny volitelné.

Název parametru	Popis
`categories`	Pole kategorií, které by se měly extrahovat. Možné typy kategorií: `"Person"`, `"Location"`, , `"Organization"`, `"DateTime""Quantity""personType""URL""Email"`, `"Event"`, `"Product"`, `"Skill"`, `"Address"`, , . `"ipAddress""phoneNumber"` Pokud není k dispozici žádná kategorie, vrátí se všechny typy.
`defaultLanguageCode`	Kód jazyka vstupního textu Pokud není zadaný výchozí kód jazyka, použije se angličtina (en) jako výchozí kód jazyka. Projděte si kompletní seznam podporovaných jazyků. Ne všechny kategorie entit jsou podporovány pro všechny jazyky; viz poznámka níže.
`minimumPrecision`	Hodnota mezi 0 a 1. Pokud je skóre spolehlivosti (ve výstupu `namedEntities` ) nižší než tato hodnota, entita se nevrátí. Výchozí hodnota je 0.
`modelVersion`	(Volitelné) Určuje verzi modelu, která se má použít při volání rozhraní API pro rozpoznávání entit. Pokud není zadaný, nastaví se výchozí hodnota na nejnovější dostupnou. Tuto hodnotu doporučujeme nezadávat, pokud není nutná.

Vstupy dovedností

Název vstupu	Popis
`languageCode`	Řetězec označující jazyk záznamů. Pokud tento parametr není zadaný, použije se k analýze záznamů výchozí kód jazyka. Projděte si kompletní seznam podporovaných jazyků.
`text`	Text, který chcete analyzovat.

Výstupy dovedností

Poznámka:

Ne všechny kategorie entit jsou podporované pro všechny jazyky. Informace o podporovaných kategoriích entit pro rozpoznávání pojmenovaných entit (NER) najdete v tématu Podporované kategorie entit pro jazyk, který budete používat.

Název výstupu	Popis
`persons`	Pole řetězců, kde každý řetězec představuje jméno osoby.
`locations`	Pole řetězců, kde každý řetězec představuje umístění.
`organizations`	Pole řetězců, ve kterých každý řetězec představuje organizaci.
`quantities`	Pole řetězců, kde každý řetězec představuje množství.
`dateTimes`	Pole řetězců, kde každý řetězec představuje hodnotu DateTime (jak se zobrazuje v textu).
`urls`	Pole řetězců, kde každý řetězec představuje adresu URL
`emails`	Pole řetězců, ve kterých každý řetězec představuje e-mail
`personTypes`	Pole řetězců, kde každý řetězec představuje PersonType
`events`	Pole řetězců, kde každý řetězec představuje událost
`products`	Pole řetězců, kde každý řetězec představuje součin
`skills`	Pole řetězců, kde každý řetězec představuje dovednost
`addresses`	Pole řetězců, kde každý řetězec představuje adresu
`phoneNumbers`	Pole řetězců, kde každý řetězec představuje telefonní číslo
`ipAddresses`	Pole řetězců, kde každý řetězec představuje IP adresu
`namedEntities`	Pole komplexních typů, které obsahuje následující pole: category Podkategorie confidenceScore (vyšší hodnota znamená, že se jedná spíše o skutečnou entitu) length (Délka (počet znaků) této entity) posun (umístění, kde byl nalezen v textu) text (skutečný název entity, jak se zobrazí v textu)

Ukázková definice

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Ukázkový vstup

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Ukázkový výstup

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Posuny vrácené entitami ve výstupu této dovednosti se vrátí přímo z rozhraní API služby jazyka, což znamená, že pokud je používáte k indexování do původního řetězce, měli byste k extrahování správného obsahu použít třídu StringInfo v .NET. Další informace najdete v tématu Podpora vícejazyčných a emoji ve funkcích služby Jazyk.

Případy upozornění

Pokud kód jazyka dokumentu není podporován, vrátí se upozornění a nebudou extrahovány žádné entity.

Sdílet prostřednictvím