Kognitivní dovednost rozpoznávání entit (v3)

Dovednost Rozpoznávání entit (v3) extrahuje entity různých typů textu. Tyto entity spadají do 14 různých kategorií, od lidí a organizací až po adresy URL a telefonní čísla. Tato dovednost používá modely strojového učení pro rozpoznávání pojmenovaných entit, které poskytuje jazyk Azure AI.

Poznámka:

Tato dovednost je vázána na služby Azure AI a vyžaduje fakturovatelný prostředek pro transakce, které překračují 20 dokumentů na indexer za den. Provádění integrovaných dovedností se účtuje za stávající cenu průběžných plateb za služby Azure AI.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Omezení dat

Maximální velikost záznamu by měla být 50 000 znaků měřená String.Lengthhodnotou . Pokud potřebujete data před odesláním do dovednosti EntityRecognition rozdělit, zvažte použití dovednosti Rozdělení textu. Při použití rozdělené dovednosti nastavte délku stránky na 5000, aby byl nejlepší výkon.

Parametry dovedností

Parametry rozlišují malá a velká písmena a jsou všechny volitelné.

Název parametru Popis
categories Pole kategorií, které by se měly extrahovat. Možné typy kategorií: "Person", "Location", , "Organization", "DateTime""Quantity""personType""URL""Email", "Event", "Product", "Skill", "Address", , . "ipAddress""phoneNumber" Pokud není k dispozici žádná kategorie, vrátí se všechny typy.
defaultLanguageCode Kód jazyka vstupního textu Pokud není zadaný výchozí kód jazyka, použije se angličtina (en) jako výchozí kód jazyka.
Projděte si kompletní seznam podporovaných jazyků. Ne všechny kategorie entit jsou podporovány pro všechny jazyky; viz poznámka níže.
minimumPrecision Hodnota mezi 0 a 1. Pokud je skóre spolehlivosti (ve výstupu namedEntities ) nižší než tato hodnota, entita se nevrátí. Výchozí hodnota je 0.
modelVersion (Volitelné) Určuje verzi modelu, která se má použít při volání rozhraní API pro rozpoznávání entit. Pokud není zadaný, nastaví se výchozí hodnota na nejnovější dostupnou. Tuto hodnotu doporučujeme nezadávat, pokud není nutná.

Vstupy dovedností

Název vstupu Popis
languageCode Řetězec označující jazyk záznamů. Pokud tento parametr není zadaný, použije se k analýze záznamů výchozí kód jazyka.
Projděte si kompletní seznam podporovaných jazyků.
text Text, který chcete analyzovat.

Výstupy dovedností

Poznámka:

Ne všechny kategorie entit jsou podporované pro všechny jazyky. Informace o podporovaných kategoriích entit pro rozpoznávání pojmenovaných entit (NER) najdete v tématu Podporované kategorie entit pro jazyk, který budete používat.

Název výstupu Popis
persons Pole řetězců, kde každý řetězec představuje jméno osoby.
locations Pole řetězců, kde každý řetězec představuje umístění.
organizations Pole řetězců, ve kterých každý řetězec představuje organizaci.
quantities Pole řetězců, kde každý řetězec představuje množství.
dateTimes Pole řetězců, kde každý řetězec představuje hodnotu DateTime (jak se zobrazuje v textu).
urls Pole řetězců, kde každý řetězec představuje adresu URL
emails Pole řetězců, ve kterých každý řetězec představuje e-mail
personTypes Pole řetězců, kde každý řetězec představuje PersonType
events Pole řetězců, kde každý řetězec představuje událost
products Pole řetězců, kde každý řetězec představuje součin
skills Pole řetězců, kde každý řetězec představuje dovednost
addresses Pole řetězců, kde každý řetězec představuje adresu
phoneNumbers Pole řetězců, kde každý řetězec představuje telefonní číslo
ipAddresses Pole řetězců, kde každý řetězec představuje IP adresu
namedEntities Pole komplexních typů, které obsahuje následující pole:
  • category
  • Podkategorie
  • confidenceScore (vyšší hodnota znamená, že se jedná spíše o skutečnou entitu)
  • length (Délka (počet znaků) této entity)
  • posun (umístění, kde byl nalezen v textu)
  • text (skutečný název entity, jak se zobrazí v textu)

Ukázková definice

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Ukázkový vstup

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Ukázkový výstup

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Posuny vrácené entitami ve výstupu této dovednosti se vrátí přímo z rozhraní API služby jazyka, což znamená, že pokud je používáte k indexování do původního řetězce, měli byste k extrahování správného obsahu použít třídu StringInfo v .NET. Další informace najdete v tématu Podpora vícejazyčných a emoji ve funkcích služby Jazyk.

Případy upozornění

Pokud kód jazyka dokumentu není podporován, vrátí se upozornění a nebudou extrahovány žádné entity.

Viz také