Kognitivní dovednost rozpoznávání entit (v3)

Dovednost rozpoznávání entit (v3) extrahuje entity různých typů z textu. Tyto entity spadají do 14 různých kategorií, od lidí a organizací po adresy URL a telefonní čísla. Tato dovednost používá modely strojového učení rozpoznávání pojmenovaných entit poskytované službou Azure Cognitive Services pro jazyk.

Poznámka

Tato dovednost je vázána ke službám Cognitive Services a vyžaduje fakturovatelný prostředek pro transakce, které překračují 20 dokumentů na indexer za den. Provádění předdefinovaných dovedností se účtuje za stávající cenu průběžných plateb služeb Cognitive Services.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Omezení dat

Maximální velikost záznamu by měla být 50 000 znaků měřená hodnotou String.Length. Pokud potřebujete data před odesláním do dovednosti EntityRecognition rozdělit, zvažte použití dovednosti Rozdělení textu.

Parametry dovednosti

Parametry jsou citlivé na malá a velká písmena a všechny jsou volitelné.

Název parametru Description
categories Pole kategorií, které by se měly extrahovat. Možné typy kategorií: "Person", , "Organization""Location""Quantity", "DateTime", "URL", "Event""personType""Email""Skill""Address""Product", . "ipAddress""phoneNumber" Pokud není k dispozici žádná kategorie, vrátí se všechny typy.
defaultLanguageCode Kód jazyka vstupního textu. Pokud není zadaný výchozí kód jazyka, použije se jako výchozí kód jazyka angličtina (en).
Podívejte se na úplný seznam podporovaných jazyků. Pro všechny jazyky nejsou podporované všechny kategorie entit; viz poznámka níže.
minimumPrecision Hodnota mezi 0 a 1. Pokud je skóre spolehlivosti (ve výstupu namedEntities ) nižší než tato hodnota, entita se nevrátí. Výchozí hodnota je 0.
modelVersion (Volitelné) Určuje verzi modelu , která se má použít při volání rozhraní API pro rozpoznávání entit. Pokud není zadaný, výchozí hodnota bude mít nejnovější dostupnou hodnotu. Tuto hodnotu doporučujeme nezadávat, pokud není nutná.

Vstupy dovedností

Název vstupu Description
languageCode Řetězec označující jazyk záznamů. Pokud tento parametr není zadaný, použije se k analýze záznamů výchozí kód jazyka.
Podívejte se na úplný seznam podporovaných jazyků.
text Text, který chcete analyzovat.

Výstupy dovedností

Poznámka

Všechny kategorie entit nejsou podporované pro všechny jazyky. Informace o podporovaných kategoriích entit pro rozpoznávání pojmenovaných entit (NER) najdete v tématech podporovaných pro jazyk, který budete používat.

Název výstupu Description
persons Pole řetězců, kde každý řetězec představuje jméno osoby.
locations Pole řetězců, kde každý řetězec představuje umístění.
organizations Pole řetězců, ve kterých každý řetězec představuje organizaci.
quantities Pole řetězců, kde každý řetězec představuje množství.
dateTimes Pole řetězců, ve kterých každý řetězec představuje hodnotu DateTime (jak se zobrazí v textu).
urls Pole řetězců, kde každý řetězec představuje adresu URL
emails Pole řetězců, ve kterých každý řetězec představuje e-mail
personTypes Pole řetězců, kde každý řetězec představuje PersonType
events Pole řetězců, kde každý řetězec představuje událost
products Pole řetězců, ve kterých každý řetězec představuje produkt
skills Pole řetězců, kde každý řetězec představuje dovednost
addresses Pole řetězců, kde každý řetězec představuje adresu
phoneNumbers Pole řetězců, kde každý řetězec představuje telefonní číslo
ipAddresses Pole řetězců, kde každý řetězec představuje IP adresu
namedEntities Pole komplexních typů obsahujících následující pole:
  • category
  • Podkategorie
  • confidenceScore (vyšší hodnota znamená, že se jedná o skutečnou entitu)
  • length (Délka (počet znaků) této entity)
  • posun (umístění, kde byl nalezen v textu)
  • text (skutečný název entity, jak se zobrazí v textu)

Ukázková definice

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Ukázkový vstup

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Ukázkový výstup

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Posuny vrácené pro entity ve výstupu této dovednosti se vrátí přímo z rozhraní API služby Language Service, což znamená, že pokud je používáte k indexování do původního řetězce, měli byste použít třídu StringInfo v .NET k extrahování správného obsahu. Další informace najdete v tématu Podpora vícejazyčných a emoji v funkcích služeb jazyka.

Případy upozornění

Pokud kód jazyka pro dokument není podporován, vrátí se upozornění a nebudou extrahovány žádné entity.

Viz také