Sdílet prostřednictvím


Kognitivní dovednost rozpoznávání entit (v2)

Dovednost Rozpoznávání entit (v2) extrahuje entity různých typů z textu. Tato dovednost využívá modely strojového učení poskytované Analýza textu ve službách Azure AI.

Důležité

Dovednost Rozpoznávání entit (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) je nyní ukončena nahrazením Microsoft.Skills.Text.V3.EntityRecognitionSkill. Pokud chcete migrovat na podporovanou dovednost, postupujte podle doporučení v zastaralých dovednostech .

Poznámka:

Když rozšiřujete rozsah zvýšením frekvence zpracování, přidáním dalších dokumentů nebo přidáním dalších algoritmů AI, budete muset připojit fakturovatelný prostředek služeb Azure AI. Poplatky se účtují při volání rozhraní API ve službách Azure AI a extrakce obrázků v rámci fáze prolomení dokumentů ve službě Azure AI Search. Za extrakci textu z dokumentů se neúčtují žádné poplatky.

Provádění integrovaných dovedností se účtuje za stávající cenu průběžných plateb za služby Azure AI. Ceny extrakce obrázků jsou popsané na stránce s cenami služby Azure AI Search.

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkill

Omezení dat

Maximální velikost záznamu by měla být 50 000 znaků měřená String.Lengthhodnotou . Pokud potřebujete data před odesláním do extraktoru klíčových frází rozdělit, zvažte použití dovednosti Rozdělení textu. Pokud používáte dovednost rozdělení textu, nastavte délku stránky na 5 000 pro nejlepší výkon.

Parametry dovedností

Parametry rozlišují malá a velká písmena a jsou všechny volitelné.

Název parametru Popis
categories Pole kategorií, které by se měly extrahovat. Možné typy kategorií: "Person", "Location", "Organization", "Quantity""Datetime", , "URL". "Email" Pokud není k dispozici žádná kategorie, vrátí se všechny typy.
defaultLanguageCode Kód jazyka vstupního textu Podporují se následující jazyky: ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans. Ne všechny kategorie entit jsou podporovány pro všechny jazyky; viz poznámka níže.
minimumPrecision Hodnota mezi 0 a 1. Pokud je skóre spolehlivosti (ve výstupu namedEntities ) nižší než tato hodnota, entita se nevrátí. Výchozí hodnota je 0.
includeTypelessEntities Nastavte, true pokud chcete rozpoznat dobře známé entity, které neodpovídají aktuálním kategoriím. Rozpoznané entity se vrátí do komplexního výstupního entities pole. Například "Windows 10" je dobře známá entita (produkt), ale protože "Produkty" není podporovaná kategorie, tato entita by byla zahrnuta do výstupního pole entit. Výchozí hodnota je false

Vstupy dovedností

Název vstupu Popis
languageCode Nepovinné. Výchozí hodnota je "en".
text Text, který chcete analyzovat.

Výstupy dovedností

Poznámka:

Ne všechny kategorie entit jsou podporované pro všechny jazyky. Typy "Person"kategorií , "Location"a "Organization" entit jsou podporovány pro úplný seznam jazyků výše. Pouze de, en, es, fr a zh-hans podporují extrakci "Quantity", "Datetime", "URL"a "Email" typů. Další informace najdete v tématu Podpora jazyka a oblasti pro rozhraní ANALÝZA TEXTU API.

Název výstupu Popis
persons Pole řetězců, kde každý řetězec představuje jméno osoby.
locations Pole řetězců, kde každý řetězec představuje umístění.
organizations Pole řetězců, ve kterých každý řetězec představuje organizaci.
quantities Pole řetězců, kde každý řetězec představuje množství.
dateTimes Pole řetězců, kde každý řetězec představuje hodnotu DateTime (jak se zobrazuje v textu).
urls Pole řetězců, kde každý řetězec představuje adresu URL
emails Pole řetězců, ve kterých každý řetězec představuje e-mail
namedEntities Pole komplexních typů, které obsahuje následující pole:
  • category
  • value (skutečný název entity)
  • posun (umístění, kde byl nalezen v textu)
  • confidence (Vyšší hodnota znamená, že se jedná o skutečnou entitu)
entities Pole komplexních typů obsahující bohaté informace o entitách extrahovaných z textu s následujícími poli
  • name (skutečný název entity. Představuje "normalizovaný" formulář)
  • wikipediaId
  • wikipediaLanguage
  • wikipediaUrl (odkaz na stránku Wikipedie pro entitu)
  • bingId
  • type (kategorie rozpoznané entity)
  • subType (k dispozici pouze pro určité kategorie, poskytuje podrobnější zobrazení typu entity).
  • odpovídá (složitá kolekce, která obsahuje)
    • text (nezpracovaný text entity)
    • posun (umístění, kde byl nalezen)
    • délka (délka nezpracovaného textu entity)

Ukázková definice

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "minimumPrecision": 0.5,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

Ukázkový vstup

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Ukázkový výstup

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": 0.98
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

Všimněte si, že posuny vrácené entitami ve výstupu této dovednosti jsou přímo vráceny z rozhraní ANALÝZA TEXTU API, což znamená, že pokud je používáte k indexování do původního řetězce, měli byste k extrahování správného obsahu použít třídu StringInfo v .NET. Další podrobnosti najdete tady.

Případy upozornění

Pokud kód jazyka dokumentu není podporován, vrátí se upozornění a nebudou extrahovány žádné entity.

Viz také