Megosztás a következőn keresztül:


Entitásfelismerési kognitív képesség (v2)

Az Entitásfelismerési képesség (v2) különböző típusú entitásokat nyer ki a szövegből. Ez a képesség a Text Analytics által az Azure AI-szolgáltatásokban biztosított gépi tanulási modelleket használja.

Fontos

Az entitásfelismerési képesség (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) helyébe a Microsoft.Skills.Text.V3.EntityRecognitionSkill lép. Kövesse az elavult készségekre vonatkozó javaslatokat a támogatott készségekre való migráláshoz.

Feljegyzés

Amikor kibővíti a hatókört a feldolgozás gyakoriságának növelésével, további dokumentumok hozzáadásával vagy több AI-algoritmus hozzáadásával, csatolnia kell egy számlázható Azure AI-szolgáltatási erőforrást. Díjak merülnek fel az API-k Azure AI-szolgáltatásokban való meghívásakor, valamint az Azure AI Search dokumentumrektorálási szakaszának részeként történő képkinyerésért. A dokumentumok szövegének kinyerése nem jár díjjal.

A beépített készségek végrehajtásáért a meglévő Azure AI-szolgáltatások standard áron kell fizetni. A rendszerkép-kinyerési díjszabást az Azure AI Search díjszabási oldalán ismertetjük.

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkill

Adatkorlátok

A rekord maximális méretének 50 000 karakternek kell lennie a mért érték szerint String.Length. Ha fel kell bontania az adatokat, mielőtt elküldené azokat a kulcskifejezés-kinyerőnek, fontolja meg a Szöveg felosztása készség használatát. Ha szöveges felosztási készséget használ, állítsa az oldalhosszt 5000-re a legjobb teljesítmény érdekében.

Képességparaméterek

A paraméterek megkülönböztetik a kis- és nagybetűket, és nem kötelezőek.

Paraméter neve Leírás
categories A kinyerni kívánt kategóriák tömbje. Lehetséges kategóriatípusok: "Person", "Location", "Organization", "Quantity", "Datetime", "URL". "Email" Ha nincs megadva kategória, a rendszer minden típust visszaad.
defaultLanguageCode A bemeneti szöveg nyelvi kódja. A következő nyelvek támogatottak: ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans. Nem minden entitáskategória támogatott minden nyelv esetében; lásd az alábbi megjegyzést.
minimumPrecision 0 és 1 közötti érték. Ha a megbízhatósági pontszám (a namedEntities kimenetben) alacsonyabb ennél az értéknél, az entitás nem lesz visszaadva. Az alapértelmezett érték a 0.
includeTypelessEntities true Ha olyan jól ismert entitásokat szeretne felismerni, amelyek nem felelnek meg az aktuális kategóriáknak. A felismert entitások a entities komplex kimeneti mezőben jelennek meg. A "Windows 10" például egy jól ismert entitás (termék), de mivel a "Termékek" nem támogatott kategória, ez az entitás szerepelne az entitások kimeneti mezőjében. Az alapértelmezett érték false

Készségbemenetek

Bemeneti név Leírás
languageCode Opcionális. Az alapértelmezett szint a "en".
text Az elemezni kívánt szöveg.

Képességkimenetek

Feljegyzés

Nem minden entitáskategória támogatott minden nyelv esetében. A "Person"fenti nyelvek teljes listája támogatja a , "Location"és "Organization" az entitás kategóriatípusokat. Csak a de, en, es, fr és zh-hans támogatja a , "Quantity", "Datetime"és "URL" típusok kinyerását"Email". További információ: Language and region support for the Text Analytics API.

Kimeneti név Leírás
persons Sztringek tömbje, ahol minden sztring egy személy nevét jelöli.
locations Sztringek tömbje, ahol minden sztring egy helyet jelöl.
organizations Sztringek tömbje, ahol minden sztring egy szervezetet jelöl.
quantities Sztringek tömbje, ahol minden sztring egy mennyiséget jelöl.
dateTimes Sztringek tömbje, ahol az egyes sztringek dátum/idő értéket jelölnek (ahogy az a szövegben is megjelenik).
urls Sztringek tömbje, ahol minden sztring EGY URL-címet jelöl
emails Sztringek tömbje, ahol minden sztring egy e-mailt jelöl
namedEntities Összetett típusok tömbje, amely a következő mezőket tartalmazza:
  • kategória
  • érték (A tényleges entitás neve)
  • eltolás (Az a hely, ahol a szövegben található)
  • megbízhatóság (a magasabb érték azt jelenti, hogy inkább valódi entitásnak kell lennie)
entities Összetett típusok tömbje, amely részletes információkat tartalmaz a szövegből kinyert entitásokról az alábbi mezőkkel
  • név (a tényleges entitás neve. Ez egy "normalizált" űrlapot jelöl)
  • wikipediaId
  • wikipediaLanguage
  • wikipediaUrl (az entitás Wikipedia-oldalára mutató hivatkozás)
  • bingId
  • típus (a felismert entitás kategóriája)
  • subType (csak bizonyos kategóriák esetén érhető el, ez részletesebb képet ad az entitástípusról)
  • egyezések (egy összetett gyűjtemény, amely tartalmazza)
    • szöveg (az entitás nyers szövege)
    • eltolás (a hely, ahol található)
    • hossz (a nyers entitás szövegének hossza)

Mintadefiníció

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "minimumPrecision": 0.5,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

Példabemenet

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Példakimenet

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": 0.98
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

Vegye figyelembe, hogy a képesség kimenetében szereplő entitások által visszaadott eltolások közvetlenül a Text Analytics API-ból származnak, ami azt jelenti, hogy ha az eredeti sztringbe indexeli őket, a .NET StringInfo osztályát kell használnia a megfelelő tartalom kinyeréséhez. További részletek itt találhatók.

Figyelmeztető esetek

Ha a dokumentum nyelvi kódja nem támogatott, a rendszer figyelmeztetést ad vissza, és nem nyer ki entitásokat.

Lásd még