Keterampilan kognitif Penautan Entitas (v3)

Artikel
09/01/2024

Keterampilan Penautan Entitas (v3) mengembalikan daftar entitas yang dikenali dengan tautan ke artikel dalam basis pengetahuan terkenal (Wikipedia).

Catatan

Keterampilan ini terikat dengan model pembelajaran mesin Penautan Entitas dalam Bahasa Azure AI dan memerlukan sumber daya yang dapat ditagih untuk transaksi yang melebihi 20 dokumen per pengindeks per hari. Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada.

@odata.type

Microsoft.Skills.Text.V3.EntityLinkingSkill

Batasan data

Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length. Jika Anda perlu memecah data sebelum mengirimkannya ke keterampilan EntityLinking, pertimbangkan untuk menggunakan keterampilan Pemisahan Teks. Jika Anda menggunakan keterampilan pemisahan teks, atur panjang halaman ke 5000 untuk performa terbaik.

Parameter keterampilan

Nama parameter peka terhadap huruf besar/kecil dan semuanya bersifat opsional.

Nama Parameter	Deskripsi
`defaultLanguageCode`	Kode bahasa dari teks input. Jika kode bahasa default tidak ditentukan, bahasa Inggris (en) akan digunakan sebagai kode bahasa default. Lihat daftar lengkap bahasa yang didukung.
`minimumPrecision`	Nilai antara 0 dan 1. Jika skor keyakinan (dalam output `entities`) lebih rendah dari nilai ini, entitas tidak ditampilkan. Defaultnya adalah 0.
`modelVersion`	(Opsional) Menentukan versi model yang akan digunakan saat memanggil penautan entitas. Ini akan default ke yang terbaru yang tersedia saat tidak ditentukan. Kami sarankan Anda tidak menentukan nilai ini kecuali diperlukan.

Input keterampilan

Masukkan nama	Deskripsi
`languageCode`	String yang menunjukkan bahasa rekaman. Jika parameter ini tidak ditentukan, kode bahasa default akan digunakan untuk menganalisis rekaman. Lihat daftar lengkap bahasa yang didukung.
`text`	Teks yang akan dianalisis.

Output keterampilan

Nama output Deskripsi

Nama output	Deskripsi
`entities`	Array jenis kompleks yang berisi bidang berikut: `"name"` (Nama entitas aktual seperti yang muncul dalam teks) `"id"` `"language"` (Bahasa teks sebagaimana ditentukan oleh keterampilan) `"url"` (Url tertaut ke entitas ini) "`bingId`" (bingId untuk entitas tertaut ini) `"dataSource"` (Sumber data yang terkait dengan url) `"matches"` (Array jenis kompleks yang berisi: `text`, `offset`, `length` dan `confidenceScore`)

entities

Array jenis kompleks yang berisi bidang berikut:

"name" (Nama entitas aktual seperti yang muncul dalam teks)
"id"
"language" (Bahasa teks sebagaimana ditentukan oleh keterampilan)
"url" (Url tertaut ke entitas ini)
"bingId" (bingId untuk entitas tertaut ini)
"dataSource" (Sumber data yang terkait dengan url)
"matches" (Array jenis kompleks yang berisi: text, offset, length dan confidenceScore)

Definisi sampel

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityLinkingSkill",
    "context": "/document",
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "entities", 
            "targetName": "entities" 
        }
    ]
}

Input sampel

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft is liked by many.",
             "languageCode": "en"
           }
      }
    ]
}

Sampel output

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "entities": [
          {
            "name": "Microsoft", 
            "id": "Microsoft",
            "language": "en", 
            "url": "https://en.wikipedia.org/wiki/Microsoft", 
            "bingId": "a093e9b9-90f5-a3d5-c4b8-5855e1b01f85", 
            "dataSource": "Wikipedia", 
            "matches": [
                {
                    "text": "Microsoft", 
                    "offset": 0, 
                    "length": 9, 
                    "confidenceScore": 0.13 
                }
            ]
          }
        ],
      }
    }
  ]
}

Offset yang dikembalikan untuk entitas dalam output keterampilan ini langsung dikembalikan dari API Layanan Bahasa, yang berarti jika Anda menggunakannya untuk mengindeks ke dalam string asli, Anda harus menggunakan kelas StringInfo di .NET untuk mengekstrak konten yang benar. Untuk informasi selengkapnya, lihat Dukungan multibahasa dan emoji dalam fitur layanan Bahasa.

Kasus peringatan

Jika kode bahasa untuk dokumen tidak didukung, peringatan akan ditampilkan dan tidak ada entitas yang diekstraksi.

Bagikan melalui