Keterampilan kognitif Pengenalan Entitas (v3)

Artikel
10/20/2023

Keterampilan Pengenalan Entitas (v3) mengekstrak entitas dari berbagai jenis dari teks. Entitas tersebut termasuk dalam 14 kategori berbeda, mulai dari orang dan organisasi hingga URL dan nomor telepon. Keterampilan ini menggunakan model pembelajaran mesin Pengenalan Entitas Bernama yang disediakan oleh Bahasa Azure AI.

Catatan

Keterampilan ini terikat ke layanan Azure AI dan memerlukan sumber daya yang dapat ditagih untuk transaksi yang melebihi 20 dokumen per pengindeks per hari. Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Batasan data

Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length. Jika Anda perlu memecah data sebelum mengirimkannya ke keterampilan EntityRecognition, pertimbangkan untuk menggunakan keterampilan Pemisahan Teks. Saat menggunakan keterampilan terpisah, atur panjang halaman ke 5000 untuk performa terbaik.

Parameter keterampilan

Parameter peka terhadap huruf besar/kecil, dan semuanya bersifat opsional.

Nama Parameter	Deskripsi
`categories`	Kategori array yang harus diekstrak. Jenis kategori yang memungkinkan: `"Person"`, `"Location"`, `"Organization"`, `"Quantity"`, `"DateTime"`, `"URL"`, `"Email"`, `"personType"`, `"Event"`, `"Product"`, `"Skill"`, `"Address"`, `"phoneNumber"`, `"ipAddress"`. Jika tidak ada kategori yang disediakan, semua jenis akan dikembalikan.
`defaultLanguageCode`	Kode bahasa dari teks input. Jika kode bahasa default tidak ditentukan, bahasa Inggris (en) akan digunakan sebagai kode bahasa default. Lihat daftar lengkap bahasa yang didukung. Tidak semua kategori entitas didukung untuk semua bahasa; lihat catatan di bawah ini.
`minimumPrecision`	Nilai antara 0 dan 1. Jika skor keyakinan (dalam output `namedEntities`) lebih rendah dari nilai ini, entitas tidak ditampilkan. Defaultnya adalah 0.
`modelVersion`	(Opsional) Menentukan versi model yang akan digunakan saat memanggil API pengenalan entitas. Ini akan default ke yang terbaru yang tersedia saat tidak ditentukan. Kami sarankan Anda tidak menentukan nilai ini kecuali diperlukan.

Input keterampilan

Masukkan nama	Deskripsi
`languageCode`	String yang menunjukkan bahasa rekaman. Jika parameter ini tidak ditentukan, kode bahasa default akan digunakan untuk menganalisis rekaman. Lihat daftar lengkap bahasa yang didukung.
`text`	Teks yang akan dianalisis.

Output keterampilan

Catatan

Tidak semua kategori entitas didukung untuk semua bahasa. Lihat Kategori entitas Pengenalan Entitas Bernama (NER) yang Didukung untuk mengetahui kategori entitas mana yang didukung untuk bahasa yang akan Anda gunakan.

Nama output	Deskripsi
`persons`	Array dari string yang setiap string-nya mewakili nama seseorang.
`locations`	Array dari string yang setiap string-nya mewakili lokasi.
`organizations`	Array dari string yang setiap string-nya mewakili organisasi.
`quantities`	Array dari string yang setiap string-nya mewakili kuantitas.
`dateTimes`	Array dari string yang setiap string-nya mewakili nilai DateTime (seperti yang muncul dalam teks).
`urls`	Array dari string yang setiap string-nya mewakili URL
`emails`	Array dari string yang setiap string-nya mewakili email
`personTypes`	Array dari string yang setiap string-nya mewakili PersonType
`events`	Array dari string yang setiap stringnya mewakili suatu kejadian
`products`	Array dari string yang setiap string-nya mewakili produk
`skills`	Array dari string yang setiap string-nya mewakili keterampilan
`addresses`	Array dari string yang setiap string-nya mewakili alamat
`phoneNumbers`	Array dari string yang setiap string-nya mewakili nomor telepon
`ipAddresses`	Array dari string yang setiap string-nya mewakili Alamat IP
`namedEntities`	Array jenis kompleks yang berisi bidang berikut: category subkategori confidenceScore (Nilai yang lebih tinggi berarti lebih berpotensi menjadi entitas nyata) panjang (Panjang(jumlah karakter) entitas ini) offset (Lokasi tempat ditemukan dalam teks) teks (Nama entitas aktual seperti yang muncul dalam teks)

Definisi sampel

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Input sampel

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Sampel output

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Offset yang dikembalikan untuk entitas dalam output keterampilan ini langsung dikembalikan dari API Layanan Bahasa, yang berarti jika Anda menggunakannya untuk mengindeks ke dalam string asli, Anda harus menggunakan kelas StringInfo di .NET untuk mengekstrak konten yang benar. Untuk informasi selengkapnya, lihat Dukungan multibahasa dan emoji dalam fitur layanan Bahasa.

Kasus peringatan

Jika kode bahasa untuk dokumen tidak didukung, peringatan akan ditampilkan dan tidak ada entitas yang diekstraksi.

Bagikan melalui