Bagikan melalui


Keterampilan kognitif Pengenalan Entitas (v3)

Keterampilan Pengenalan Entitas (v3) mengekstrak entitas dari berbagai jenis dari teks. Entitas tersebut termasuk dalam 14 kategori berbeda, mulai dari orang dan organisasi hingga URL dan nomor telepon. Keterampilan ini menggunakan model pembelajaran mesin Pengenalan Entitas Bernama yang disediakan oleh Bahasa Azure AI.

Catatan

Keterampilan ini terikat ke layanan Azure AI dan memerlukan sumber daya yang dapat ditagih untuk transaksi yang melebihi 20 dokumen per pengindeks per hari. Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Batasan data

Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length. Jika Anda perlu memecah data sebelum mengirimkannya ke keterampilan EntityRecognition, pertimbangkan untuk menggunakan keterampilan Pemisahan Teks. Saat menggunakan keterampilan terpisah, atur panjang halaman ke 5000 untuk performa terbaik.

Parameter keterampilan

Parameter peka terhadap huruf besar/kecil, dan semuanya bersifat opsional.

Nama Parameter Deskripsi
categories Kategori array yang harus diekstrak. Jenis kategori yang memungkinkan: "Person", "Location", "Organization", "Quantity", "DateTime", "URL", "Email", "personType", "Event", "Product", "Skill", "Address", "phoneNumber", "ipAddress". Jika tidak ada kategori yang disediakan, semua jenis akan dikembalikan.
defaultLanguageCode Kode bahasa dari teks input. Jika kode bahasa default tidak ditentukan, bahasa Inggris (en) akan digunakan sebagai kode bahasa default.
Lihat daftar lengkap bahasa yang didukung. Tidak semua kategori entitas didukung untuk semua bahasa; lihat catatan di bawah ini.
minimumPrecision Nilai antara 0 dan 1. Jika skor keyakinan (dalam output namedEntities) lebih rendah dari nilai ini, entitas tidak ditampilkan. Defaultnya adalah 0.
modelVersion (Opsional) Menentukan versi model yang akan digunakan saat memanggil API pengenalan entitas. Ini akan default ke yang terbaru yang tersedia saat tidak ditentukan. Kami sarankan Anda tidak menentukan nilai ini kecuali diperlukan.

Input keterampilan

Masukkan nama Deskripsi
languageCode String yang menunjukkan bahasa rekaman. Jika parameter ini tidak ditentukan, kode bahasa default akan digunakan untuk menganalisis rekaman.
Lihat daftar lengkap bahasa yang didukung.
text Teks yang akan dianalisis.

Output keterampilan

Catatan

Tidak semua kategori entitas didukung untuk semua bahasa. Lihat Kategori entitas Pengenalan Entitas Bernama (NER) yang Didukung untuk mengetahui kategori entitas mana yang didukung untuk bahasa yang akan Anda gunakan.

Nama output Deskripsi
persons Array dari string yang setiap string-nya mewakili nama seseorang.
locations Array dari string yang setiap string-nya mewakili lokasi.
organizations Array dari string yang setiap string-nya mewakili organisasi.
quantities Array dari string yang setiap string-nya mewakili kuantitas.
dateTimes Array dari string yang setiap string-nya mewakili nilai DateTime (seperti yang muncul dalam teks).
urls Array dari string yang setiap string-nya mewakili URL
emails Array dari string yang setiap string-nya mewakili email
personTypes Array dari string yang setiap string-nya mewakili PersonType
events Array dari string yang setiap stringnya mewakili suatu kejadian
products Array dari string yang setiap string-nya mewakili produk
skills Array dari string yang setiap string-nya mewakili keterampilan
addresses Array dari string yang setiap string-nya mewakili alamat
phoneNumbers Array dari string yang setiap string-nya mewakili nomor telepon
ipAddresses Array dari string yang setiap string-nya mewakili Alamat IP
namedEntities Array jenis kompleks yang berisi bidang berikut:
  • category
  • subkategori
  • confidenceScore (Nilai yang lebih tinggi berarti lebih berpotensi menjadi entitas nyata)
  • panjang (Panjang(jumlah karakter) entitas ini)
  • offset (Lokasi tempat ditemukan dalam teks)
  • teks (Nama entitas aktual seperti yang muncul dalam teks)

Definisi sampel

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Input sampel

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Sampel output

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Offset yang dikembalikan untuk entitas dalam output keterampilan ini langsung dikembalikan dari API Layanan Bahasa, yang berarti jika Anda menggunakannya untuk mengindeks ke dalam string asli, Anda harus menggunakan kelas StringInfo di .NET untuk mengekstrak konten yang benar. Untuk informasi selengkapnya, lihat Dukungan multibahasa dan emoji dalam fitur layanan Bahasa.

Kasus peringatan

Jika kode bahasa untuk dokumen tidak didukung, peringatan akan ditampilkan dan tidak ada entitas yang diekstraksi.

Baca juga