Bagikan melalui


Keterampilan kognitif Pengenalan Entitas (v2)

Keterampilan Pengenalan Entitas (v2) mengekstrak entitas dari berbagai jenis dari teks. Keterampilan ini menggunakan model pembelajaran mesin yang disediakan oleh Text Analytics di layanan Azure AI.

Penting

Keterampilan Pengenalan Entitas (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) sekarang dihentikan digantikan oleh Microsoft.Skills.Text.V3.EntityRecognitionSkill. Ikuti rekomendasi dalam Keterampilan yang tidak digunakan lagi untuk bermigrasi ke keterampilan yang didukung.

Catatan

Saat Anda memperluas cakupan dengan meningkatkan frekuensi pemrosesan, menambahkan lebih banyak dokumen, atau menambahkan lebih banyak algoritma AI, Anda harus melampirkan sumber daya layanan Azure AI yang dapat ditagih. Biaya bertambah saat memanggil API di layanan Azure AI, dan untuk ekstraksi gambar sebagai bagian dari tahap pemecahan dokumen di Azure AI Search. Tidak ada biaya untuk ekstraksi teks dari dokumen.

Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada. Harga ekstraksi gambar dijelaskan di halaman harga Azure AI Search.

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkill

Batasan data

Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length. Jika Anda perlu memecah data Anda sebelum mengirimkannya ke ekstraktor frasa kunci, pertimbangkan untuk menggunakan keterampilan Pemisahan Teks. Jika Anda menggunakan keterampilan pemisahan teks, atur panjang halaman ke 5000 untuk performa terbaik.

Parameter keterampilan

Parameter peka terhadap huruf besar/kecil, dan semuanya bersifat opsional.

Nama Parameter Deskripsi
categories Kategori array yang harus diekstrak. Jenis kategori yang memungkinkan: "Person", "Location", "Organization", "Quantity", "Datetime", "URL", "Email". Jika tidak ada kategori yang disediakan, semua jenis akan dikembalikan.
defaultLanguageCode Kode bahasa dari teks input. Bahasa berikut ini telah didukung: ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans. Tidak semua kategori entitas didukung untuk semua bahasa; lihat catatan di bawah ini.
minimumPrecision Nilai antara 0 dan 1. Jika skor keyakinan (dalam output namedEntities) lebih rendah dari nilai ini, entitas tidak ditampilkan. Defaultnya adalah 0.
includeTypelessEntities Setel ke true jika Anda ingin mengenali entitas terkenal yang tidak sesuai dengan kategori saat ini. Entitas yang dikenali ditampilkan dalam bidang output kompleks entities. Misalnya, "Windows 10" adalah entitas terkenal (produk), tetapi karena "Produk" bukan merupakan kategori yang didukung, entitas ini akan disertakan dalam bidang output entitas. Standarnya adalah false

Input keterampilan

Masukkan nama Deskripsi
languageCode Opsional. Defaultnya adalah "en".
text Teks yang akan dianalisis.

Output keterampilan

Catatan

Tidak semua kategori entitas didukung untuk semua bahasa. Jenis kategori entitas "Person", "Location", dan "Organization" didukung untuk daftar lengkap bahasa di atas. Hanya de, en, es, fr, dan zh-hans yang mendukung ekstraksi dari jenis "Quantity", "Datetime", "URL", dan "Email". Untuk informasi selengkapnya, lihat Dukungan bahasa dan wilayah untuk API Analisis Teks.

Nama output Deskripsi
persons Array dari string yang setiap string-nya mewakili nama seseorang.
locations Array dari string yang setiap string-nya mewakili lokasi.
organizations Array dari string yang setiap string-nya mewakili organisasi.
quantities Array dari string yang setiap string-nya mewakili kuantitas.
dateTimes Array dari string yang setiap string-nya mewakili nilai DateTime (seperti yang muncul dalam teks).
urls Array dari string yang setiap string-nya mewakili URL
emails Array dari string yang setiap string-nya mewakili email
namedEntities Array jenis kompleks yang berisi bidang berikut:
  • category
  • nilai (Nama entitas sebenarnya)
  • offset (Lokasi tempat ditemukan dalam teks)
  • keyakinan (Nilai yang lebih tinggi berarti lebih menjadi entitas nyata)
entities Array jenis kompleks yang berisi informasi kaya tentang entitas yang diekstrak dari teks, dengan bidang berikut
  • nama (nama entitas aktual. Ini mewakili formulir "dinormalisasi")
  • wikipediaId
  • wikipediaBahasa
  • wikipediaUrl (tautan ke halaman Wikipedia untuk entitas)
  • bingId
  • Type (kategori entitas yang diakui)
  • subType (hanya tersedia untuk kategori tertentu, ini memberikan tampilan yang lebih terperinci tentang tipe entitas)
  • matches (koleksi kompleks yang berisi)
    • text (teks mentah untuk entitas)
    • offset (lokasi ditemukannya)
    • length (panjang teks entitas mentah)

Definisi sampel

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "minimumPrecision": 0.5,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

Input sampel

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Sampel output

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": 0.98
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

Perhatikan bahwa offset yang ditampilkan untuk entitas dalam output keterampilan ini langsung ditampilkan dari API Text Analytics, yang berarti jika Anda menggunakannya untuk mengindeks menuju string asli, Anda harus menggunakan kelas StringInfo di .NET untuk mengekstrak konten yang benar. Detail selengkapnya dapat ditemukan di sini.

Kasus peringatan

Jika kode bahasa untuk dokumen tidak didukung, peringatan akan ditampilkan dan tidak ada entitas yang diekstraksi.

Lihat juga