Memberi label pada data Anda

Selesai

Pelabelan, atau pemberian tag, data Anda dengan benar adalah bagian penting dari proses untuk membuat model ekstraksi entitas kustom. Label mengidentifikasi contoh entitas tertentu dalam teks yang digunakan untuk melatih model. Tiga hal yang perlu difokuskan adalah:

  • Konsistensi - Beri label data Anda dengan cara yang sama di semua file untuk pelatihan. Konsistensi memungkinkan model Anda untuk belajar tanpa input yang bertentangan.
  • Presisi - Beri label entitas Anda secara konsisten, tanpa kata tambahan yang tidak perlu. Presisi memastikan hanya data yang tepat yang disertakan dalam entitas Anda yang diekstraksi.
  • Kelengkapan - Beri label data Anda sepenuhnya, dan jangan lewatkan entitas apa pun. Kelengkapan membantu model Anda selalu mengenali entitas yang ada.

Cuplikan layar pelabelan entitas di Language Studio.

Cara memberi label data Anda

Language Studio adalah metode paling sederhana untuk melabeli data Anda. Language Studio memungkinkan Anda melihat file, memilih awal dan akhir entitas Anda, dan menentukan entitas mana itu.

Setiap label yang Anda identifikasi disimpan ke dalam file yang berada di akun penyimpanan Anda dengan himpunan data Anda, dalam file JSON yang dibuat secara otomatis. File ini kemudian digunakan oleh model untuk mempelajari cara mengekstrak entitas kustom. Dimungkinkan untuk menyediakan file ini saat membuat proyek Anda (jika Anda mengimpor label yang sama dari proyek yang berbeda, misalnya) namun harus dalam format data NER kustom yang Diterima. Contohnya:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Bidang Deskripsi
documents Array dokumen berlabel
location Jalur ke file dalam kontainer yang tersambung ke proyek
language Bahasa berkas
entities Array entitas yang ada dalam dokumen ini
regionOffset Posisi karakter inklusif untuk awal teks
regionLength Panjang karakter data yang digunakan dalam pelatihan
category Nama entitas yang akan diekstrak
labels Sebuah array entitas yang diberi label dalam berkas-berkas
offset Posisi karakter inklusif untuk awal entitas
length Panjang karakter entitas
dataset Pada himpunan data mana file ditetapkan