Bagikan melalui


Format data NER khusus yang diterima

Jika Anda mencoba mengimpor data Anda ke NER kustom, data tersebut harus mengikuti format tertentu. Jika tidak memiliki data untuk diimpor, Anda dapat membuat proyek dan menggunakan Language Studio untuk melabeli dokumen.

Format file label

File Label Anda harus dalam format json di bawah ini untuk digunakan dalam mengimpor label Anda ke dalam sebuah proyek.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Kunci Tempat penampung Nilai Contoh
multilingual true Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat membuat kueri model dalam bahasa apa pun yang didukung (tidak harus disertakan dalam dokumen pelatihan Anda). Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multibahasa. true
projectName {PROJECT-NAME} Nama proyek myproject
storageInputContainerName {CONTAINER-NAME} Nama kontainer mycontainer
entities Array yang berisi semua jenis entitas yang Anda miliki dalam proyek. Ini adalah jenis entitas yang akan diekstraksi dari dokumen Anda.
documents Array yang berisi semua dokumen dalam proyek Anda dan daftar entitas yang diberi label dalam setiap dokumen. []
location {DOCUMENT-NAME} Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, ini harus menjadi nama dokumen. doc1.txt
dataset {DATASET} Set pengujian yang akan digunakan file ini ketika dibagi sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah Train dan Test. Train
regionOffset Posisi karakter inklusif dari awal teks. 0
regionLength Panjang kotak pembatas dalam hal karakter UTF16. Pelatihan hanya mempertimbangkan data di wilayah ini. 500
category Jenis entitas yang terkait dengan rentang teks yang ditentukan. Entity1
offset Posisi awal untuk teks entitas. 25
length Panjang entitas dalam hal karakter UTF16. 20
language {LANGUAGE-CODE} String yang menentukan kode bahasa untuk dokumen yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multibahasa, pilih kode bahasa dari sebagian besar dokumen. Lihat Dukungan bahasa untuk informasi selengkapnya tentang kode bahasa yang didukung. en-us

Langkah berikutnya