Bagikan melalui


Format data NER khusus yang diterima

Jika Anda mencoba mengimpor data ke NER kustom, data harus mengikuti format tertentu. Jika Anda tidak memiliki data untuk diimpor, Anda bisa membuat proyek dan menggunakan Microsoft Foundry untuk memberi label dokumen Anda.

Format berkas label

File Label Anda harus dalam json format untuk digunakan dalam mengimpor label Anda ke dalam proyek.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Tombol Placeholder Nilai Contoh
multilingual true Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat membuat kueri model dalam bahasa apa pun yang didukung (tidak harus disertakan dalam dokumen pelatihan Anda). Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multi-bahasa. true
projectName {PROJECT-NAME} Nama proyek myproject
storageInputContainerName {CONTAINER-NAME} Nama kontainer mycontainer
entities Array yang berisi semua jenis entitas yang Anda miliki dalam proyek. Jenis entitas yang diekstrak dari dokumen Anda.
documents Array yang berisi semua dokumen dalam proyek Anda dan daftar entitas yang diberi label dalam setiap dokumen. []
location {DOCUMENT-NAME} Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, lokasi ini harus menjadi nama dokumen. doc1.txt
dataset {DATASET} Set pengujian tempat file ini masuk ketika dibagi sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah Train dan Test. Train
regionOffset Posisi karakter inklusif dari awal teks. 0
regionLength Panjang kotak pembatas dalam satuan karakter UTF 16. Pelatihan hanya mempertimbangkan data di wilayah ini. 500
category Jenis entitas yang terkait dengan rentang teks yang ditentukan. Entity1
offset Posisi awal untuk teks entitas. 25
length Panjang entitas menurut jumlah karakter UTF-16. 20
language {LANGUAGE-CODE} String yang menentukan kode bahasa untuk dokumen yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multibahasa, pilih kode bahasa untuk sebagian besar dokumen. Untuk informasi selengkapnya, lihatDukungan bahasa. en-us

Langkah berikutnya