Format data NER khusus yang diterima

Jika Anda mencoba mengimpor data ke NER kustom, data harus mengikuti format tertentu. Jika Anda tidak memiliki data untuk diimpor, Anda bisa membuat proyek dan menggunakan Microsoft Foundry untuk memberi label dokumen Anda.

Format berkas label

File Label Anda harus dalam json format untuk digunakan dalam mengimpor label Anda ke dalam proyek.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Tombol	Placeholder	Nilai	Contoh
`multilingual`	`true`	Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat membuat kueri model dalam bahasa apa pun yang didukung (tidak harus disertakan dalam dokumen pelatihan Anda). Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multi-bahasa.	`true`
`projectName`	`{PROJECT-NAME}`	Nama proyek	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Nama kontainer	`mycontainer`
`entities`		Array yang berisi semua jenis entitas yang Anda miliki dalam proyek. Jenis entitas yang diekstrak dari dokumen Anda.
`documents`		Array yang berisi semua dokumen dalam proyek Anda dan daftar entitas yang diberi label dalam setiap dokumen.	[]
`location`	`{DOCUMENT-NAME}`	Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, lokasi ini harus menjadi nama dokumen.	`doc1.txt`
`dataset`	`{DATASET}`	Set pengujian tempat file ini masuk ketika dibagi sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah `Train` dan `Test`.	`Train`
`regionOffset`		Posisi karakter inklusif dari awal teks.	`0`
`regionLength`		Panjang kotak pembatas dalam satuan karakter UTF 16. Pelatihan hanya mempertimbangkan data di wilayah ini.	`500`
`category`		Jenis entitas yang terkait dengan rentang teks yang ditentukan.	`Entity1`
`offset`		Posisi awal untuk teks entitas.	`25`
`length`		Panjang entitas menurut jumlah karakter UTF-16.	`20`
`language`	`{LANGUAGE-CODE}`	String yang menentukan kode bahasa untuk dokumen yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multibahasa, pilih kode bahasa untuk sebagian besar dokumen. Untuk informasi selengkapnya, lihatDukungan bahasa.	`en-us`

Langkah berikutnya

Anda dapat mengimpor data berlabel ke proyek Anda secara langsung. Pelajari cara mengimpor proyek
Lihat artikel petunjuk informasi selengkapnya tentang memberi label pada data Anda. Setelah selesai melabeli data, Anda dapat melatih model Anda.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-11-18

Bagikan melalui

Format data NER khusus yang diterima

Format berkas label

Langkah berikutnya

Saran dan Komentar

Sumber Daya Tambahan: