Bagikan melalui


Format data yang diterima

Jika Anda mencoba mengimpor data ke dalam klasifikasi teks kustom, data tersebut harus mengikuti format tertentu. Jika Anda tidak memiliki data untuk diimpor, Anda dapat membuat proyek dan menggunakan Language Studio untuk memberi label dokumen Anda.

Format file label

File Label Anda harus dalam format json di bawah ini. Ini akan memungkinkan Anda mengimpor label Anda ke dalam proyek.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
Kunci Tempat penampung Nilai Contoh
multilingual true Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat membuat kueri model dalam bahasa apa pun yang didukung (tidak harus disertakan dalam dokumen pelatihan Anda). Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multibahasa. true
projectName {PROJECT-NAME} Nama proyek myproject
storageInputContainerName {CONTAINER-NAME} Nama kontainer mycontainer
kelas [] Array yang berisi semua kelas yang Anda miliki dalam proyek. Ini adalah kelas yang ingin Anda klasifikasikan dokumen Anda. []
dokumen [] Array yang berisi semua dokumen dalam proyek Anda dan kelas berlabel untuk dokumen ini. []
lokasi {DOCUMENT-NAME} Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, nilai ini harus menjadi nama dokumen. doc1.txt
dataset {DATASET} Set pengujian yang akan digunakan file ini ketika dibagi sebelum pelatihan. Lihat Cara melatih model untuk informasi selengkapnya. Nilai yang mungkin untuk bidang ini adalah Train dan Test. Train

Langkah berikutnya

  • Anda dapat mengimpor data berlabel ke proyek Anda secara langsung. Lihat Cara membuat proyek untuk mempelajari selengkapnya tentang mengimpor proyek.
  • Lihat artikel petunjuk informasi selengkapnya tentang memberi label pada data Anda. Setelah selesai melabeli data, Anda dapat melatih model Anda.