Verilerinizi etiketleme

Tamamlandı

Verilerinizin doğru şekilde etiketlenmesi veya etiketlenmesi, özel varlık ayıklama modeli oluşturma işleminin önemli bir parçasıdır. Etiketler, modeli eğitmek için kullanılan metindeki belirli varlıkların örneklerini tanımlar. Odaklanmak için üç nokta vardır:

  • Tutarlılık - Eğitim için verilerinizi tüm dosyalarda aynı şekilde etiketle. Tutarlılık, modelinizin çakışan girişler olmadan öğrenmesine olanak tanır.
  • Precision - Varlıklarınızı gereksiz ek sözcükler olmadan tutarlı bir şekilde etiketle. Duyarlık, ayıklanan varlığınıza yalnızca doğru verilerin eklenmesini sağlar.
  • Eksiksizlik - Verilerinizi tamamen etiketleyip hiçbir varlığı kaçırmayın. Eksiksizlik, modelinizin mevcut varlıkları her zaman tanımasını sağlar.

Screenshot of labeling an entity in Language Studio.

Verilerinizi etiketleme

Language Studio, verilerinizi etiketlemek için en doğru yöntemdir. Language Studio dosyayı görmenize, varlığınızın başlangıcını ve sonunu seçmenize ve hangi varlığın olduğunu belirtmenize olanak tanır.

Tanımladığınız her etiket, veri kümenizle birlikte depolama hesabınızda bulunan bir dosyaya, otomatik olarak oluşturulan bir JSON dosyasına kaydedilir. Bu dosya daha sonra model tarafından özel varlıkları ayıklamayı öğrenmek için kullanılır. Projenizi oluştururken bu dosyayı sağlamak mümkündür (örneğin, aynı etiketleri farklı bir projeden içeri aktarıyorsanız), ancak kabul edilen özel NER veri biçimlerinde olması gerekir. Örneğin:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Alan Açıklama
documents Etiketli belge dizisi
location Projeye bağlı kapsayıcı içindeki dosyanın yolu
language Dosyanın dili
entities Geçerli belgedeki mevcut varlıkların dizisi
regionOffset Metnin başlangıcı için kapsayıcı karakter konumu
regionLength Eğitimde kullanılan verilerin karakterlerinin uzunluğu
category Ayıklanan varlığın adı
labels Dosyalarda etiketlenmiş varlık dizisi
offset Varlığın başlangıcı için kapsayıcı karakter konumu
length Varlığın karakter uzunluğu
dataset Dosyanın atandığı veri kümesi