Aracılığıyla paylaş


Verileri hazırlama ve özel NER için şema tanımlama

Özel bir NER modeli oluşturmak için eğitmek için kaliteli verilere ihtiyacınız olacaktır. Bu makale, verilerinizi seçme ve hazırlamanın yanı sıra şema tanımlamayı da kapsar. Şemayı tanımlamak, proje geliştirme yaşam döngüsünün ilk adımıdır ve modelinizin çalışma zamanındaki metinden ayıklaması gereken varlık türlerini/kategorilerini tanımlar.

Şema tasarımı

Şema, modelinizin çalışma zamanında metinden ayıklaması gereken varlık türlerini/kategorilerini tanımlar.

  • Veri kümenizdeki belgeleri gözden geçirerek bunların biçimi ve yapısı hakkında bilgi sahibi olun.

  • Verilerden ayıklamak istediğiniz varlıkları tanımlayın.

    Örneğin, destek e-postalarından varlıkları ayıklarsanız, "Müşteri adı", "Ürün adı", "İstek tarihi" ve "Kişi bilgileri" öğelerini ayıklamanız gerekebilir.

  • Varlık türleri belirsizliğinden kaçının.

    Seçtiğiniz varlık türleri birbirine benzediğinde belirsizlik ortaya çıkar. Şemanız ne kadar belirsiz ise, farklı varlık türleri arasında ayrım yapmanız için o kadar etiketli veriler gerekir.

    Örneğin, yasal bir sözleşmeden veri ayıklarsanız, "Birinci tarafın adı" ve "İkinci tarafın adı" değerlerini ayıklamak için, her iki tarafın adları da benzer göründüğünden belirsizliğin üstesinden gelmek için daha fazla örnek eklemeniz gerekir. Zaman, çaba tasarrufu ve daha iyi sonuçlar verme gibi belirsizliklerden kaçının.

  • Karmaşık varlıklardan kaçının. Karmaşık varlıkları metinden tam olarak seçmek zor olabilir, bunu birden çok varlığa bölmeyi göz önünde bulundurun.

    Örneğin, "Adres" öğesini ayıklamak, daha küçük varlıklara ayrılmamışsa zor olabilir. Adreslerin nasıl göründüğüne ilişkin birçok çeşitleme vardır; modele adresi parçalamadan bir bütün olarak ayıklamayı öğretmek için çok sayıda etiketli varlık gerekir. Ancak, "Adres"i "Sokak Adı", "PO Box", "Şehir", "Eyalet" ve "Zip" ile değiştirirseniz, model varlık başına daha az etiket gerektirir.

Veri seçimi

Modelinizi eğitdiğiniz verilerin kalitesi, model performansını büyük ölçüde etkiler.

  • Modelinizi etkili bir şekilde eğitmek için etki alanınızın sorun alanını yansıtan gerçek hayattaki verileri kullanın. yapay verileri ilk model eğitim sürecini hızlandırmak için kullanabilirsiniz, ancak bu büyük olasılıkla gerçek hayattaki verilerinizden farklı olacaktır ve kullanıldığında modelinizi daha az etkili hale getirir.

  • Gerçek hayattaki dağıtımdan sapmadan veri dağıtımınızı mümkün olduğunca dengeleyin. Örneğin, modelinizi birçok farklı biçimde ve dilde bulunabilecek yasal belgelerden varlıkları ayıklamak için eğitiyorsanız, gerçek hayatta görmeyi beklediğiniz gibi çeşitliliği örnekleyen örnekler sağlamanız gerekir.

  • Modelinize fazla uygunluktan kaçınmak için mümkün olduğunca çeşitli verileri kullanın. Eğitim verilerinde daha az çeşitlilik olması, modelinizin gerçek hayattaki verilerde mevcut olmayan sahte bağıntılar öğrenmesine neden olabilir.

  • Verilerinizde yinelenen belgelerden kaçının. Yinelenen verilerin eğitim süreci, model ölçümleri ve model performansı üzerinde olumsuz bir etkisi vardır.

  • Verilerinizin nereden geldiğini düşünün. Bir kişiden, departmandan veya senaryonuzun bir bölümünden veri topluyorsanız, modelinizin öğrenmesi için önemli olabilecek çeşitliliği büyük olasılıkla kaçırabilirsiniz.

Veri hazırlama

Proje oluşturma önkoşulu olarak, eğitim verilerinizin depolama hesabınızdaki bir blob kapsayıcısına yüklenmesi gerekir. Eğitim belgelerini doğrudan Azure'dan veya Azure Depolama Gezgini aracını kullanarak oluşturabilir ve karşıya yükleyebilirsiniz. Azure Depolama Gezgini aracını kullanarak hızla daha fazla veri yükleyebilirsiniz.

Yalnızca belgeleri kullanabilirsiniz .txt . Verileriniz başka biçimdeyse, belge biçiminizi değiştirmek için CLUtils ayrıştırma komutunu kullanabilirsiniz.

Açıklamalı bir veri kümesini karşıya yükleyebilir veya ek açıklama eklenmemiş bir veri kümesini karşıya yükleyip verilerinizi Language Studio'da etiketleyebilirsiniz.

Test kümesi

Test kümesini tanımlarken, eğitim kümesinde bulunmayan örnek belgeleri eklediğinizden emin olun. Test kümesini tanımlamak, model performansını hesaplamak için önemli bir adımdır. Ayrıca, test kümesinin projenizde kullanılan tüm varlıkları temsil eden belgeler içerdiğinden emin olun.

Sonraki adımlar

Henüz yapmadıysanız özel bir NER projesi oluşturun. Özel NER'yi ilk kez kullanıyorsanız örnek bir proje oluşturmak için hızlı başlangıcı takip etmeyi göz önünde bulundurun. Proje oluşturmak için gerekenler hakkında daha fazla ayrıntı için nasıl yapılır makalesini de görebilirsiniz.