Aracılığıyla paylaş


Verileri hazırlama ve özel NER için şema tanımlama

Özel bir NER modeli oluşturmak için onu eğitmek için kaliteli verilere ihtiyacınız olacaktır. Bu makalede, şema tanımlamanın yanı sıra verilerinizi nasıl seçip hazırlamanız gerektiği açıklanır. Şemayı tanımlamak proje geliştirme yaşam döngüsünün ilk adımıdır ve modelinizin çalışma zamanında metinden ayıklaması gereken varlık türlerini/kategorilerini tanımlar.

Şema tasarımı

Şema, modelinizin çalışma zamanında metinden ayıklaması gereken varlık türlerini/kategorilerini tanımlar.

  • Veri kümenizdeki belgeleri gözden geçirerek biçimlerini ve yapılarını tanıyabilirsiniz.

  • Verilerden ayıklamak istediğiniz varlıkları belirleyin.

    Örneğin, destek e-postalarından varlıkları ayıklarsanız "Müşteri adı", "Ürün adı", "İstek tarihi" ve "Kişi bilgileri" öğelerini ayıklamanız gerekebilir.

  • Varlık türlerinin belirsizliğinden kaçının.

    Seçtiğiniz varlık türleri birbirine benzediğinde belirsizlik ortaya çıkar. Şemanız ne kadar belirsiz ise, farklı varlık türlerini ayırt etmek için o kadar etiketli veriler gerekir.

    Örneğin, bir yasal sözleşmeden veri ayıklarsanız, "Birinci tarafın adı" ve "İkinci tarafın adı" değerlerini ayıklamak için, her iki tarafın adları da benzer göründüğünden belirsizliğin üstesinden gelmek için daha fazla örnek eklemeniz gerekir. Zaman, efor tasarrufu ve daha iyi sonuçlar verir gibi belirsizlikten kaçının.

  • Karmaşık varlıklardan kaçının. Karmaşık varlıkları metinden tam olarak seçmek zor olabilir, birden çok varlığa bölmeyi göz önünde bulundurun.

    Örneğin, "Adres" öğesini ayıklamak, daha küçük varlıklara bölünmezse zor olabilir. Adreslerin nasıl göründüğüne ilişkin pek çok çeşitleme vardır; modele adresi ayırmadan bir bütün olarak ayıklamayı öğretmek için çok sayıda etiketli varlık gerekir. Ancak, "Address" yerine "Street Name", "PO Box", "City", "State" ve "Zip" sözcüklerini kullanırsanız model her varlık için daha az etiket gerektirir.

Veri seçimi

Modelinizi eğitdiğiniz verilerin kalitesi, model performansını büyük ölçüde etkiler.

  • Modelinizi etkili bir şekilde eğitmek için etki alanınızın sorun alanını yansıtan gerçek hayattaki verileri kullanın. Yapay verileri ilk model eğitim sürecini hızlandırmak için kullanabilirsiniz, ancak gerçek hayattaki verilerinizden farklı olabilir ve kullanıldığında modelinizin daha az etkili olmasını sağlayabilirsiniz.

  • Veri dağıtımınızı, gerçek hayattaki dağılımdan uzak olmadan mümkün olduğunca dengeleyin. Örneğin, modelinizi birçok farklı biçimde ve dilde bulunabilecek yasal belgelerden varlıkları ayıklamak için eğitiyorsanız, gerçek hayatta görmeyi beklediğiniz çeşitliliği örnekleyen örnekler sağlamanız gerekir.

  • Modelinize fazla uygunluktan kaçınmak için mümkün olduğunca çeşitli verileri kullanın. Eğitim verilerinde daha az çeşitlilik olması, modelinizin gerçek hayattaki verilerde mevcut olmayan sahte bağıntılar öğrenmesine yol açabilir.

  • Verilerinizde yinelenen belgelerden kaçının. Yinelenen verilerin eğitim süreci, model ölçümleri ve model performansı üzerinde olumsuz bir etkisi vardır.

  • Verilerinizin nereden geldiğini düşünün. Bir kişiden, departmandan veya senaryonuzun bir bölümünden veri topluyorsanız, modelinizin öğrenmesi için önemli olabilecek çeşitliliğe sahip olmayabilirsiniz.

Not

Belgeleriniz birden çok dildeyse, proje oluşturma sırasında çok dilliyi etkinleştir seçeneğini belirleyin ve dil seçeneğini belgelerinizin çoğunun diline ayarlayın.

Veri hazırlama

Proje oluşturma önkoşulu olarak, eğitim verilerinizin depolama hesabınızdaki bir blob kapsayıcısına yüklenmesi gerekir. Eğitim belgelerini doğrudan Azure'dan veya Azure Depolama Gezgini aracını kullanarak oluşturabilir ve karşıya yükleyebilirsiniz. Azure Depolama Gezgini aracını kullanarak hızla daha fazla veri yükleyebilirsiniz.

Yalnızca belgeleri kullanabilirsiniz .txt . Verileriniz başka bir biçimdeyse, belge biçiminizi değiştirmek için CLUtils ayrıştırma komutunu kullanabilirsiniz.

Açıklamalı bir veri kümesini karşıya yükleyebilir veya not eklenmemiş bir veri kümesini karşıya yükleyip language studio'da verilerinizi etiketleyebilirsiniz .

Test kümesi

Test kümesini tanımlarken, eğitim kümesinde bulunmayan örnek belgeleri eklediğinizden emin olun. Test kümesini tanımlamak , model performansını hesaplamak için önemli bir adımdır. Ayrıca, test kümesinin projenizde kullanılan tüm varlıkları temsil eden belgeler içerdiğinden emin olun.

Sonraki adımlar

Henüz yapmadıysanız özel bir NER projesi oluşturun. Özel NER'yi ilk kez kullanıyorsanız, örnek bir proje oluşturmak için hızlı başlangıcı izlemeyi göz önünde bulundurun. Proje oluşturmak için gerekenler hakkında daha fazla ayrıntı için nasıl yapılır makalesini de görebilirsiniz.