Share via


Verileri hazırlama ve metin sınıflandırma şeması tanımlama

Özel bir metin sınıflandırma modeli oluşturmak için, onu eğitmek için kaliteli verilere ihtiyacınız olacaktır. Bu makalede, şema tanımlamanın yanı sıra verilerinizi nasıl seçip hazırlamanız gerektiği açıklanır. Şemayı tanımlamak proje geliştirme yaşam döngüsünün ilk adımıdır ve çalışma zamanında metninizi sınıflandırmak için modelinize ihtiyacınız olan sınıfları tanımlar.

Şema tasarımı

Şema, çalışma zamanında metninizi sınıflandırmak için modelinize ihtiyacınız olan sınıfları tanımlar.

  • Gözden geçirin ve tanımlayın: Veri kümenizdeki belgeleri gözden geçirerek yapılarını ve içeriklerini öğrenin, ardından verilerinizi nasıl sınıflandırmak istediğinizi belirleyin.

    Örneğin, destek biletlerini sınıflandırıyorsanız şu sınıflara ihtiyacınız olabilir: oturum açma sorunu, donanım sorunu, bağlantı sorunu ve yeni ekipman isteği.

  • Sınıflarda belirsizlikten kaçının: Belirttiğiniz sınıflar birbirine benzer bir anlam paylaştığında belirsizlik oluşur. Şemanız ne kadar belirsiz olursa, farklı sınıflar arasında ayrım yapmak için o kadar etiketli veriler gerekebilir.

    Örneğin, yemek tariflerini sınıflandırıyorsanız, bunlar bir ölçüde benzer olabilir. Tatlı tarifi ile ana yemek tarifi arasında ayrım yapmak için modelinizin iki sınıf arasında ayrım yapmalarına yardımcı olmak için daha fazla örnek etiketlemeniz gerekebilir. Belirsizlikten kaçınmak zaman kazandırır ve daha iyi sonuçlar verir.

  • Kapsam dışı veriler: Modelinizi üretimde kullanırken, sınıflarınızın hiçbirine ait olmayan belgeler bekliyorsanız şemanıza kapsam dışı bir sınıf eklemeyi göz önünde bulundurun. Ardından, kapsam dışı olarak etiketlenecek birkaç belgeyi veri kümenize ekleyin. Model, ilgisiz belgeleri tanımayı ve etiketlerini uygun şekilde tahmin etmeyi öğrenebilir.

Veri seçimi

Modelinizi eğitdiğiniz verilerin kalitesi, model performansını büyük ölçüde etkiler.

  • Modelinizi etkili bir şekilde eğitmek için etki alanınızın sorun alanını yansıtan gerçek hayattaki verileri kullanın. Yapay verileri ilk model eğitim sürecini hızlandırmak için kullanabilirsiniz, ancak gerçek hayattaki verilerinizden farklı olabilir ve kullanıldığında modelinizin daha az etkili olmasını sağlayabilirsiniz.

  • Veri dağıtımınızı, gerçek hayattaki dağılımdan uzak olmadan mümkün olduğunca dengeleyin.

  • Modelinize fazla uygunluktan kaçınmak için mümkün olduğunca çeşitli verileri kullanın. Eğitim verilerinde daha az çeşitlilik olması, modelinizin gerçek hayattaki verilerde mevcut olmayan sahte bağıntılar öğrenmesine yol açabilir.

  • Verilerinizde yinelenen belgelerden kaçının. Yinelenen verilerin eğitim süreci, model ölçümleri ve model performansı üzerinde olumsuz bir etkisi vardır.

  • Verilerinizin nereden geldiğini düşünün. Bir kişiden, departmandan veya senaryonuzun bir bölümünden veri topluyorsanız, modelinizin öğrenmesi için önemli olabilecek çeşitliliğe sahip olmayabilirsiniz.

Not

Belgeleriniz birden çok dildeyse, proje oluşturma sırasında birden çok dil seçeneğini belirleyin ve dil seçeneğini belgelerinizin çoğunun diline ayarlayın.

Veri hazırlama

Özel metin sınıflandırma projesi oluşturma önkoşulu olarak, eğitim verilerinizin depolama hesabınızdaki bir blob kapsayıcısına yüklenmesi gerekir. Eğitim belgelerini doğrudan Azure'dan veya Azure Depolama Gezgini aracını kullanarak oluşturabilir ve karşıya yükleyebilirsiniz. Azure Depolama Gezgini aracını kullanarak hızla daha fazla veri yükleyebilirsiniz.

Yalnızca kullanabilirsiniz .txt. özel metin belgeleri. Verileriniz başka bir biçimdeyse dosya biçiminizi değiştirmek için CLUtils ayrıştırma komutunu kullanabilirsiniz.

Açıklamalı bir veri kümesini karşıya yükleyebilir veya not eklenmemiş bir veri kümesini karşıya yükleyip language studio'da verilerinizi etiketleyebilirsiniz .

Test kümesi

Test kümesini tanımlarken, eğitim kümesinde bulunmayan örnek belgeleri eklediğinizden emin olun. Test kümesini tanımlamak , model performansını hesaplamak için önemli bir adımdır. Ayrıca, test kümesinin projenizde kullanılan tüm sınıfları temsil eden belgeler içerdiğinden emin olun.

Sonraki adımlar

Henüz yapmadıysanız özel bir metin sınıflandırma projesi oluşturun. Özel metin sınıflandırmasını ilk kez kullanıyorsanız, örnek bir proje oluşturmak için hızlı başlangıcı izlemeyi göz önünde bulundurun. Proje oluşturmak için gerekenler hakkında daha fazla ayrıntı için proje gereksinimlerini de görebilirsiniz.