Aracılığıyla paylaş


verileri hazırlama ve sağlık için özel Metin Analizi için şema tanımlama

Özel bir TA4H modeli oluşturmak için eğitmek için kaliteli verilere ihtiyacınız olacaktır. Bu makale, verilerinizi seçme ve hazırlamanın yanı sıra şema tanımlamayı da kapsar. Şemayı tanımlamak proje geliştirme yaşam döngüsünün ilk adımıdır ve modelinizin çalışma zamanındaki metinden ayıklaması gereken varlık türlerini veya kategorileri tanımlamayı gerektirir.

Şema tasarımı

Sistem durumu için özel Metin Analizi, sistem durumu varlık eşlemesi için Metin Analizi genişletmenize ve özelleştirmenize olanak tanır. İşlemin ilk adımı, çalışma zamanında var olan varlıkların sistem durumu için Metin Analizi ek olarak modelinizin metinden ayıklaması gereken yeni varlık türlerini veya kategorileri tanımlamanızı sağlayan şemanızı oluşturmaktır.

  • Biçim ve yapılarını öğrenmek için veri kümenizdeki belgeleri gözden geçirin.

  • Verilerden ayıklamak istediğiniz varlıkları belirleyin.

    Örneğin, destek e-postalarından varlıkları ayıklarsanız, "Müşteri adı", "Ürün adı", "İstek tarihi" ve "Kişi bilgileri" öğelerini ayıklamanız gerekebilir.

  • Varlık türlerinin belirsizliğinden kaçının.

    Seçtiğiniz varlık türleri birbirine benzediğinde belirsizlik ortaya çıkar. Şemanız ne kadar belirsiz ise, farklı varlık türlerini ayırt etmek için o kadar etiketli veriler gerekir.

    Örneğin, yasal bir sözleşmeden veri ayıklarsanız, "Birinci tarafın adı" ve "İkinci tarafın adı" değerlerini ayıklamak için, her iki tarafın adları da benzer göründüğünden belirsizliğin üstesinden gelmek için daha fazla örnek eklemeniz gerekir. Zaman, efor tasarrufu ve daha iyi sonuçlara yol açarken belirsizlikten kaçının.

  • Karmaşık varlıklardan kaçının. Karmaşık varlıkları metinden tam olarak seçmek zor olabilir, birden çok varlığa bölmeyi göz önünde bulundurun.

    Örneğin, "Adres" öğesinin ayıklanması, daha küçük varlıklara bölünmezse zor olabilir. Adreslerin nasıl göründüğüne ilişkin birçok çeşitleme vardır; modele adresi parçalamadan bir bütün olarak ayıklamayı öğretmek için çok sayıda etiketli varlık gerekir. Ancak, "Address" yerine "Street Name", "PO Box", "City", "State" ve "Zip" sözcüklerini kullanırsanız model her varlık için daha az etiket gerektirir.

Varlık ekleme

Projenize varlık eklemek için:

  1. Sayfanın üst kısmından Varlıklar özetine gitme.

  2. Sistem durumu varlıkları için Metin Analizi projenize otomatik olarak yüklenir. Ek varlık kategorileri eklemek için üstteki menüden Ekle'yi seçin. Varlığı oluşturma işlemini tamamlamadan önce bir ad yazmanız istenir.

  3. Varlık oluşturduktan sonra, bu varlığın oluşturma ayarlarını tanımlayabileceğiniz varlık ayrıntıları sayfasına yönlendirilirsiniz.

  4. Varlıklar varlık bileşenleri tarafından tanımlanır: öğrenilen, listelenmiş veya önceden oluşturulmuş. Sistem durumu varlıkları için Metin Analizi varsayılan olarak önceden oluşturulmuş bileşenle doldurulur ve öğrenilen bileşenlere sahip olamaz. Yeni tanımlanan varlıklarınız, verilerinize etiket ekledikten sonra öğrenilen bileşenle doldurulabilir ancak önceden oluşturulmuş bileşenle doldurulamaz.

  5. Varlıklarınızdan herhangi birine liste bileşeni ekleyebilirsiniz.

Liste bileşeni ekleme

Liste bileşeni eklemek için Yeni liste ekle'yi seçin. Her varlığa birden çok liste ekleyebilirsiniz.

  1. Yeni liste oluşturmak için Değer girin metin kutusuna bu değeri, eş anlamlı değerlerden herhangi biri ayıklandığında döndürülecek olan normalleştirilmiş değer olarak girin.

  2. Çok dilli projeler için , dil açılan menüsünden eş anlamlılar listesinin dilini seçin ve eş anlamlılarınıza yazmaya başlayın ve her birinden sonra Enter tuşuna basın. Birden çok dilde eş anlamlılar listesi olması önerilir.

Varlık seçeneklerini tanımlama

Varlık ayrıntıları sayfasında Varlık seçenekleri özetine geçin. Bir varlık için birden çok bileşen tanımlandığında, bunların tahminleri çakışabilir. Bir çakışma oluştuğunda, her varlığın son tahmini bu adımda belirlediğiniz varlık seçeneğine göre belirlenir. Bu varlığa uygulamak istediğiniz varlığı seçin ve üstteki Kaydet düğmesini seçin.

Varlıklarınızı oluşturduktan sonra geri dönüp düzenleyebilirsiniz. Varlık bileşenlerini düzenleyebilir veya üstteki menüden bu seçeneği belirleyerek silebilirsiniz.

Veri seçimi

Modelinizi eğitdiğiniz verilerin kalitesi, model performansını büyük ölçüde etkiler.

  • Modelinizi etkili bir şekilde eğitmek için etki alanınızın sorun alanını yansıtan gerçek hayattaki verileri kullanın. yapay verileri ilk model eğitim sürecini hızlandırmak için kullanabilirsiniz, ancak bu gerçek hayattaki verilerinizden farklı olabilir ve kullanıldığında modelinizi daha az etkili hale getirir.

  • Gerçek hayattaki dağıtımdan uzak bir sapma olmadan veri dağıtımınızı mümkün olduğunca dengeleyin. Örneğin, modelinizi birçok farklı biçimde ve dilde bulunabilecek yasal belgelerden varlıkları ayıklamak için eğitiyorsanız, gerçek hayatta görmeyi beklediğiniz çeşitliliği örnekleyen örnekler sağlamanız gerekir.

  • Modelinize fazla uygunluktan kaçınmak için mümkün olduğunca çeşitli verileri kullanın. Eğitim verilerinde daha az çeşitlilik olması, modelinizin gerçek hayattaki verilerde mevcut olmayan sahte bağıntılar öğrenmesine yol açabilir.

  • Verilerinizde yinelenen belgelerden kaçının. Yinelenen verilerin eğitim süreci, model ölçümleri ve model performansı üzerinde olumsuz bir etkisi vardır.

  • Verilerinizin nereden geldiğini göz önünde bulundurun. Bir kişi, departman veya senaryonuzun bir bölümünden veri topluyorsanız, modelinizin öğrenmesi için önemli olabilecek çeşitliliği büyük olasılıkla kaçırabilirsiniz.

Not

Belgeleriniz birden çok dildeyse, proje oluşturma sırasında çok dilliyi etkinleştir seçeneğini belirleyin ve dil seçeneğini belgelerinizin çoğunun diline ayarlayın.

Veri hazırlama

Proje oluşturma önkoşulu olarak, eğitim verilerinizin depolama hesabınızdaki bir blob kapsayıcısına yüklenmesi gerekir. Eğitim belgelerini doğrudan Azure'dan veya Azure Depolama Gezgini aracını kullanarak oluşturabilir ve karşıya yükleyebilirsiniz. Azure Depolama Gezgini aracını kullanarak hızla daha fazla veri yükleyebilirsiniz.

Yalnızca belgeleri kullanabilirsiniz .txt . Verileriniz başka bir biçimdeyse, belge biçiminizi değiştirmek için CLUtils ayrıştır komutunu kullanabilirsiniz.

Açıklamalı bir veri kümesini karşıya yükleyebilir veya not eklenmemiş bir veri kümesini karşıya yükleyip language studio'da verilerinizi etiketleyebilirsiniz .

Test kümesi

Test kümesini tanımlarken, eğitim kümesinde bulunmayan örnek belgeleri eklediğinizden emin olun. Test kümesini tanımlamak , model performansını hesaplamak için önemli bir adımdır. Ayrıca, test kümesinin projenizde kullanılan tüm varlıkları temsil eden belgeler içerdiğinden emin olun.

Sonraki adımlar

Henüz yapmadıysanız bir sağlık için özel Metin Analizi projesi oluşturun. sağlık için özel Metin Analizi ilk kez kullanıyorsanız, örnek bir proje oluşturmak için hızlı başlangıcı takip etmeyi göz önünde bulundurun. Proje oluşturmak için gerekenler hakkında daha fazla ayrıntı için nasıl yapılır makalesini de görebilirsiniz.