Metin etiketleme projesi ayarlama ve etiketleri dışarı aktarma

Azure Machine Learning'de metin verilerini etiketlemek için veri etiketleme projeleri oluşturmayı ve çalıştırmayı öğrenin. Her metin öğesine uygulanacak tek bir etiket veya birden çok etiket belirtin.

Ayrıca Azure Machine Learning'deki veri etiketleme aracını kullanarak bir görüntü etiketleme projesi oluşturabilirsiniz.

Metin etiketleme özellikleri

Azure Machine Learning veri etiketleme, veri etiketleme projeleri oluşturmak, yönetmek ve izlemek için kullanabileceğiniz bir araçtır. Bunu şunlar için kullanın:

  • Etiketleme görevlerini verimli bir şekilde yönetmek için verileri, etiketleri ve ekip üyelerini koordine edin.
  • İlerleme durumunu izleyin ve tamamlanmamış etiketleme görevleri kuyruğunun bakımını yapın.
  • Projeyi başlatın ve durdurun ve etiketleme ilerleme durumunu kontrol edin.
  • Etiketlenmiş verileri Azure Machine Learning veri kümesi olarak gözden geçirin ve dışarı aktarın.

Önemli

Azure Machine Learning veri etiketleme aracında birlikte çalıştığınız metin verilerinin bir Azure Blob Depolama veri deposunda kullanılabilir olması gerekir. Mevcut bir veri deponuz yoksa, proje oluştururken veri dosyalarınızı yeni bir veri deposuna yükleyebilirsiniz.

Bu veri biçimleri metin verileri için kullanılabilir:

  • .txt: Her dosya etiketlenecek bir öğeyi temsil eder.
  • .csv veya .tsv: Her satır, etiketleyiciye sunulan bir öğeyi temsil eder. Etiketleyicinin satırı etiketlediğinde hangi sütunları görebileceğine siz karar verirsiniz.

Önkoşullar

Azure Machine Learning'de metin etiketlemeyi ayarlamak için şu öğeleri kullanırsınız:

  • Yerel dosyalarda veya Azure Blob Depolama etiketlemek istediğiniz veriler.
  • Uygulamak istediğiniz etiket kümesi.
  • Etiketleme yönergeleri.
  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.
  • Azure Machine Learning çalışma alanı. Bkz. Azure Machine Learning çalışma alanı oluşturma.

Metin etiketleme projesi oluşturma

Etiketleme projeleri Azure Machine Learning'de yönetilir. Projelerinizi yönetmek için Machine Learning'deki Veri Etiketleme sayfasını kullanın.

Verileriniz zaten Azure Blob Depolama ise, etiketleme projesini oluşturmadan önce veri deposu olarak kullanılabilir olduğundan emin olun.

  1. Proje oluşturmak için Proje ekle'yi seçin.

  2. Proje adı için proje için bir ad girin.

    Projeyi silseniz bile proje adını yeniden kullanamazsınız.

  3. Metin etiketleme projesi oluşturmak için Medya türü için Metin'i seçin.

  4. Etiketleme görev türü için senaryonuz için bir seçenek belirleyin:

    • Bir etiket kümesindeki her metin parçasına yalnızca tek bir etiket uygulamak için Metin Sınıflandırması Çok sınıflı'yı seçin.
    • Bir etiket kümesindeki her metin parçasına bir veya daha fazla etiket uygulamak için Metin Sınıflandırması Çoklu etiket'i seçin.
    • Tek tek metin sözcüklerine veya her girdideki birden çok metin sözcüğüne etiket uygulamak için Varlık Tanıma Adlı Metin'i seçin.

    Screenshot that shows creating a labeling project for text labeling.

  5. Devam etmek için İleri'yi seçin.

İş gücü ekleme (isteğe bağlı)

yalnızca Azure Market bir veri etiketleme şirketiyle etkileşimde bulunduysanız Azure Market satıcı etiketleme şirketi kullan'ı seçin. Ardından satıcıyı seçin. Satıcınız listede görünmüyorsa bu seçeneği temizleyin.

Önce satıcıya başvurduğunuz ve bir sözleşme imzaladığınızdan emin olun. Daha fazla bilgi için bkz . Bir veri etiketleme satıcısı şirketiyle çalışma (önizleme).

Devam etmek için İleri'yi seçin.

Veri kümesi seçme veya oluşturma

Verilerinizi içeren bir veri kümesini zaten oluşturduysanız Var olan bir veri kümesini seçin açılan listesinden veri kümesini seçin. Ayrıca Mevcut azure veri depolarını kullanmak veya yerel dosyaları karşıya yüklemek için Veri kümesi oluştur'u da seçebilirsiniz.

Not

Bir proje 500.000'den fazla dosya içeremez. Veri kümeniz bu dosya sayısını aşarsa yalnızca ilk 500.000 dosya yüklenir.

Azure veri deposundan veri kümesi oluşturma

Çoğu durumda yerel dosyaları karşıya yükleyebilirsiniz. Ancak Azure Depolama Gezgini, büyük miktarda veriyi aktarmak için daha hızlı ve daha sağlam bir yol sağlar. Dosyaları taşımanın varsayılan yolu olarak Depolama Gezgini'ni öneririz.

Blob Depolama zaten depolanan verilerden veri kümesi oluşturmak için:

  1. Oluştur'u belirleyin.
  2. Ad alanına veri kümeniz için bir ad girin. İsteğe bağlı olarak bir açıklama girin.
  3. Veri kümesi türünü seçin:
    • .csv veya .tsv dosyası kullanıyorsanız ve her satır bir yanıt içeriyorsa, Tablosal'ı seçin.
    • Her yanıt için ayrı .txt dosyaları kullanıyorsanız Dosya'yı seçin.
  4. İleri'yi seçin.
  5. Azure depolamadan'ı ve ardından İleri'yi seçin.
  6. Veri depoyu seçin ve ardından İleri'yi seçin.
  7. Verileriniz Blob Depolama içindeki bir alt klasördeyse, yolu seçmek için Gözat'ı seçin.
    • Seçili yolun alt klasörlerine tüm dosyaları eklemek için yola ekleyin /** .
    • Geçerli kapsayıcıya ve alt klasörlerine tüm verileri eklemek için yola ekleyin **/*.* .
  8. Oluştur'u belirleyin.
  9. Oluşturduğunuz veri varlığını seçin.

Karşıya yüklenen verilerden veri kümesi oluşturma

Verilerinizi doğrudan karşıya yüklemek için:

  1. Oluştur'u belirleyin.
  2. Ad alanına veri kümeniz için bir ad girin. İsteğe bağlı olarak bir açıklama girin.
  3. Veri kümesi türünü seçin:
    • .csv veya .tsv dosyası kullanıyorsanız ve her satır bir yanıt içeriyorsa, Tablosal'ı seçin.
    • Her yanıt için ayrı .txt dosyaları kullanıyorsanız Dosya'yı seçin.
  4. İleri'yi seçin.
  5. Yerel dosyalardan'ı ve ardından İleri'yi seçin.
  6. (İsteğe bağlı) Bir veri deposu seçin. Varsayılan, Machine Learning çalışma alanınız için varsayılan blob deposuna (workspaceblobstore) yüklenir.
  7. İleri'yi seçin.
  8. Karşıya yüklenecek>yerel dosyaları veya klasörleri seçmek için Karşıya dosya yükle'yi veya Karşıya Yükle>klasörünü seçin.
  9. Dosyalarınızı veya klasörünüzü tarayıcı penceresinde bulun ve aç'ı seçin.
  10. Tüm dosya ve klasörlerinizi belirtene kadar Karşıya Yükle'yi seçmeye devam edin.
  11. İsteğe bağlı olarak Zaten varsa Üzerine yaz onay kutusunu seçin. Dosya ve klasör listesini doğrulayın.
  12. İleri'yi seçin.
  13. Ayrıntıları onaylayın. Ayarları değiştirmek için Geri'yi veya veri kümesini oluşturmak için Oluştur'u seçin.
  14. Son olarak, oluşturduğunuz veri varlığını seçin.

Artımlı yenilemeyi yapılandırma

Veri kümenize yeni veri dosyaları eklemeyi planlıyorsanız, dosyaları projenize eklemek için artımlı yenilemeyi kullanın.

Düzenli aralıklarla artımlı yenilemeyi etkinleştir ayarlandığında, etiketleme tamamlanma hızına göre yeni dosyaların projeye eklenmesi için veri kümesi düzenli aralıklarla denetlenir. Proje en fazla 500.000 dosya içerdiğinde yeni veri denetimi durdurulur.

Projenizin veri deposundaki yeni verileri sürekli izlemesini istediğinizde Düzenli aralıklarla artımlı yenilemeyi etkinleştir'i seçin.

Veri deposundaki yeni dosyaların projenize otomatik olarak eklenmesini istemiyorsanız seçimi temizleyin.

Önemli

Güncelleştirmek istediğiniz veri kümesi için yeni bir sürüm oluşturmayın. Bunu yaparsanız, veri etiketleme projesi ilk sürüme sabitlendiğinden güncelleştirmeler görünmez. Bunun yerine, blob Depolama uygun klasördeki verilerinizi değiştirmek için Azure Depolama Gezgini kullanın.

Ayrıca, verileri kaldırmayın. Projenizin kullandığı veri kümesinden veri kaldırma işlemi, projede hataya neden olur.

Proje oluşturulduktan sonra artımlı yenilemeyi değiştirmek, son yenilemenin zaman damgasını görüntülemek ve verilerin hemen yenilenmesini istemek için Ayrıntılar sekmesini kullanın.

Not

Tablosal (.csv veya .tsv) veri kümesi girişi kullanan projeler artımlı yenileme kullanabilir. Ancak artımlı yenileme yalnızca yeni tablo dosyaları ekler. Yenileme, mevcut tablo dosyalarındaki değişiklikleri tanımaz.

Etiket kategorilerini belirtme

Etiket kategorileri sayfasında, verilerinizi kategorilere ayırmak için bir sınıf kümesi belirtin.

Etiketleyicilerinizin doğruluğu ve hızı sınıflar arasında seçim yapma özelliğinden etkilenir. Örneğin, bitkiler veya hayvanlar için tam cins ve türlerin yazımını çıkarmak yerine bir alan kodu kullanın veya cinsi kısaltın.

Düz bir liste kullanabilir veya etiket grupları oluşturabilirsiniz.

  • Düz liste oluşturmak için Etiket kategorisi ekle'yi seçerek her etiketi oluşturun.

    Screenshot that shows how to add a flat structure of labels.

  • Farklı gruplarda etiket oluşturmak için Etiket kategorisi ekle'yi seçerek en üst düzey etiketleri oluşturun. Ardından, her üst düzeyin altındaki artı işaretini (+) seçerek bu kategori için bir sonraki etiket düzeyini oluşturun. Herhangi bir gruplandırma için en fazla altı düzey oluşturabilirsiniz.

    Screenshot that shows how to add groups of labels.

Etiketleme işlemi sırasında etiketleri istediğiniz düzeyde seçebilirsiniz. Örneğin , , , Animal/DogAnimal/Cat, Color, Color/Black, , Color/Whiteve Color/Silver etiketlerinin Animaltümü bir etiket için kullanılabilir seçeneklerdir. Çok etiketli bir projede her kategoriden birini seçmeniz gerekmez. Amacınız buysa, bu bilgileri yönergelerinize eklediğinizden emin olun.

Metin etiketleme görevini açıklama

Etiketleme görevini açıkça açıklamak önemlidir. Etiketleme yönergeleri sayfasında, etiketleme yönergeleri olan bir dış siteye bağlantı ekleyebilir veya sayfadaki düzenleme kutusunda yönergeler sağlayabilirsiniz. Yönergeleri görev odaklı ve hedef kitleye uygun tutun. Şu soruları göz önünde bulundurun:

  • Etiket etiketleyicileri neleri görecek ve aralarından nasıl seçim yapacaklar? Başvuru metni var mı?
  • Etiket uygun görünmüyorsa ne yapmalı?
  • Birden çok etiket uygun görünüyorsa ne yapmalı?
  • Bir etikete hangi güvenilirlik eşiği uygulanmalıdır? Emin değilse etiketleyicinin en iyi tahminini istiyor musunuz?
  • Kısmen dolu veya çakışan nesnelerle ne yapmalı?
  • İlgi çekici bir nesne görüntünün kenarı tarafından kırpılırsa ne yapmalı?
  • Etiket gönderdikten sonra hata yaptıklarını düşünüyorlarsa ne yapmalılar?
  • Kötü aydınlatma koşulları, yansımalar, odak kaybı, istenmeyen arka plan dahil, anormal kamera açıları vb. gibi görüntü kalitesi sorunları keşfederlerse ne yapmalılar?
  • Birden çok gözden geçirenin etiket uygulama hakkında farklı fikirleri varsa ne yapmalıdır?

Not

Etiket oluşturucular 1 ile 9 arasında sayı tuşlarını kullanarak ilk dokuz etiketi seçebilir.

Kalite denetimi (önizleme)

Daha doğru etiketler elde etmek için Kalite denetim sayfasını kullanarak her öğeyi birden çok etiketleyiciye gönderin.

Önemli

Konsensüs etiketlemesi şu anda genel önizleme aşamasındadır.

Önizleme sürümü bir hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir.

Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.

Her öğenin birden çok etiketleyiciye gönderilmesini sağlamak için Konsensüs etiketlemesini etkinleştir (önizleme) seçeneğini belirleyin. Ardından, kaç etiketleyici kullanılacağını belirtmek için En az etiketleyici ve En fazla etiketleyici değerlerini ayarlayın. En fazla sayıda etiketleyiciniz olduğundan emin olun. Proje başlatıldıktan sonra bu ayarları değiştiremezsiniz.

En az etiketleyici sayısından bir fikir birliği sağlanırsa, öğe etiketlenmiş olur. Bir konsensüse ulaşılamazsa, öğe daha fazla etiketleyiciye gönderilir. Öğe etiketleyici sayısı üst sınırına gittikten sonra bir fikir birliği yoksa, öğenin durumu Gözden Geçirilmesi Gerekiyor olur ve öğeyi etiketlemekten proje sahibi sorumludur.

ML destekli veri etiketlemeyi kullanma

Etiketleme görevlerini hızlandırmak için ML destekli etiketleme sayfası otomatik makine öğrenmesi modellerini tetikleyebilir. Makine öğrenmesi (ML) destekli etiketleme hem dosya (.txt) hem de tablosal (.csv) metin veri girişlerini işleyebilir.

ML destekli etiketlemeyi kullanmak için:

  1. ML destekli etiketlemeyi etkinleştir'i seçin.
  2. Proje için Veri kümesi dilini seçin. Bu liste, TextDNNLanguages Sınıfının desteklediği tüm dilleri gösterir.
  3. Kullanılacak işlem hedeflerini belirtin. Çalışma alanınızda işlem hedefi yoksa, bu adım bir işlem kümesi oluşturur ve bunu çalışma alanınıza ekler. Küme en az sıfır düğümle oluşturulur ve kullanılmadığında hiçbir maliyeti yoktur.

ML destekli etiketleme hakkında daha fazla bilgi

Etiketleme projenizin başlangıcında, olası sapmaları azaltmak için öğeler rastgele bir sırada karıştırılır. Ancak eğitilen model, veri kümesinde mevcut olan yanlılıkları yansıtır. Örneğin, öğelerinizin yüzde 80'i tek bir sınıftaysa, modeli eğitmek için kullanılan verilerin yaklaşık yüzde 80'i bu sınıfta yer alır.

ML destekli etiketlemenin kullandığı DNN metnini eğitmek için, eğitim örneği başına giriş metni belgedeki yaklaşık olarak ilk 128 sözcükle sınırlıdır. Tablosal giriş için, bu sınır uygulanmadan önce tüm metin sütunları birleştirilir. Bu pratik sınır, model eğitiminin makul bir süre içinde tamamlanmasını sağlar. Belgedeki gerçek metin (dosya girişi için) veya metin sütunları kümesi (tablosal giriş için) 128 sözcüğü aşabilir. Sınır yalnızca modelin eğitim sürecinde dahili olarak kullandığı değerle ilgili.

Yardımlı etiketlemeyi başlatmak için gereken etiketlenmiş öğelerin sayısı sabit bir sayı değildir. Bu sayı, bir etiketleme projesinden diğerine önemli ölçüde farklılık gösterebilir. Varyans, etiket sınıflarının sayısı ve etiket dağılımı dahil olmak üzere birçok faktöre bağlıdır.

Konsensüs etiketlemesini kullandığınızda, konsensüs etiketi eğitim için kullanılır.

Son etiketler yine de etiketleyicinin girişlerine bağlı olduğundan, bu teknoloji bazen döngüde insan etiketleme olarak adlandırılır.

Not

ML destekli veri etiketleme, sanal ağın arkasında güvenliği sağlanan varsayılan depolama hesaplarını desteklemez. ML destekli veri etiketleme için varsayılan olmayan bir depolama hesabı kullanmanız gerekir. Varsayılan olmayan depolama hesabı sanal ağın arkasında güvenli hale getirilebilir.

Ön etiketleme

Eğitim için yeterli etiket gönderdikten sonra, etiketleri tahmin etmek için eğitilen model kullanılır. Etiketleyici artık her öğede zaten mevcut olan tahmin edilen etiketleri gösteren sayfaları görüyor. Görev daha sonra bu tahminleri gözden geçirmeyi ve sayfa göndermeden önce yanlış etiketlenen öğeleri düzeltmeyi içerir.

Makine öğrenmesi modelini el ile etiketlenmiş verilerinizde eğitdikten sonra model, el ile etiketlenmiş öğelerden oluşan bir test kümesinde değerlendirilir. Değerlendirme, modelin doğruluğunu farklı güvenilirlik eşiklerinde belirlemeye yardımcı olur. Değerlendirme işlemi, modelin ön etiketleri gösterecek kadar doğru olduğu bir güvenilirlik eşiği ayarlar. Model daha sonra etiketlenmemiş verilere göre değerlendirilir. Eşikten daha güvenli tahminlere sahip öğeler, ön etiketleme için kullanılır.

Metin etiketleme projesini başlatma

Etiketleme projesi başlatıldıktan sonra, projenin bazı yönleri sabittir. Görev türünü veya veri kümesini değiştiremezsiniz. Görev açıklamasının etiketlerini ve URL'sini değiştirebilirsiniz. Projeyi oluşturmadan önce ayarları dikkatle gözden geçirin. Projeyi gönderdikten sonra, projeyi Başlatıyor olarak gösteren Veri Etiketlemeye genel bakış sayfasına dönersiniz.

Not

Bu sayfa otomatik olarak yenilenmeyebilir. Bir duraklamadan sonra, projenin Durumunu Oluşturuldu olarak görmek için sayfayı el ile yenileyin.

Sorun giderme

Proje oluşturma veya verilere erişme sorunları için bkz . Veri etiketleme sorunlarını giderme.

Sonraki adımlar