Aracılığıyla paylaş


Özel sınıflandırma modeli oluşturma ve eğitma

Bu içerik şunlar için geçerlidir:Checkmark v4.0 (önizleme) | Önceki sürümler:mavi onay işareti v3.1 (GA)mavi onay işareti v3.0 (GA)

Önemli

Özel sınıflandırma modeli şu anda genel önizleme aşamasındadır. Genel Kullanılabilirlik (GA) öncesinde kullanıcı geri bildirimlerine göre özellikler, yaklaşımlar ve süreçler değişebilir.

Özel sınıflandırma modelleri, içindeki bir veya daha fazla belgeyi tanımlamak için giriş dosyasındaki her sayfayı sınıflandırabilir. Sınıflandırıcı modelleri, giriş dosyasındaki tek bir belgenin birden çok belgesini veya birden çok örneğini de tanımlayabilir. Belge Yönetim Bilgileri özel modellerinin başlatılması için belge sınıfı başına en az beş eğitim belgesi gerekir. Özel sınıflandırma modelini eğitmeye başlamak için her sınıf için en az beş belgeye ve iki belge sınıfına ihtiyacınız vardır.

Özel sınıflandırma modeli giriş gereksinimleri

Eğitim veri kümenizin Belge Yönetim Bilgileri için giriş gereksinimlerini karşıladığından emin olun.

  • Desteklenen dosya biçimleri:

    Model PDF Resim:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Okundu
    Düzen ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Genel Belge
    Önceden oluşturulmuş
    Özel ayıklama
    Özel sınıflandırma ✔ (2024-07-31-preview, 2024-02-29-preview)
  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve 4 ücretsiz (F0) katman için MB'tır.

  • Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir 8 .

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

    • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve 1 sinir modeli için GB'tır.

    • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır 1 . 2024-07-31-preview ve üzeri sürümler için eğitim verilerinin toplam boyutu gb ve en fazla 10.000 sayfadır 2 .

Eğitim verileri ipuçları

Veri kümenizi eğitim için daha iyi hale getirmek üzere şu ipuçlarını izleyin:

  • Mümkünse, görüntü tabanlı belgeler yerine metin tabanlı PDF belgeleri kullanın. Taranan PDF'ler görüntü olarak işlenir.

  • Form görüntüleriniz daha düşük kalitedeyse daha büyük bir veri kümesi (örneğin 10-15 görüntü) kullanın.

Eğitim verilerinizi karşıya yükleme

Eğitim için form veya belge kümesini bir araya getirdiğinizde, bunu bir Azure blob depolama kapsayıcısına yüklemeniz gerekir. Kapsayıcıyla Azure depolama hesabı oluşturmayı bilmiyorsanız Azure portalı için Azure Depolama hızlı başlangıcını izleyin. Ücretsiz fiyatlandırma katmanını (F0) kullanarak hizmeti deneyebilir ve daha sonra üretim için ücretli bir katmana yükseltebilirsiniz. Veri kümeniz klasör olarak düzenlenmişse, Studio etiketleme işlemini basitleştirmek için klasör adlarınızı etiketler için kullanabileceğinden bu yapıyı koruyun.

Document Intelligence Studio'da sınıflandırma projesi oluşturma

Document Intelligence Studio, veri kümenizi tamamlamak ve modelinizi eğitmek için gereken tüm API çağrılarını sağlar ve düzenler.

  1. Başlangıç olarak Document Intelligence Studio'ya geçin. Studio'yu ilk kez kullandığınızda aboneliğinizi, kaynak grubunuzu ve kaynağınızı başlatmanız gerekir. Ardından, özel projelerin önkoşullarını izleyerek Studio'yu eğitim veri kümenize erişecek şekilde yapılandırın.

  2. Studio'da, sayfanın özel modeller bölümünde Özel sınıflandırma modeli kutucuğunu seçin ve Proje oluştur düğmesini seçin.

    Document Intelligence Studio'da sınıflandırıcı projesi oluşturma işleminin ekran görüntüsü.

    1. İletişim kutusunda Create Project projeniz için isteğe bağlı olarak bir açıklama girin ve Devam'ı seçin.

    2. Devam etmeden önce Belge Yönetim Bilgileri kaynağı oluştur'u seçin veya seçin.

    Proje kurulumu iletişim penceresini gösteren ekran görüntüsü.

  3. Ardından özel model eğitim veri kümenizi karşıya yüklemek için kullandığınız depolama hesabını seçin. Eğitim belgeleriniz kapsayıcının kökündeyse Klasör yolu boş olmalıdır. Belgeleriniz bir alt klasördeyse, Klasör yolu alanına kapsayıcı kökünden göreli yolu girin. Depolama hesabınız yapılandırıldıktan sonra Devam'ı seçin.

    Önemli

    Eğitim veri kümesini, klasör adının belgelerin etiketi veya sınıfı olduğu klasörlere göre düzenleyebilir veya Studio'da etiket atayabileceğiniz düz bir belge listesi oluşturabilirsiniz.

    Belge Yönetim Bilgileri kaynağını seçmeyi gösteren ekran görüntüsü.

  4. Özel bir sınıflandırıcıyı eğitin, veri kümenizdeki her belge için Düzen modelinden çıktı gerektirir. Model eğitim işleminden önce tüm belgelerde düzeni çalıştırın.

  5. Son olarak proje ayarlarınızı gözden geçirin ve Proje Oluştur'u seçerek yeni bir proje oluşturun. Şimdi etiketleme penceresinde olmanız ve veri kümenizdeki dosyaların listelendiğini görmeniz gerekir.

Verilerinizi etiketleme

Projenizde, her belgeyi yalnızca uygun sınıf etiketiyle etiketlemeniz gerekir.

Belge Yönetim Bilgileri kaynağını seçmeyi gösteren ekran görüntüsü.

Depolama alanına yüklediğiniz dosyaları dosya listesinde etiketlenmeye hazır olarak görürsünüz. Veri kümenizi etiketlemek için birkaç seçeneğiniz vardır.

  1. Belgeler klasörler halinde düzenlenmişse, Studio klasör adlarını etiket olarak kullanmanızı ister. Bu adım, etiketlemenizi tek bir seçime kadar basitleştirir.

  2. Belgeye etiket atamak için, etiket atamak için öğesini add label selection mark seçin.

  3. Etiket atamak için birden çok belge seçmek için denetim seçme

Artık veri kümenizdeki tüm belgeler etiketli olmalıdır. Depolama hesabına bakarsanız, eğitim veri kümenizdeki her belgeye karşılık gelen .ocr.json dosyaları ve etiketli her sınıf için yeni bir class-name.jsonl dosyası bulursunuz. Bu eğitim veri kümesi modeli eğitmek için gönderilir.

Modelinizi eğitme

Veri kümeniz etiketlenmiş durumdayken artık modelinizi eğitmeye hazırsınız. Sağ üst köşedeki tren düğmesini seçin.

  1. Modeli eğit iletişim kutusunda benzersiz bir sınıflandırıcı kimliği ve isteğe bağlı olarak bir açıklama sağlayın. Sınıflandırıcı kimliği bir dize veri türünü kabul eder.

  2. Eğitim işlemini başlatmak için Eğit'i seçin.

  3. Sınıflandırıcı modelleri birkaç dakika içinde eğitildi.

  4. Tren işleminin durumunu görüntülemek için Modeller menüsüne gidin.

Modeli test etme

Model eğitimi tamamlandıktan sonra model listesi sayfasında modeli seçerek modelinizi test edebilirsiniz.

  1. Modeli seçin ve Test düğmesini seçin.

  2. Dosyaya göz atarak veya bir dosyayı belge seçiciye bırakarak yeni bir dosya ekleyin.

  3. Bir dosya seçiliyken, modeli test etmek için Çözümle düğmesini seçin.

  4. Model sonuçları, tanımlanan belgelerin listesi, tanımlanan her belge için bir güvenilirlik puanı ve tanımlanan belgelerin her biri için sayfa aralığı ile görüntülenir.

  5. Tanımlanan her belgenin sonuçlarını değerlendirerek modelinizi doğrulayın.

SDK veya API kullanarak özel bir sınıflandırıcıyı eğitin

Studio, özel bir sınıflandırıcı eğitmek için API çağrılarını düzenler. Sınıflandırıcı eğitim veri kümesi, eğitim modelinizin API sürümüyle eşleşen düzen API'sinden çıktı gerektirir. Daha eski bir API sürümünden alınan düzen sonuçlarının kullanılması modelin daha düşük doğrulukla sonuçlanabilmesine neden olabilir.

Veri kümesi düzen sonuçları içermiyorsa, Studio eğitim veri kümeniz için düzen sonuçlarını oluşturur. Bir sınıflandırıcıyı eğitmek için API veya SDK kullanırken, düzen sonuçlarını tek tek belgeleri içeren klasörlere eklemeniz gerekir. Düzen sonuçları, düzeni doğrudan çağırırken API yanıtı biçiminde olmalıdır. SDK nesne modeli farklıdır. api sonuçlarının layout results olduğundan ve olmadığından SDK responseemin olun.

Sorun giderme

Sınıflandırma modeli, her eğitim belgesi için düzen modelinden sonuçlar gerektirir. Düzen sonuçlarını sağlamazsanız, Studio sınıflandırıcıyı eğitmeden önce her belge için düzen modelini çalıştırmayı dener. Bu işlem kısıtlanır ve 429 yanıtına neden olabilir.

Studio'da, sınıflandırma modeliyle eğitimden önce, düzen modelini her belgede çalıştırın ve özgün belgeyle aynı konuma yükleyin. Düzen sonuçları eklendikten sonra, sınıflandırıcı modelini belgelerinizle eğitebilirsiniz.

Sonraki adımlar