Özel ayıklama modeli oluşturma ve eğitma

Bu içerik şunlar için geçerlidir:Checkmarkv4.0 (önizleme) | Önceki sürümler:mavi onay işaretiv3.1 (GA)mavi onay işaretiv3.0 (GA)mavi onay işaretiv2.1

Belge Yönetim Bilgileri modellerinin başlatılması için en az beş eğitim belgesi gerekir. En az beş belgeniz varsa, özel bir model eğitmeye başlayabilirsiniz. Özel şablon modeli (özel form) veya özel sinir modeli (özel belge) eğitebilirsiniz. Eğitim süreci her iki model için de aynıdır ve bu belge her iki modelin de eğitim sürecinde size yol gösterir.

Özel model giriş gereksinimleri

İlk olarak, eğitim veri kümenizin Belge Zekası için giriş gereksinimlerini karşıladığından emin olun.

  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • Desteklenen dosya biçimleri:

    Model PDF Resim:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) ve HTML
    Okundu
    Düzen ✔ (2024-02-29-preview, 2023-10-31-preview)
    Genel Belge
    Önceden oluşturulmuş
    Özel ayıklama
    Özel sınıflandırma ✔ (2024-02-29-preview)
  • PDF ve TIFF için en fazla 2000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.

  • Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta (DPI) olan yaklaşık 8noktalı metne karşılık gelir.

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

    • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.

    • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfadır 1GB .

Eğitim verileri ipuçları

Veri kümenizi eğitim için daha iyi hale getirmek üzere şu ipuçlarını izleyin:

  • Görüntü tabanlı belgeler yerine metin tabanlı PDF belgeleri kullanın. Taranan PDF'ler görüntü olarak işlenir.
  • Giriş alanları olan formlar için tüm alanların tamamlandığı örnekleri kullanın.
  • Her alanda farklı değerlere sahip olan formlar kullanın.
  • Form görüntüleriniz daha düşük kalitedeyse daha büyük bir veri kümesi (10-15 resim) kullanın.

Eğitim verilerinizi karşıya yükleme

Eğitim için bir form veya belge kümesi topladıktan sonra, bunu bir Azure blob depolama kapsayıcısına yüklemeniz gerekir. Kapsayıcıyla Azure depolama hesabı oluşturmayı bilmiyorsanız Azure portalı için Azure Depolama hızlı başlangıcını izleyin. Ücretsiz fiyatlandırma katmanını (F0) kullanarak hizmeti deneyebilir ve daha sonra üretim için ücretli bir katmana yükseltebilirsiniz.

Video: Özel modelinizi eğitme

  • Eğitim veri kümenizi toplayıp karşıya yükledikten sonra özel modelinizi eğitmeye hazırsınız demektir. Aşağıdaki videoda bir proje oluşturacak ve bir modeli başarıyla etiketlemek ve eğitecek bazı temelleri keşfedeceğiz.

Document Intelligence Studio'da proje oluşturma

Document Intelligence Studio, veri kümenizi tamamlamak ve modelinizi eğitmek için gereken tüm API çağrılarını sağlar ve düzenler.

  1. Başlangıç olarak Document Intelligence Studio'ya geçin. Studio'yu ilk kez kullandığınızda aboneliğinizi, kaynak grubunuzu ve kaynağınızı başlatmanız gerekir. Ardından, özel projelerin önkoşullarını izleyerek Studio'yu eğitim veri kümenize erişecek şekilde yapılandırın.

  2. Studio'da Özel modeller kutucuğunu, özel modeller sayfasında proje oluştur düğmesini seçin.

    Document Intelligence Studio'da proje oluşturma işleminin ekran görüntüsü.

    1. Proje oluştur iletişim kutusunda projeniz için isteğe bağlı olarak bir açıklama girin ve Devam'ı seçin.

    2. İş akışının sonraki adımında Devam'ı seçmeden önce bir Belge Yönetim Bilgileri kaynağı seçin veya oluşturun.

    Önemli

    Özel nöral modeller yalnızca birkaç bölgede kullanılabilir. Bir sinir modelini eğit almayı planlıyorsanız lütfen bu desteklenen bölgelerden birinde bir kaynak seçin veya oluşturun.

    Belge Yönetim Bilgileri kaynağını seçme işleminin ekran görüntüsü.

  3. Ardından özel model eğitim veri kümenizi karşıya yüklemek için kullandığınız depolama hesabını seçin. Eğitim belgeleriniz kapsayıcının kökündeyse Klasör yolu boş olmalıdır. Belgeleriniz bir alt klasördeyse, Klasör yolu alanına kapsayıcı kökünden göreli yolu girin. Depolama hesabınız yapılandırıldıktan sonra Devam'ı seçin.

    Depolama hesabını seçin öğesinin ekran görüntüsü.

  4. Son olarak proje ayarlarınızı gözden geçirin ve Proje Oluştur'u seçerek yeni bir proje oluşturun. Şimdi etiketleme penceresinde olmanız ve veri kümenizdeki dosyaların listelendiğini görmeniz gerekir.

Verilerinizi etiketleme

Projenizde ilk göreviniz veri kümenizi ayıklamak istediğiniz alanlarla etiketlemektir.

Depolama alanına yüklediğiniz dosyalar, ekranınızın sol tarafında listelenir ve ilk dosya etiketlenmeye hazır olur.

  1. Ekranın sağ üst kısmındaki artı (➕) düğmesini seçerek veri kümenizi etiketlemeye ve ilk alanınızı oluşturmaya başlayın.

    Etiket oluştur'un ekran görüntüsü.

  2. Alan için bir ad girin.

  3. Belgede bir sözcük veya sözcük seçerek alana bir değer atayın. Açılan listeden veya sağ gezinti çubuğundaki alan listesinden alanı seçin. Etiketlenen değer, alan listesindeki alan adının altındadır.

  4. Veri kümeniz için etiketlemek istediğiniz tüm alanlar için işlemi yineleyin.

  5. Her belgeyi seçip etiketlenecek metni seçerek veri kümenizdeki kalan belgeleri etiketle.

Artık veri kümenizdeki tüm belgeler etiketlenmiştir. .labels.json ve .ocr.json dosyaları, eğitim veri kümenizdeki her belgeye ve yeni bir fields.json dosyasına karşılık gelir. Bu eğitim veri kümesi modeli eğitmek için gönderilir.

Modelinizi eğitme

Veri kümeniz etiketlenmiş durumdayken artık modelinizi eğitmeye hazırsınız. Sağ üst köşedeki tren düğmesini seçin.

  1. Modeli eğit iletişim kutusunda benzersiz bir model kimliği ve isteğe bağlı olarak bir açıklama girin. Model kimliği bir dize veri türünü kabul eder.

  2. Derleme modu için eğitmek istediğiniz model türünü seçin. Model türleri ve özellikleri hakkında daha fazla bilgi edinin.

    Modeli eğit iletişim kutusunun ekran görüntüsü.

  3. Eğitim işlemini başlatmak için Eğit'i seçin.

  4. Şablon modelleri birkaç dakika içinde eğitildi. Sinir modellerinin eğitilmiş olması 30 dakika kadar sürebilir.

  5. Tren işleminin durumunu görüntülemek için Modeller menüsüne gidin.

Modeli test etme

Model eğitimi tamamlandıktan sonra model listesi sayfasında modeli seçerek modelinizi test edebilirsiniz.

  1. Modeli seçin ve Test düğmesini seçin.

  2. + Add Modeli test etmek için bir dosya seçmek için düğmesini seçin.

  3. Bir dosya seçiliyken, modeli test etmek için Çözümle düğmesini seçin.

  4. Model sonuçları ana pencerede görüntülenir ve ayıklanan alanlar sağ gezinti çubuğunda listelenir.

  5. Her alanın sonuçlarını değerlendirerek modelinizi doğrulayın.

  6. Sağ gezinti çubuğunda ayrıca modelinizi çağırmak için örnek kod ve API'den JSON sonuçları bulunur.

Tebrikler, Document Intelligence Studio'da özel bir model eğitmeye çalıştınız! Modeliniz, belgeleri analiz etmek için REST API veya SDK ile kullanıma hazırdır.

Şunlar için geçerlidir:Belge Yönetim Bilgileri v2.1 onay işaretiv2.1. Diğer sürümler:v3.0

Belge Zekası özel modelini kullandığınızda, modelin sektöre özgü formlarınıza eğitebilmesi için Özel Modeli Eğit işlemine kendi eğitim verilerinizi sağlarsınız. Modeli etkili bir şekilde eğitmek için veri toplamayı ve hazırlamayı öğrenmek için bu kılavuzu izleyin.

Aynı türde en az beş tamamlanmış form gerekir.

El ile etiketlenmiş eğitim verilerini kullanmak istiyorsanız, aynı türde en az beş tamamlanmış formla başlamalısınız. Gerekli veri kümesine ek olarak etiketlenmemiş formları kullanmaya devam edebilirsiniz.

Özel model giriş gereksinimleri

İlk olarak, eğitim veri kümenizin Belge Zekası için giriş gereksinimlerini karşıladığından emin olun.

  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • Desteklenen dosya biçimleri:

    Model PDF Resim:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) ve HTML
    Okundu
    Düzen ✔ (2024-02-29-preview, 2023-10-31-preview)
    Genel Belge
    Önceden oluşturulmuş
    Özel ayıklama
    Özel sınıflandırma ✔ (2024-02-29-preview)
  • PDF ve TIFF için en fazla 2000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.

  • Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta (DPI) olan yaklaşık 8noktalı metne karşılık gelir.

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

    • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.

    • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfadır 1GB .

Eğitim verileri ipuçları

Veri kümenizi eğitim için daha iyi hale getirmek için bu ipuçlarını izleyin.

  • Görüntü tabanlı belgeler yerine metin tabanlı PDF belgeleri kullanın. Taranan PDF'ler görüntü olarak işlenir.
  • Tamamlanmış formlar için tüm alanlarının doldurulduğu örnekleri kullanın.
  • Her alanda farklı değerlere sahip olan formlar kullanın.
  • Tamamlanmış formlar için daha büyük bir veri kümesi (10-15 resim) kullanın.

Eğitim verilerinizi karşıya yükleme

Eğitim için belge kümesini topladıktan sonra bir Azure blob depolama kapsayıcısına yüklemeniz gerekir. Kapsayıcıyla Azure depolama hesabı oluşturmayı bilmiyorsanız Azure portalı için Azure Depolama hızlı başlangıcını izleyin. Standart performans katmanını kullanın.

El ile etiketlenmiş verileri kullanmak istiyorsanız, eğitim belgelerinize karşılık gelen .labels.json ve .ocr.json dosyalarını karşıya yükleyin. Bu dosyaları oluşturmak için Örnek Etiketleme aracını (veya kendi kullanıcı arabiriminizi) kullanabilirsiniz.

Verilerinizi alt klasörlerde düzenleme (isteğe bağlı)

Varsayılan olarak, Özel Modeli Eğit API'sinde yalnızca depolama kapsayıcınızın kökünde bulunan belgeler kullanılır. Ancak, API çağrısında belirtirseniz alt klasörlerdeki verilerle eğitebilirsiniz. Normalde, Özel Modeli Eğit çağrısının gövdesi aşağıdaki biçime sahiptir; burada <SAS URL> kapsayıcınızın Paylaşılan erişim imzası URL'si olur:

{
  "source":"<SAS URL>"
}

İstek gövdesine aşağıdaki içeriği eklerseniz, API alt klasörlerde bulunan belgelerle eğitilmiş olur. bu "prefix" alan isteğe bağlıdır ve eğitim veri kümesini yolları verilen dizeyle başlayan dosyalarla sınırlar. Örneğin değerinin "Test"olması, API'nin yalnızca Test sözcüğüyle başlayan dosya veya klasörlere bakabilmesine neden olur.

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

Sonraki adımlar

Eğitim veri kümesi oluşturmayı öğrendiğinize göre, özel bir Belge Yönetim Bilgileri modelini eğitmek ve formlarınızda kullanmaya başlamak için hızlı başlangıcı izleyin.

Ayrıca bkz.