Aracılığıyla paylaş


En iyi yöntemler: etiketli veri kümeleri oluşturma

Bu içerik şunlar için geçerlidir:Checkmark v4.0 (önizleme) | Önceki sürümler:mavi onay işareti v3.1 (GA)mavi onay işareti v3.0 (GA)

Önemli

Etiketli veri kümeleri oluşturmaya yönelik en iyi yöntemler yalnızca özel şablon ve özel sinir modelleri için geçerlidir; özel üretici için Bkz . Özel Üretici

Özel modeller (şablon ve sinir) modeli eğitmek için en az beş belgeden oluşan etiketli bir veri kümesi gerektirir. Etiketlenmiş veri kümesinin kalitesi, eğitilen modelin doğruluğunu etkiler. Bu kılavuz, çeşitli veri kümelerini bir araya getirerek yüksek doğrulukta bir model oluşturma hakkında daha fazla bilgi edinmenize yardımcı olur ve belgelerinizi etiketlemek için en iyi yöntemleri sağlar.

Etiketli veri kümesinin bileşenlerini anlama

Etiketli bir veri kümesi birkaç dosyadan oluşur:

  • Bir dizi örnek belge (genellikle PDF'ler veya görüntüler) sağlarsınız. Modeli eğitmek için en az beş belge gerekir.

  • Ayrıca, etiketleme işlemi aşağıdaki dosyaları oluşturur:

    • fields.json İlk alan eklendiğinde bir dosya oluşturulur. Eğitim veri kümesinin tamamı için bir fields.json dosya vardır; alan listesi alan adını ve ilişkili alt alanları ve türleri içerir.

    • Studio, düzen API'sinde belgelerin her birini çalıştırır. Veri kümesindeki örnek dosyaların her biri için düzen yanıtı olarak {file}.ocr.jsoneklenir. Düzen yanıtı, belirli bir metin aralığı etiketlendiğinde alan etiketlerini oluşturmak için kullanılır.

    • Bir {file}.labels.json alan belgede etiketlendiğinde bir dosya oluşturulur veya güncelleştirilir. Etiket dosyası, kullanıcının belirli bir alan için değer olarak eklediği her metin aralığı için düzen çıkışından metin ve ilişkili çokgenlerin yayılma alanlarını içerir.

Video: Özel etiket ipuçları ve işaretçileri

  • Aşağıdaki video, daha yüksek doğrulukla özel modeller oluşturmanıza yardımcı olmak için tasarlanan iki sunudan ilkidir (İkinci sunu, belgeleri etiketlemek için en iyi yöntemleri inceler.

  • Dengeli bir veri kümesi oluşturmayı ve etiketlenmek için doğru belgeleri seçmeyi keşfediyoruz. Bu işlem sizi daha yüksek kaliteli modellere doğru ilerler.

Dengeli veri kümesi oluşturma

Etiketlemeye başlamadan önce, etiketlenmiş veri kümenizde hangi örnekleri kullanmak istediğinizi belirlemek için belgenin birkaç farklı örneğine bakmak iyi bir fikirdir. Dengeli veri kümesi, belge için görmeyi beklediğiniz tüm tipik varyasyonları temsil eder. Dengeli bir veri kümesi oluşturmak, modelin mümkün olan en yüksek doğrulukla sonuçlanmış olmasına neden olur. Dikkate alınması gereken birkaç örnek şunlardır:

  • Belge biçimleri: Hem dijital hem de taranmış belgeleri analiz etmek istiyorsanız, eğitim veri kümesine her tür için birkaç örnek ekleyin.

  • Çeşitlemeler (şablon modeli): Veri kümesini klasörlere bölmeyi ve her çeşitleme için bir model eğitme işlemini göz önünde bulundurun. Yapı veya düzen içeren çeşitlemeler farklı modellere ayrılmalıdır. Ardından tek tek modelleri tek bir oluşturulan modelde oluşturabilirsiniz.

  • Çeşitlemeler (Sinir modelleri): Veri kümenizde yaklaşık 15 veya daha az sayıda yönetilebilir varyasyon kümesi olduğunda, tek bir modeli eğitmek için farklı varyasyonların her birinin birkaç örneğini içeren tek bir veri kümesi oluşturun. Şablon varyasyonlarının sayısı 15'ten büyükse, birden çok modeli eğitip birlikte oluşturursunuz .

  • Tablolar: Değişken sayıda satır içeren tablolar içeren belgeler için, eğitim veri kümesinin farklı sayıda satıra sahip belgeleri de temsil ettiğinden emin olun.

  • Çok sayfalı tablolar: Tablolar birden çok sayfaya yayıldığında, tek bir tabloyu etiketle. Eğitim veri kümesine beklenen çeşitlemelerin gösterildiği belgeler (yalnızca tek bir sayfada tablo içeren belgeler ve tüm satırları etiketlenmiş iki veya daha fazla sayfaya yayılan tablo içeren belgeler) ekleyin.

  • İsteğe bağlı alanlar: Veri kümeniz isteğe bağlı alanlara sahip belgeler içeriyorsa, eğitim veri kümesinin seçeneklerle birlikte birkaç belge içerdiğini doğrulayın.

Alanları tanımlayarak başlayın

Veri kümesinde etiketlemeyi planladığınız alanların her birini tanımlamak için zaman ayırın. İsteğe bağlı alanlara dikkat edin. Desteklenen türlerle en uygun etiketleri içeren alanları tanımlayın.

Alanları tanımlamak için aşağıdaki yönergeleri kullanın:

  • Özel sinir modelleri için alanlar için anlamlı olarak ilgili adlar kullanın. Örneğin, ayıklanan değer iseEffective Date, bunu date1 gibi genel bir ad olarak adlandırın effective_date veya EffectiveDate adlandırmayın.

  • İdeal olarak, alanlarınıza Pascal veya camel case adını verin.

  • Bir değer görsel olarak yinelenen bir yapının parçasıysa ve yalnızca tek bir değere ihtiyacınız varsa, bunu tablo olarak etiketleyin ve işlem sonrası sırasında gerekli değeri ayıklayın.

  • Birden çok sayfayı kapsayan tablosal alanlar için alanları tek bir tablo olarak tanımlayın ve etiketlenin.

Not

Özel sinir modelleri, özel şablon modelleri ile aynı etiketleme biçimini ve stratejisini paylaşır. Şu anda özel sinir modelleri, özel şablon modelleri tarafından desteklenen alan türlerinin yalnızca bir alt kümesini destekler.

Model özellikleri

Özel sinir modelleri şu anda yalnızca anahtar-değer çiftlerini, yapılandırılmış alanları (tablolar) ve seçim işaretlerini destekler.

Model türü Form alanları Seçim işaretleri Tablosal alanlar İmza Bölge Çakışan alanlar
Özel nöral ✔️Destekli ✔️Destekli ✔️Destekli Desteklenmeyen ✔️Desteklenen1 ✔️Desteklenen2
Özel şablon ✔️Destekli ✔️Destekli ✔️Destekli ✔️Destekli ✔️Destekli Desteklenmeyen

1 Bölge etiketleme uygulaması, şablon ve sinir modelleri arasında farklılık gösterir. Şablon modellerinde eğitim işlemi, etiketli bölgede metin bulunamazsa eğitim zamanında yapay veri ekler. Sinir modellerinde sentetik metin eklenmez ve tanınan metin olduğu gibi kullanılır.
2 Üst üste binen alanlar, API sürümü ve sonraki sürümlerle 2024-02-29-preview başlayarak desteklenir. Çakışan alanların bazı sınırları vardır. Daha fazla bilgi için bkz. çakışan alanlar.

Tablosal alanlar

Tablosal alanlar (tablolar), API sürümü 2022-06-30-previewile başlayan özel sinir modelleri ile desteklenir. API sürüm 2022-06-30-preview veya sonraki sürümleriyle eğitilen modeller tablosal alan etiketlerini kabul eder ve API sürüm 2022-06-30-preview veya sonraki sürümlerle modelle analiz edilen belgeler, nesnedeki sonucun bölümündeki çıktıda documents analyzeResult tablosal alanlar oluşturur.

Tablosal alanlar varsayılan olarak çapraz sayfa tablolarını destekler. Birden çok sayfaya yayılan bir tabloyu etiketlemek için, tablonun her satırını tek bir tablodaki farklı sayfalar arasında etiketle. En iyi uygulama olarak, veri kümenizin beklenen varyasyonlardan birkaç örnek içerdiğinden emin olun. Örneğin, hem tablonun tamamının tek bir sayfada olduğu örnekleri hem de iki veya daha fazla sayfaya yayılan tablo örneklerini ekleyin.

Tablosal alanlar, tablo olarak tanınmayan bir belge içinde yinelenen bilgileri ayıklarken de yararlıdır. Örneğin, özgeçmişteki iş deneyimlerinin yinelenen bir bölümü tablosal alan olarak etiketlenebilir ve ayıklanabilir.

Not

Etiketlendiğinde tablo alanı yanıtın documents bölümünün bir parçası olarak ayıklanır. Yanıt, düzen modeli tarafından belgeden ayıklanan tabloları içeren bir tables bölüm de içerir. Bir alanı tablo olarak etiketlediyseniz, yanıtın belgeler bölümünde alanı arayın.

Etiketleme yönergeleri

  • Etiketleme değerleri gereklidir. Çevresindeki metni eklemeyin. Örneğin, onay kutusunu etiketlerken, alanı belgedeki evet veya hayır metnini etiketlemek yerine, onay kutusu seçimini gösterecek şekilde selectionYes selectionNo adlandırın.

  • Araya ekleme alanı değerleri sağlama. Bir alanın sözcüklerinin ve/veya bölgelerinin değeri, doğal okuma sırasında ardışık bir sıra olmalıdır.

  • Tutarlı etiketleme. Bir değer belge içinde birden çok bağlamda görünüyorsa, değeri etiketlemek için belgeler arasında tutarlı olarak aynı bağlamı seçin.

  • Görsel olarak yinelenen veriler. Tablolar yalnızca açık tabloları değil, görsel olarak yinelenen bilgi gruplarını destekler. Açık tablolar, çözümlenen belgelerin tablolar bölümünde düzen çıktısının bir parçası olarak tanımlanır ve tablo olarak etiketlenmeleri gerekmez. Yalnızca bilgiler görsel olarak yineleniyorsa ve düzen yanıtının bir parçası olarak tablo olarak tanımlanmadıysa tablo alanını etiketleyin. Örneğin, özgeçmişin yinelenen iş deneyimi bölümü olabilir.

  • Bölge etiketleme (özel şablon). Belirli bölgeleri etiketlemek, mevcut olmayan bir değer tanımlamanıza olanak tanır. Değer isteğe bağlıysa, bölge etiketlenmemiş birkaç örnek belge bıraktığınıza emin olun. Bölgeleri etiketlerken, çevresindeki metni etiketle birlikte eklemeyin.

  • Çakışan alanlar (özel sinir). Bölge etiketleme kullanarak alanı çakışıyor olarak etiketleyin. En azından eğitim veri kümenizde alanların nasıl çakışabileceğini açıklayan bir örneğe sahip olduğunuzdan emin olun.

Sonraki adımlar