Alan ayıklama ve eşleme

Tamamlandı

Uyarı

Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!

Alan ayıklama, OCR'den metin çıktısı alma ve tek tek metin değerlerini anlamlı iş bilgilerine karşılık gelen belirli, etiketlenmiş veri alanlarıyla eşleme işlemidir. OCR bir belgede hangi metnin bulunduğunu bildirirken, alan ayıklama size bu metnin ne anlama geldiğini ve iş sistemlerinizde nereye ait olduğunu bildirir.

Alan çıkarma işlem hattı

Alan ayıklama, OCR çıkışını yapılandırılmış verilere dönüştüren sistematik bir işlem hattını izler.

Alan ayıklama işlem hattının diyagramı.

Alan ayıklama işleminin aşamaları şunlardır:

  1. OCR çıkış işlemesi.
  2. Alan algılama ve aday belirleme.
  3. Alan eşleme ve ilişkilendirme.
  4. Veri normalleştirme ve standartlaştırma.
  5. İş süreçleri ve sistemleriyle tümleştirme.

Şimdi bu aşamaları daha ayrıntılı bir şekilde inceleyelim.

1. Aşama: OCR çıkış alımı

İşlem, OCR işlem hattının yapılandırılmış çıkışıyla başlar ve bu çıkış şunları içerebilir:

  • Ham metin içeriği: Belgeden ayıklanan gerçek karakterler ve sözcükler
  • Konum meta verileri: Sınırlayıcı kutu koordinatları, sayfa konumları ve okuma sırası bilgileri
  • Güvenilirlik puanları: Her metin öğesi için OCR altyapısı güvenilirlik düzeyleri
  • Düzen bilgileri: Belge yapısı, satır sonları, paragraf sınırları

Uyarı

Basit metin işlemeden farklı olarak, alan ayıklama sadece metnin belgede nerede göründüğüne değil, ne söylediğine de bağlıdır. "12345" konumu bunun fatura numarası mı, müşteri kimliği mi yoksa telefon numarası mı olduğunu belirlemeye yardımcı olabilir.

2. Aşama: Alan algılama ve aday belirleme

Bu aşama, OCR çıkışındaki olası alan değerini tanımlar. OCR sonuçlarındaki olası alanları belirlemek için bağımsız olarak veya birlikte kullanılabilecek birden çok yaklaşım vardır.

Şablon tabanlı algılama

Alan algılama şablonları kural tabanlı desen eşleştirmeye dayanır. Alan belirleme aşağıdakiler gibi teknikler kullanılarak gerçekleştirilebilir:

  • Bilinen alan konumları ve anchor anahtar sözcükleriyle önceden tanımlanmış belge düzenleri.
  • "Fatura Numarası:", "Tarih:", "Toplam:" gibi etiket-değer çiftlerini arar.
  • Normal ifadeler ve dize eşleştirme algoritmaları.

Şablon tabanlı yaklaşımın avantajları arasında bilinen belge türleri için yüksek doğruluk, hızlı işleme ve açıklanabilir sonuçlar yer alır.

Yaklaşımın sınırlamaları, el ile şablon oluşturma gereksinimini ve düzen varyasyonlarının veya alan adlandırma tutarsızlıklarının neden olduğu karmaşıklığı içerir.

Makine öğrenmesi tabanlı algılama

Alanları bilinen adlara ve konumlara göre ayıklamak için sabit kodlanmış mantık yerine, öğrenilen ilişkileri temel alarak alanları ayıklayan bir makine öğrenmesi modelini eğitmek için örnek belgelerden oluşan bir corpus kullanabilirsiniz. Transformatör tabanlı modeller özellikle desenleri tanımlamak için bağlamsal ipuçları uygulamakta iyidir ve genellikle alan algılama çözümünün temelini oluşturur.

Alan algılama makine öğrenmesi modelleri için eğitim yaklaşımları şunlardır:

  • Denetimli öğrenme: Bilinen alan konumlarına sahip etiketli veri kümeleri üzerinde eğitilir.
  • Öz denetimli öğrenme: Düzen kalıplarını anlamak için geniş belge koleksiyonlarında önceden eğitildi.
  • Çok kalıcı öğrenme: Metin, görsel ve konumsal özellikleri birleştirir.
  • Gelişmiş model mimarileri, örneğin:
    • Metin öğeleri arasındaki uzamsal ilişkileri graf bağlantıları olarak modelleyen Graf Sinir Ağları (GNN).
    • Alan değerlerini tahmin ederken ilgili belge bölgelerine odaklanan dikkat mekanizmaları.
    • Yapılandırılmamış metin dizilerini yapılandırılmış alan atamalarına dönüştüren sıralar arası modeller.

Şema tabanlı ayıklama için üretken yapay zeka

Büyük dil modellerinde (LLM' ler) yapılan son gelişmeler, aşağıdakiler aracılığıyla daha verimli ve etkili alan algılama sağlayan yapay zeka tabanlı alan algılama tekniklerinin ortaya çıkmasına neden olmuştur:

  • Belgede bulunan metni ve şema tanımını LLM'ye sağladığınız ve metni şemanın alanlarıyla eşleştirdiğiniz istem tabanlı ayıklama.
  • Few-shot learning ile özelleşmiş alanları ayıklamak için en az sayıda örnekle modelleri eğitebilirsiniz.
  • Modellere adım adım alan tanımlama mantığında yol gösteren düşünce zinciri mantığı.

3. Aşama: Alan eşleme ve ilişkilendirme

Aday değerleri tanımlandıktan sonra belirli şema alanlarına eşlenmelidir:

Anahtar-değer eşleştirme teknikleri

Çoğu durumda, belge veya formdaki veri alanları anahtarlara eşlenebilen ayrık değerlerdir; örneğin, makbuz veya faturadaki satıcı adı, tarih ve toplam tutar. Anahtar-değer eşleştirme için kullanılan yaygın teknikler şunlardır:

  • Yakınlık analizi:

    • Uzamsal kümeleme: Uzaklık algoritmalarını kullanarak yakındaki metin öğelerini gruplandırın.
    • Okuma sırası analizi: Etiketleri değerlerle ilişkilendirmek için doğal metin akışını izleyin.
    • Geometrik ilişkiler: Hizalama, girintileme ve konumlandırma desenlerini kullanın.
  • Dil düzeni tanıma:

    • Adlandırılmış varlık tanıma (NER): Belirli varlık türlerini (tarihler, tutarlar, adlar) tanımlayın.
    • Konuşma parçası etiketleme: Etiketler ve değerler arasındaki dil bilgisi ilişkilerini anlama.
    • Bağımlılık ayrıştırma: Metindeki sözdizimsel ilişkileri analiz etme.

Tablo ve yapılandırılmış içerik işleme

Bazı belgeler, tablolar gibi daha karmaşık metin yapıları içerir. Örneğin, bir alış irsaliyesi veya faturada, madde adı, fiyat ve satın alınan miktar için sütunlar içeren bir satır öğesi tablosu yer alabilir.

Tablonun varlığı, aşağıdakiler gibi çeşitli teknikler kullanılarak belirlenebilir:

  • Tablo yapısı tanıma için özelleştirilmiş konvolüsyonel sinir ağı (CNN) mimarileri.
  • Tablo hücresi tanımlama için uyarlanmış nesne algılama yaklaşımları.
  • Tablo yapısını hücreler arasında grafik ilişkileri olarak modelleyen graf tabanlı ayrıştırma yaklaşımları.

Tablodaki hücrelerdeki değerleri alanlarla eşlemek için, alan ayıklama çözümü aşağıdaki tekniklerden birini veya birkaçını kullanabilir:

  • Tablo hücrelerini belirli alan şemalarıyla eşlemek için satır-sütun ilişkilendirmesi.
  • Sütun üst bilgilerini belirlemek ve alan anlamlarını anlayabilmek için üst bilgi algılama.
  • İç içe tablo yapılarını ve alt toplamları işlemek için hiyerarşik işleme.

Güvenilirlik puanlaması ve doğrulama

Alan ayıklama doğruluğu birçok faktöre bağlıdır ve çözümü uygulamak için kullanılan algoritmalar ve modeller olası yanlış belirleme veya değer yorumlama hatalarına tabidir. Bunu hesaba katmak için, tahmin edilen alan değerlerinin doğruluğunu değerlendirmek için çeşitli teknikler kullanılır; teknikler arasında şunlar bulunur:

  • OCR güvenilirliği: Altta yatan metin tanımadan güvenilirlik puanlarının aktarımı.
  • Desen eşleştirme doğruluğu: Ayıklamanın beklenen desenlere ne kadar iyi uyduğuna dair puanlama.
  • Bağlam doğrulaması: Alan değerlerinin belge bağlamında anlamlı olduğunu doğrulama.
  • Alanlar arası doğrulama: Ayıklanan alanlar arasındaki ilişkileri denetleme (örneğin, satır öğesi alt toplamlarının genel fatura toplamını verdiğini doğrulama).

4. Aşama: Veri normalleştirme ve standartlaştırma

Ham ayıklanan değerler genellikle tutarlı biçimlere dönüştürülür (örneğin, ayıklanan tüm tarihlerin aynı tarih biçiminde ifade edilmesini sağlamak için) ve geçerlilik denetimi yapılır.

Biçim standardizasyonu

Uygulanabilecek biçim standartlaştırma örnekleri şunlardır:

  • Tarih normalleştirmesi:

    • Biçim algılama: Çeşitli tarih biçimlerini (AA/GG/YYYY, DD-AA-YYYY vb.) tanımlayın.
    • Algoritmaları ayrıştırma: Standartlaştırılmış ISO biçimlerine dönüştürün.
    • Belirsizlik çözümü: Tarih biçiminin belirsiz olduğu durumları işleyebilir.
  • Para birimi ve sayısal işleme:

    • Sembol tanıma: Farklı para birimi simgelerini ve binlik ayırıcıları işleyebilir.
    • Ondalık normalleştirme: Yerel ayarlar arasında ondalık nokta gösterimini standart hale getirme.
    • Birim dönüştürme: Gerektiğinde farklı ölçü birimleri arasında dönüştürme yapın.
  • Metin standardizasyonu:

    • Büyük/küçük harf normalleştirme: Uyumlu büyük/küçük harf kullanımı kuralları uygulayın.
    • Kodlama standardizasyonu: Farklı karakter kodlamalarını ve özel karakterleri işleyin.
    • Kısaltma genişletmesi: Yaygın kısaltmaları tam biçimlere dönüştürün.

Veri Doğrulama ve Kalite Güvencesi

Standartlaştırma işlemi, ayıklanan alanları biçimlendirmenin yanı sıra aşağıdaki tekniklerle ayıklanan değerlerin daha fazla doğrulanmasına olanak tanır:

  • Kural tabanlı doğrulama:

    • Biçim denetimi: Ayıklanan değerlerin beklenen desenlerle (telefon numaraları, e-posta adresleri) eşleştiklerini doğrulayın.
    • Aralık doğrulaması: Sayısal değerlerin makul sınırlar içinde olduğundan emin olun.
    • Gerekli alan denetimi: Tüm zorunlu alanların mevcut olduğunu onaylayın.
  • İstatistiksel doğrulama:

    • Aykırı değer algılama: Ayıklama hatalarını gösterebilecek olağan dışı yüksek veya düşük değerleri belirleyin.
    • Dağıtım analizi: Ayıklanan değerleri geçmiş desenlerle karşılaştırın.
    • Belgeler arası doğrulama: İlgili belgeler arasında tutarlılığı denetleyin.

5. Aşama: İş süreçleri ve sistemleriyle tümleştirme

İşlemin son aşaması genellikle ayıklanan alan değerlerini bir iş sürecine veya sisteme tümleştirmeyi içerir:

Şema eşleştirme

Ayıklanan alanların aşağı akış sistemlerine veri alımı için kullanılan uygulama şemalarıyla uyumlu olması için daha fazla dönüştürülmesi veya yeniden biçimlendirilmesi gerekebilir. Örneğin:

  • Veritabanı şemaları: Ayıklanan alanları belirli veritabanı sütunlarına ve tablolarına eşleyin.
  • API yükleri: Aşağı akış sistemlerine göre REST API tüketimi için verileri biçimlendirin.
  • İleti kuyrukları: Zaman uyumsuz işleme için yapılandırılmış iletileri hazırlayın.

Şema eşleme işlemi aşağıdaki gibi dönüştürmeler içerebilir:

  • Alan yeniden adlandırma: Ayıklanan alan adlarını hedef sistem kurallarına uyarlayın.
  • Veri türü dönüştürme: Değerlerin hedef sistemlerdeki beklenen veri türleriyle eşleştiğinden emin olun.
  • Koşullu mantık: Alan dönüştürme ve türetme için iş kuralları uygulayın.

Kalite ölçümleri ve raporlama

Ayıklama işlemi tamamlandıktan sonra sık kullanılan bir diğer görev de ayıklanan verilerin kalitesini değerlendirmek ve raporlamaktır. Rapor aşağıdakiler gibi bilgiler içerebilir:

  • Alan düzeyinde güvenilirlik puanları: Ayıklanan her alan için bireysel güvenilirlik derecelendirmeleri.
  • Belge düzeyi kalite değerlendirmesi: Genel ayıklama başarı ölçümleri.
  • Hata kategorisi: Ayıklama hatalarını türe ve nedene göre sınıflandırın.