Azure Form Tanıma düzen modeli

Bu makale:Form Tanıma v3.0 onay işaretiForm Tanıma v3.0 için geçerlidir. Önceki sürüm:Form Tanıma v2.1

Bu makale:Form Tanıma v2.1 onay işaretiForm Tanıma v2.1 için geçerlidir. Sonraki sürüm:Form Tanıma v3.0

Form Tanıma düzen modeli, Form Tanıma bulutta kullanılabilen gelişmiş bir makine öğrenmesi tabanlı belge analizi API'dir. Belgeleri çeşitli biçimlerde almanıza ve belgelerin yapılandırılmış veri gösterimlerini döndürmenize olanak tanır. Metinleri, tabloları, seçim işaretlerini ve belge yapısını ayıklamak için güçlü Optik Karakter Tanıma (OCR) özelliklerimizin gelişmiş bir sürümünü derin öğrenme modelleriyle birleştirir.

Belge düzeni analizi

Belge yapısı düzeni analizi, ilgilendiğiniz bölgeleri ve bunların ilişkileri arasındaki ilişkileri ayıklamak için belgeyi analiz etme işlemidir. Amaç, daha iyi anlamsal anlayış modelleri oluşturmak için sayfadan metin ve yapısal öğeleri ayıklamaktır. Metnin belge düzeninde oynadığı iki tür rol vardır:

  • Geometrik roller: Metin, tablolar ve seçim işaretleri geometrik rollere örnektir.
  • Mantıksal roller: Başlıklar, başlıklar ve alt bilgiler mantıksal rol örnekleridir.

Aşağıdaki çizimde örnek bir sayfanın görüntüsündeki tipik bileşenler gösterilmektedir.

Belge düzeni örneğinin çizimi.

Form Tanıma Studio ile işlenen örnek form

Form Tanıma Studio kullanılarak işlenen örnek gazete sayfasının ekran görüntüsü.

Dağıtım seçenekleri

Aşağıdaki araçlar Form Tanıma v3.0 tarafından desteklenir:

Özellik Kaynaklar Model Kimliği
Düzen modeli önceden oluşturulmuş düzen

Giriş gereksinimleri

  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • Desteklenen dosya biçimleri:

    Modelleme PDF Resim:
    JPEG/JPG, PNG, BMP ve TIFF
    Microsoft Office:
    Word (DOCX), Excel (XLS), PowerPoint (PPT) ve HTML
    Okuma REST API sürümü
    2022/06/30-preview
    Layout
    Genel Belge
    Önceden oluşturulmuş
    Özel

    ✱ Microsoft Office dosyaları şu anda diğer modeller veya sürümler için desteklenmemektedir.

  • PDF ve TIFF için en fazla 2000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katmanı için 500 MB'tan az ve ücretsiz (F0) katmanı için 4 MB'tan az olmalıdır.

  • Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF boyutları, Yasal veya A3 kağıt boyutuna karşılık gelen 17 x 17 inç veya daha küçüktür.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta (DPI) olan yaklaşık 8 noktalı metne karşılık gelir.

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı, özel şablon modeli için 500 ve özel sinir modeli için 50.000'dir.

  • Özel model eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.

  • Desteklenen dosya biçimleri: JPEG, PNG, PDF ve TIFF
  • PDF ve TIFF için en fazla 2000 sayfa işlenir. Ücretsiz katman aboneleri için yalnızca ilk iki sayfa işlenir.
  • Dosya boyutu 50 MB'tan az ve boyutlar en az 50 x 50 piksel ve en çok 10.000 x 10.000 piksel olmalıdır.

Düzen ayıklamayı deneyin

Metin, tablo, tablo üst bilgileri, seçim işaretleri ve yapı bilgileri gibi verilerin Form Tanıma kullanılarak belgelerden nasıl ayıklandığına bakın. Aşağıdaki kaynaklara ihtiyacınız olacaktır:

Ekran görüntüsü: Azure portal anahtarlar ve uç nokta konumu.

Form Tanıma Studio

Not

Form Tanıma Studio, v3.0 API'siyle kullanılabilir.

Form Tanıma Studio ile işlenen örnek form

Ekran görüntüsü: Form Tanıma Studio'da bir gazete sayfasını işleme düzeni.

  1. Form Tanıma Studio giriş sayfasında Düzen'i seçin

  2. Örnek belgeyi analiz edebilir veya + Ekle düğmesini seçerek kendi örneğinizi karşıya yükleyebilirsiniz.

  3. Çözümle düğmesini seçin:

    Ekran görüntüsü: Çözümle düzen menüsü.

Form Tanıma Örnek Etiketleme aracı

  1. Form Tanıma örnek aracına gidin.

  2. Örnek araç giriş sayfasında Metni, tabloları ve seçim işaretlerini almak için Düzeni Kullan'ı seçin.

    Form Tanıma düzeni işleminin bağlantı ayarlarının ekran görüntüsü.

  3. Form tanıma hizmeti uç noktası alanına, Form Tanıma aboneliğinizle elde ettiğiniz uç noktayı yapıştırın.

  4. Anahtar alanına, Form Tanıma kaynağınızdan aldığınız anahtarı yapıştırın.

  5. Kaynak alanında açılan menüden URL'yi seçin Örnek belgemizi kullanabilirsiniz:

  6. Düzeni Çalıştır'ı seçin. Form Tanıma Örnek Etiketleme aracı, Düzeni Çözümle API'sini çağırır ve belgeyi analiz eder.

    Ekran görüntüsü: Düzen açılan penceresi.

  7. Sonuçları görüntüleme - ayıklanan vurgulanmış metne, seçim işaretlerinin algılandığına ve tabloların algılandığına bakın.

    Form Tanıma Örnek Etiketleme aracının bağlantı ayarlarının ekran görüntüsü.

Desteklenen belge türleri

Modelleme Görüntüler PDF TIFF
Layout

Desteklenen diller ve yerel ayarlar

Desteklenen el yazısı ve basılı dillerin tam listesi için bkz. Dil Desteği.

Veri ayıklama

v3.0 GA'dan başlayarak, paragrafları ve başlıklar, bölüm başlıkları, sayfa üst bilgisi, sayfa alt bilgisi, sayfa numarası ve dipnot gibi daha fazla yapı bilgisini belge sayfasından ayıklar. Bu yapısal öğeler, önceki bölümde açıklanan mantıksal rol örnekleridir. Bu özellik PDF belgeleri ve görüntüleri (JPG, PNG, BMP, TIFF) için desteklenir.

Modelleme Metin Seçim İşaretleri Tablolar Paragraf Mantıksal roller
Layout

Paragraflar için desteklenen mantıksal roller: Paragraf rolleri en iyi yapılandırılmamış belgelerde kullanılır. Paragraf rolleri, daha iyi anlamsal arama ve analiz için ayıklanan içeriğin yapısını analize yardımcı olur.

  • başlık
  • sectionHeading
  • Dipnot
  • Pageheader
  • pageFooter
  • Pagenumber

Veri ayıklama

Modelleme Metin Tablolar Seçim işaretleri
Layout

Aşağıdaki araçlar Form Tanıma v2.1 tarafından desteklenir:

Özellik Kaynaklar
Düzen API'si

Model ayıklama

Düzen modeli belgelerinizden metin, seçim işaretleri, tablolar, paragraflar ve paragraf türlerini (roles) ayıklar.

Paragraf ayıklama

Düzen modeli, koleksiyondaki paragraphs tanımlanan tüm metin bloklarını altında analyzeResultsen üst düzey nesne olarak ayıklar. Bu koleksiyondaki her giriş bir metin bloğunu temsil eder ve ayıklanan metni ve sınırlayıcı polygon koordinatları içerircontent. Bilgiler, span belgedeki tam metni içeren en üst düzey content özellik içindeki metin parçasını gösterir.

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Paragraf rolleri

Yeni makine öğrenmesi tabanlı sayfa nesnesi algılama, başlıklar, bölüm başlıkları, sayfa üst bilgileri, sayfa alt bilgileri ve daha fazlası gibi mantıksal rolleri ayıklar. Form Tanıma Düzeni modeli, koleksiyondaki paragraphs belirli metin bloklarını özel rolleri veya model tarafından tahmin edilen türleriyle atar. Daha zengin bir anlam analizi için ayıklanan içeriğin düzenini anlamanıza yardımcı olması için en iyi şekilde yapılandırılmamış belgelerle birlikte kullanılırlar. Aşağıdaki paragraf rolleri desteklenir:

Tahmin edilen rol Açıklama
title Sayfadaki ana başlıklar
sectionHeading Sayfada bir veya daha fazla alt başlık
footnote Sayfanın alt kısmındaki metin
pageHeader Sayfanın üst kenarına yakın metin
pageFooter Sayfanın alt kenarına yakın metin
pageNumber Sayfa numarası
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Sayfa ayıklama

Pages koleksiyonu, hizmet yanıtında gördüğünüz ilk nesnedir.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": [],
        "kind": "document"
    }
]

Metin satırları ve sözcük ayıklama

Form Tanıma'daki belge düzeni modeli, ve olarak lineswordsyazdırılacak ve el yazısıyla yazılmış stil metnini ayıklar. Model, sınırlayıcı polygon koordinatlar ve confidence ayıklanan sözcükler için çıkışlar oluşturur. Koleksiyon, styles algılanırsa satırlar için el yazısıyla yazılmış herhangi bir stili ve ilişkili metne işaret eden aralıkları içerir. Bu özellik desteklenen el yazısı diller için geçerlidir.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Seçim işaretleri ayıklama

Düzen modeli, belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri her sayfa için koleksiyon içinde pages görünür. Sınırlayıcı polygon, confidenceve seçimini state (selected/unselected içerirler). Ayıklanan tüm ilişkili metinler başlangıç dizini (offset) olarak da eklenir ve length belgedeki tam metni içeren en üst düzey content özelliğe başvurur.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Belgelerden ve görüntülerden tablo ayıklama

Tabloları ayıklamak, genellikle tablo olarak biçimlendirilmiş büyük hacimli verileri içeren belgeleri işlemek için önemli bir gereksinimdir. Düzen modeli, JSON çıkışının pageResults bölümündeki tabloları ayıklar. Ayıklanan tablo bilgileri sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir. Sınırlayıcı çokgenli her hücre, bir olarak columnHeader tanınıp tanınmadığıyla ilgili bilgilerle birlikte çıkıştır. Model, döndürülen tabloları ayıklamayı destekler. Her tablo hücresi satır ve sütun dizinini ve sınırlayıcı çokgen koordinatlarını içerir. Hücre metni için model, başlangıç dizinini span (offset ) içeren bilgileri verir. Model, belgeden length tam metni içeren üst düzey içerik içinde de çıkışını verir.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Metin çizgileri için el yazısı stili (yalnızca Latin dilleri)

Yanıt, her metin satırının el yazısı stilinde olup olmadığını sınıflandırmayı ve güvenilirlik puanını içerir. Bu özellik yalnızca Latin dilleri için desteklenir. Aşağıdaki örnekte örnek bir JSON kod parçacığı gösterilmektedir.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Seçili sayfaları belgelerden ayıklar

Çok sayfalı büyük belgelerde, metin ayıklama için belirli sayfa numaralarını veya sayfa aralıklarını belirtmek için sorgu parametresini kullanın pages .

Doğal okuma sırası çıkışı (yalnızca Latin)

Sorgu parametresiyle readingOrder metin satırlarının çıkış sırasını belirtebilirsiniz. Aşağıdaki örnekte gösterildiği gibi daha insan dostu okuma sırası çıkışı için kullanın natural . Bu özellik yalnızca Latin dilleri için desteklenir.

Düzen modeli okuma sırası işleme ekran görüntüsü.

Metin ayıklama için sayfa numaralarını veya aralıkları seçme

Çok sayfalı büyük belgelerde, metin ayıklama için belirli sayfa numaralarını veya sayfa aralıklarını belirtmek için sorgu parametresini kullanın pages . Aşağıdaki örnekte, her iki durumda da metin ayıklanmış 10 sayfalı bir belge gösterilmektedir: tüm sayfalar (1-10) ve seçili sayfalar (3-6).

Seçili sayfa çıktısı düzen modelinin ekran görüntüsü.

Çözümle Düzenini Al Sonucu işlemi

İkinci adım, Çözümle Düzeni Sonucunu Al işlemini çağırmaktır. Bu işlem, Giriş olarak Düzeni Çözümle işlemi tarafından oluşturulan Sonuç Kimliğini alır. Aşağıdaki olası değerleri içeren bir durum alanı içeren bir JSON yanıtı döndürür.

Alan Tür Olası değerler
durum string notStarted: Çözümleme işlemi başlatılmadı.

running: Çözümleme işlemi devam ediyor.

failed: Çözümleme işlemi başarısız oldu.

succeeded: Çözümleme işlemi başarılı oldu.

Değeri döndürene kadar bu işlemi yinelemeli olarak çağırın succeeded . Saniye başına istek (RPS) hızını aşmamak için 3 ila 5 saniyelik bir aralık kullanın.

Durum alanında succeeded değer olduğunda, JSON yanıtı ayıklanan düzeni, metni, tabloları ve seçim işaretlerini içerir. Ayıklanan veriler ayıklanan metin satırlarını ve sözcükleri, sınırlayıcı kutuları, el yazısı göstergeli metin görünümünü, tabloları ve seçili/seçili olmayan işaretleriyle seçim işaretlerini içerir.

Metin satırları için el yazısı sınıflandırma (yalnızca Latin)

Yanıt, her metin satırının el yazısı stilinde olup olmadığını sınıflandırmayı ve güvenilirlik puanını içerir. Bu özellik yalnızca Latin dilleri için desteklenir. Aşağıdaki örnekte, görüntüdeki metnin el yazısı sınıflandırması gösterilmektedir.

Düzen modeli el yazısı sınıflandırma işleminin ekran görüntüsü.

Örnek JSON çıkışı

Çözümle Düzeni Sonucunu Al işlemine verilen yanıt, belgenin tüm bilgilerin ayıklandığı yapılandırılmış bir gösterimidir. Örnek belge dosyası ve yapılandırılmış çıktı örneği düzen çıktısı için buraya bakın.

JSON çıkışının iki bölümü vardır:

  • readResults düğüm tanınan tüm metinleri ve seçim işaretlerini içerir. Metin, sayfaya, ardından satıra ve ardından tek tek sözcüklere göre düzenlenir.
  • pageResults düğüm, sınırlayıcı kutularıyla ayıklanan tabloları ve hücreleri, güveni ve "readResults" içindeki satır ve sözcüklere başvuruyu içerir.

Örnek Çıkış

Metin

Düzen API'si, birden çok metin açısına ve renge sahip belgelerden ve görüntülerden metin ayıklar. Belge, faks, basılı ve/veya el yazısı (yalnızca İngilizce) metin ve karma mod fotoğraflarını kabul eder. Metin satırlar, sözcükler, sınırlayıcı kutular, güvenilirlik puanları ve stil (el yazısı veya diğer) ile sağlanan bilgilerle ayıklanır. Tüm metin bilgileri JSON çıkışının bölümüne eklenir readResults .

Üst bilgi içeren tablolar

Düzen API'si, JSON çıkışının pageResults bölümündeki tabloları ayıklar. Belgeler taranabilir, fotoğraflanabilir veya dijitalleştirilebilir. Tablolar, kenarlıklı veya kenarlıksız ve tek açılı birleştirilmiş hücre veya sütunlarla karmaşık olabilir. Ayıklanan tablo bilgileri sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir. Sınırlayıcı kutusu olan her hücre, üst bilginin parçası olarak tanınıp tanınmadığıyla ilgili bilgilerle birlikte çıkıştır. Modelde tahmin edilen üst bilgi hücreleri birden çok satıra yayılabilir ve tablodaki ilk satırlar olmayabilir. Ayrıca döndürülmüş tablolarla da çalışırlar. Her tablo hücresi, bölümdeki tek tek sözcüklere readResults başvurular içeren tam metni de içerir.

Tablolar örneği

Seçim işaretleri

Düzen API'si belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri sınırlayıcı kutuyu, güveni ve durumu (seçili/seçili değil) içerir. Seçim işareti bilgileri JSON çıkışının readResults bölümünde ayıklanır.

Geçiş kılavuzu

  • Uygulamalarınızda ve iş akışlarınızda v3.0 sürümünü kullanmayı öğrenmek için Form Tanıma v3.0 geçiş kılavuzumuzu izleyin.

Sonraki adımlar