Azure AI Vision 3.2 GA Okuma API'sini çağırma

Makale
02/27/2024

Bu kılavuz, görüntülerden metin ayıklamak için v3.2 GA Okuma API'sini nasıl çağırabileceğinizi gösterir. Bu API'nin davranışını gereksinimlerinizi karşılayacak şekilde yapılandırmanın farklı yollarını öğreneceksiniz. Bu kılavuzda zaten bir Görüntü İşleme kaynağı oluşturduğunuz ve bir anahtar ile uç nokta URL'si aldığınız varsayılır. Henüz yapmadıysanız, başlamak için hızlı başlangıcı izleyin.

OCR (Okuma) sürümleri

Önemli

Gereksinimlerinize en uygun Okuma sürümünü seçin.

Giriş	Örnekler	Okuma sürümü	Avantaj
Görüntüler: Genel, vahşi görüntüler	etiketler, sokak işaretleri ve posterler	Görüntüler için OCR (sürüm 4.0)	Kullanıcı deneyimi senaryolarınıza OCR eklemeyi kolaylaştıran, performans açısından geliştirilmiş zaman uyumlu API'ye sahip genel, belge dışı görüntüler için iyileştirilmiştir.
Belgeler: Resimler de dahil olmak üzere dijital ve taranmış	kitaplar, makaleler ve raporlar	Belge Zekası okuma modeli	Akıllı belge işlemeyi büyük ölçekte otomatikleştirmeye yardımcı olmak için zaman uyumsuz API ile metin ağırlıklı taranmış ve dijital belgeler için iyileştirilmiştir.

Azure AI Vision v3.2 GA Okuma hakkında

En son Azure AI Vision v3.2 GA Okumasını mı arıyorsunuz? Gelecekteki tüm Okuma OCR geliştirmeleri, daha önce listelenen iki hizmetin bir parçasıdır. Azure AI Vision v3.2'de başka güncelleştirme bulunmamaktadır. Daha fazla bilgi için bkz . Azure AI Vision 3.2 GA Okuma API'sini çağırma ve Hızlı Başlangıç: Azure AI Vision v3.2 GA Okuma.

Giriş gereksinimleri

Okuma API'si çağrısı giriş olarak görüntüleri ve belgeleri alır. Bunlar aşağıdaki gereksinimlere sahiptir:

Desteklenen dosya biçimleri: JPEG, PNG, BMP, PDF ve TIFF
PDF ve TIFF dosyaları için en fazla 2.000 sayfa (ücretsiz katmanda yalnızca ilk iki sayfa) işlenir.
Görüntülerin dosya boyutu 500 MB'tan az (ücretsiz katmanda 4 MB), boyutlar en az 50 x 50 piksel ve en fazla 10.000 x 10.000 piksel olmalıdır. PDF dosyalarında boyut sınırı yoktur.
Ayıklanacak metnin minimum yüksekliği 1024 x 768 görüntü için 12 pikseldir. Bu, 150 DPI'da yaklaşık 8 yazı tipi noktası metnine karşılık gelir.

Not

Metin satırları için resmi kırpmanız gerekmez. Görüntünün tamamını Okuma API'sine gönderdiğinizde tüm metinleri tanır.

Verilerin nasıl işleneceğini belirleme (isteğe bağlı)

OCR modelini belirtme

Varsayılan olarak, hizmet metin ayıklamak için genel kullanıma açık en son (GA) modeli kullanır. Okuma 3.2'den başlayarak, bir model-version parametre belirli bir API sürümü için GA ve önizleme modelleri arasında seçim yapılmasını sağlar. Belirttiğiniz model, Read işlemiyle metin ayıklamak için kullanılır.

Okuma işlemini kullanırken, isteğe bağlı model-version parametre için aşağıdaki değerleri kullanın.

Değer	Kullanılan model
Sağlanmadı	En son GA modeli
latest	En son GA modeli
2022-04-30	En son GA modeli. Yazdırma metni için 164 dil ve el yazısı metin için 9 dil ve kalite ve performansla ilgili çeşitli geliştirmeler
2022-01-30-önizleme	Önizleme modeli Hintçe, Arapça ve ilgili diller için metin yazdırma desteği ekler. El yazısı metinler için Japonca ve Korece desteği ekler.
2021-09-30-önizleme	Önizleme modeli, Rusça ve diğer Kiril diller için yazdırma metni desteği ekler. El yazısı metinler için Basitleştirilmiş Çince, Fransızca, Almanca, İtalyanca, Portekizce ve İspanyolca için destek ekler.
2021-04-12	2021 GA modeli

Giriş dili

Varsayılan olarak hizmet, karma diller de dahil olmak üzere resimlerinizdeki veya belgelerinizdeki tüm metinleri ayıklar. Okuma işleminin dil için isteğe bağlı bir istek parametresi vardır. Yalnızca belgenin belirli bir dil olarak işlenmesini zorlamak istiyorsanız bir dil kodu sağlayın. Aksi takdirde, hizmet eksik ve yanlış metin döndürebilir.

Doğal okuma sırası çıkışı (yalnızca Latin dilleri)

Varsayılan olarak, hizmet metin satırlarını soldan sağa sırasıyla verir. İsteğe bağlı olarak, istek parametresiyle readingOrder , aşağıdaki örnekte gösterildiği gibi daha insan dostu bir okuma sırası çıkışı için kullanın natural . Bu özellik yalnızca Latin dilleri için desteklenir.

OCR Okuma sırası örneği

Metin ayıklama için sayfaları veya sayfa aralıklarını seçme

Varsayılan olarak, hizmet belgelerdeki tüm sayfalardan metin ayıklar. İsteğe bağlı olarak, yalnızca bu sayfalardan metin ayıklamak üzere sayfa numaralarını veya sayfa aralıklarını belirtmek için istek parametresini kullanın pages . Aşağıdaki örnekte, tüm sayfalar (1-10) ve seçili sayfalar (3-6) olmak üzere her iki durumda da metin ayıklanmış 10 sayfalı bir belge gösterilmektedir.

Seçili sayfa çıktısı

Hizmete veri gönderme

Okuma API'sine yerel bir görüntü veya uzak görüntü gönderirsiniz. Yerel için, ikili görüntü verilerini HTTP isteği gövdesine koyarsınız. Uzak için, istek gövdesini aşağıdaki gibi biçimlendirerek görüntünün URL'sini belirtirsiniz: {"url":"http://example.com/images/test.jpg"}.

Okuma API'sinin Okuma çağrısı giriş olarak bir görüntü veya PDF belgesi alır ve metni zaman uyumsuz olarak ayıklar.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

Çağrı, adlı Operation-Locationbir yanıt üst bilgisi alanıyla birlikte döndürür. Operation-Location Değer, sonraki adımda kullanılacak İşlem Kimliğini içeren bir URL'dir.

Yanıt üst bilgisi	Örnek değer
İşlem Konumu	`https://cognitiveservice/vision/v3.2/read/analyzeResults/49a36324-fc4b-4387-aa06-090cfbf0064f`

Not

Faturalandırma

Azure AI Vision fiyatlandırma sayfası, Okuma için fiyatlandırma katmanını içerir. Analiz edilen her görüntü veya sayfa tek bir işlemdir. İşlemi 100 sayfa içeren bir PDF veya TIFF belgesiyle çağırırsanız, Okuma işlemi bunu 100 işlem olarak sayar ve 100 işlem için faturalandırılırsınız. İşleme 50 çağrı yaptıysanız ve her çağrı 100 sayfalı bir belge gönderdiyse, 50 X 100 = 5000 işlem için faturalandırılırsınız.

Hizmetten sonuç alma

İkinci adım, Sonuç Al işlemini çağırmaktır. Bu işlem, Okuma işlemi tarafından oluşturulan işlem kimliğini girdi olarak alır.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

Aşağıdaki olası değerleri içeren bir durum alanı içeren bir JSON yanıtı döndürür.

Değer	Anlamı
`notStarted`	İşlem başlatılmadı.
`running`	İşlem işleniyor.
`failed`	İşlem başarısız oldu.
`succeeded`	İşlem başarılı oldu.

Başarılı değerle dönene kadar bu işlemi yinelemeli olarak çağırırsınız. Saniye başına istek (RPS) hızını aşmamak için 1 ila 2 saniyelik bir aralık kullanın.

Not

Ücretsiz katman, istek oranını dakikada 20 çağrıyla sınırlar. Ücretli katman, istek üzerine artırılabilir saniyede 30 istek (RPS) sağlar. Azure kaynak kimliğinizi ve bölgenizi not edin ve bir Azure desteği bileti açın veya saniye başına daha yüksek bir istek (RPS) oranı istemek için hesap ekibinize başvurun.

Durum alanında succeeded değer olduğunda, JSON yanıtı görüntünüzden veya belgenizden ayıklanan metin içeriğini içerir. JSON yanıtı, tanınan sözcüklerin özgün satır gruplandırmalarını korur. Ayıklanan metin satırlarını ve sınırlayıcı kutu koordinatlarını içerir. Her metin satırı, koordinatları ve güvenilirlik puanları ile ayıklanan tüm sözcükleri içerir.

Not

Okuma işlemine gönderilen veriler geçici olarak şifrelenir ve kısa bir süre boyunca beklemede depolanır ve ardından silinir. Bu, uygulamalarınızın ayıklanan metni hizmet yanıtının bir parçası olarak almasını sağlar.

Örnek JSON çıkışı

Başarılı bir JSON yanıtının aşağıdaki örneğine bakın:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

Metin satırları için el yazısı sınıflandırma (yalnızca Latin dilleri)

Yanıt, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını içeren bir sınıflandırma içerir. Bu özellik yalnızca Latin dillerinde kullanılabilir. Aşağıdaki örnekte, görüntüdeki metnin el yazısı sınıflandırması gösterilmektedir.

OCR el yazısı sınıflandırma örneği

Sonraki adımlar

OCR (Okuma) REST API'sini veya istemci kitaplığı hızlı başlangıçlarını kullanmaya başlayın.
3.2 REST API başvurusunu okuyun.

Aracılığıyla paylaş