Azure AI Vision 3.2 GA Okuma API'sini çağırma
Bu kılavuz, görüntülerden metin ayıklamak için v3.2 GA Okuma API'sini nasıl çağırabileceğinizi gösterir. Bu API'nin davranışını gereksinimlerinizi karşılayacak şekilde yapılandırmanın farklı yollarını öğreneceksiniz. Bu kılavuzda zaten bir Görüntü İşleme kaynağı oluşturduğunuz ve bir anahtar ile uç nokta URL'si aldığınız varsayılır. Henüz yapmadıysanız, başlamak için hızlı başlangıcı izleyin.
OCR (Okuma) sürümleri
Önemli
Gereksinimlerinize en uygun Okuma sürümünü seçin.
Giriş | Örnekler | Okuma sürümü | Avantaj |
---|---|---|---|
Görüntüler: Genel, vahşi görüntüler | etiketler, sokak işaretleri ve posterler | Görüntüler için OCR (sürüm 4.0) | Kullanıcı deneyimi senaryolarınıza OCR eklemeyi kolaylaştıran, performans açısından geliştirilmiş zaman uyumlu API'ye sahip genel, belge dışı görüntüler için iyileştirilmiştir. |
Belgeler: Resimler de dahil olmak üzere dijital ve taranmış | kitaplar, makaleler ve raporlar | Belge Zekası okuma modeli | Akıllı belge işlemeyi büyük ölçekte otomatikleştirmeye yardımcı olmak için zaman uyumsuz API ile metin ağırlıklı taranmış ve dijital belgeler için iyileştirilmiştir. |
Azure AI Vision v3.2 GA Okuma hakkında
En son Azure AI Vision v3.2 GA Okumasını mı arıyorsunuz? Gelecekteki tüm Okuma OCR geliştirmeleri, daha önce listelenen iki hizmetin bir parçasıdır. Azure AI Vision v3.2'de başka güncelleştirme bulunmamaktadır. Daha fazla bilgi için bkz . Azure AI Vision 3.2 GA Okuma API'sini çağırma ve Hızlı Başlangıç: Azure AI Vision v3.2 GA Okuma.
Giriş gereksinimleri
Okuma API'si çağrısı giriş olarak görüntüleri ve belgeleri alır. Bunlar aşağıdaki gereksinimlere sahiptir:
- Desteklenen dosya biçimleri: JPEG, PNG, BMP, PDF ve TIFF
- PDF ve TIFF dosyaları için en fazla 2.000 sayfa (ücretsiz katmanda yalnızca ilk iki sayfa) işlenir.
- Görüntülerin dosya boyutu 500 MB'tan az (ücretsiz katmanda 4 MB), boyutlar en az 50 x 50 piksel ve en fazla 10.000 x 10.000 piksel olmalıdır. PDF dosyalarında boyut sınırı yoktur.
- Ayıklanacak metnin minimum yüksekliği 1024 x 768 görüntü için 12 pikseldir. Bu, 150 DPI'da yaklaşık 8 yazı tipi noktası metnine karşılık gelir.
Not
Metin satırları için resmi kırpmanız gerekmez. Görüntünün tamamını Okuma API'sine gönderdiğinizde tüm metinleri tanır.
Verilerin nasıl işleneceğini belirleme (isteğe bağlı)
OCR modelini belirtme
Varsayılan olarak, hizmet metin ayıklamak için genel kullanıma açık en son (GA) modeli kullanır. Okuma 3.2'den başlayarak, bir model-version
parametre belirli bir API sürümü için GA ve önizleme modelleri arasında seçim yapılmasını sağlar. Belirttiğiniz model, Read işlemiyle metin ayıklamak için kullanılır.
Okuma işlemini kullanırken, isteğe bağlı model-version
parametre için aşağıdaki değerleri kullanın.
Değer | Kullanılan model |
---|---|
Sağlanmadı | En son GA modeli |
latest | En son GA modeli |
2022-04-30 | En son GA modeli. Yazdırma metni için 164 dil ve el yazısı metin için 9 dil ve kalite ve performansla ilgili çeşitli geliştirmeler |
2022-01-30-önizleme | Önizleme modeli Hintçe, Arapça ve ilgili diller için metin yazdırma desteği ekler. El yazısı metinler için Japonca ve Korece desteği ekler. |
2021-09-30-önizleme | Önizleme modeli, Rusça ve diğer Kiril diller için yazdırma metni desteği ekler. El yazısı metinler için Basitleştirilmiş Çince, Fransızca, Almanca, İtalyanca, Portekizce ve İspanyolca için destek ekler. |
2021-04-12 | 2021 GA modeli |
Giriş dili
Varsayılan olarak hizmet, karma diller de dahil olmak üzere resimlerinizdeki veya belgelerinizdeki tüm metinleri ayıklar. Okuma işleminin dil için isteğe bağlı bir istek parametresi vardır. Yalnızca belgenin belirli bir dil olarak işlenmesini zorlamak istiyorsanız bir dil kodu sağlayın. Aksi takdirde, hizmet eksik ve yanlış metin döndürebilir.
Doğal okuma sırası çıkışı (yalnızca Latin dilleri)
Varsayılan olarak, hizmet metin satırlarını soldan sağa sırasıyla verir. İsteğe bağlı olarak, istek parametresiyle readingOrder
, aşağıdaki örnekte gösterildiği gibi daha insan dostu bir okuma sırası çıkışı için kullanın natural
. Bu özellik yalnızca Latin dilleri için desteklenir.
Metin ayıklama için sayfaları veya sayfa aralıklarını seçme
Varsayılan olarak, hizmet belgelerdeki tüm sayfalardan metin ayıklar. İsteğe bağlı olarak, yalnızca bu sayfalardan metin ayıklamak üzere sayfa numaralarını veya sayfa aralıklarını belirtmek için istek parametresini kullanın pages
. Aşağıdaki örnekte, tüm sayfalar (1-10) ve seçili sayfalar (3-6) olmak üzere her iki durumda da metin ayıklanmış 10 sayfalı bir belge gösterilmektedir.
Hizmete veri gönderme
Okuma API'sine yerel bir görüntü veya uzak görüntü gönderirsiniz. Yerel için, ikili görüntü verilerini HTTP isteği gövdesine koyarsınız. Uzak için, istek gövdesini aşağıdaki gibi biçimlendirerek görüntünün URL'sini belirtirsiniz: {"url":"http://example.com/images/test.jpg"}
.
Okuma API'sinin Okuma çağrısı giriş olarak bir görüntü veya PDF belgesi alır ve metni zaman uyumsuz olarak ayıklar.
https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]
Çağrı, adlı Operation-Location
bir yanıt üst bilgisi alanıyla birlikte döndürür. Operation-Location
Değer, sonraki adımda kullanılacak İşlem Kimliğini içeren bir URL'dir.
Yanıt üst bilgisi | Örnek değer |
---|---|
İşlem Konumu | https://cognitiveservice/vision/v3.2/read/analyzeResults/49a36324-fc4b-4387-aa06-090cfbf0064f |
Not
Faturalandırma
Azure AI Vision fiyatlandırma sayfası, Okuma için fiyatlandırma katmanını içerir. Analiz edilen her görüntü veya sayfa tek bir işlemdir. İşlemi 100 sayfa içeren bir PDF veya TIFF belgesiyle çağırırsanız, Okuma işlemi bunu 100 işlem olarak sayar ve 100 işlem için faturalandırılırsınız. İşleme 50 çağrı yaptıysanız ve her çağrı 100 sayfalı bir belge gönderdiyse, 50 X 100 = 5000 işlem için faturalandırılırsınız.
Hizmetten sonuç alma
İkinci adım, Sonuç Al işlemini çağırmaktır. Bu işlem, Okuma işlemi tarafından oluşturulan işlem kimliğini girdi olarak alır.
https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}
Aşağıdaki olası değerleri içeren bir durum alanı içeren bir JSON yanıtı döndürür.
Değer | Anlamı |
---|---|
notStarted |
İşlem başlatılmadı. |
running |
İşlem işleniyor. |
failed |
İşlem başarısız oldu. |
succeeded |
İşlem başarılı oldu. |
Başarılı değerle dönene kadar bu işlemi yinelemeli olarak çağırırsınız. Saniye başına istek (RPS) hızını aşmamak için 1 ila 2 saniyelik bir aralık kullanın.
Not
Ücretsiz katman, istek oranını dakikada 20 çağrıyla sınırlar. Ücretli katman, istek üzerine artırılabilir saniyede 30 istek (RPS) sağlar. Azure kaynak kimliğinizi ve bölgenizi not edin ve bir Azure desteği bileti açın veya saniye başına daha yüksek bir istek (RPS) oranı istemek için hesap ekibinize başvurun.
Durum alanında succeeded
değer olduğunda, JSON yanıtı görüntünüzden veya belgenizden ayıklanan metin içeriğini içerir. JSON yanıtı, tanınan sözcüklerin özgün satır gruplandırmalarını korur. Ayıklanan metin satırlarını ve sınırlayıcı kutu koordinatlarını içerir. Her metin satırı, koordinatları ve güvenilirlik puanları ile ayıklanan tüm sözcükleri içerir.
Not
Okuma işlemine gönderilen veriler geçici olarak şifrelenir ve kısa bir süre boyunca beklemede depolanır ve ardından silinir. Bu, uygulamalarınızın ayıklanan metni hizmet yanıtının bir parçası olarak almasını sağlar.
Örnek JSON çıkışı
Başarılı bir JSON yanıtının aşağıdaki örneğine bakın:
{
"status": "succeeded",
"createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
"lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
"analyzeResult": {
"version": "3.2",
"readResults": [
{
"page": 1,
"angle": 2.1243,
"width": 502,
"height": 252,
"unit": "pixel",
"lines": [
{
"boundingBox": [
58,
42,
314,
59,
311,
123,
56,
121
],
"text": "Tabs vs",
"appearance": {
"style": {
"name": "handwriting",
"confidence": 0.96
}
},
"words": [
{
"boundingBox": [
68,
44,
225,
59,
224,
122,
66,
123
],
"text": "Tabs",
"confidence": 0.933
},
{
"boundingBox": [
241,
61,
314,
72,
314,
123,
239,
122
],
"text": "vs",
"confidence": 0.977
}
]
}
]
}
]
}
}
Metin satırları için el yazısı sınıflandırma (yalnızca Latin dilleri)
Yanıt, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını içeren bir sınıflandırma içerir. Bu özellik yalnızca Latin dillerinde kullanılabilir. Aşağıdaki örnekte, görüntüdeki metnin el yazısı sınıflandırması gösterilmektedir.
Sonraki adımlar
- OCR (Okuma) REST API'sini veya istemci kitaplığı hızlı başlangıçlarını kullanmaya başlayın.
- 3.2 REST API başvurusunu okuyun.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin