Önceden oluşturulmuş modelleri anlama
Azure Belge Zekası'nda önceden oluşturulmuş modeller, kendi modellerinizi eğitmeden ortak formlardan ve belgelerden veri ayıklamanıza olanak tanır.
Yoklama şirketinizde, anket formları her anket projesi için benzersizdir, ancak mali işlemleri kaydetmek için faturaları ve makbuzları da kullanırsınız ve yapılandırılmamış birçok belgeniz vardır. Bu belgelerden adları, adresleri, tutarları ve diğer bilgileri ayıklamak için ne kadar çalışma gerektiğini bilmek istiyorsunuz.
Burada, önceden oluşturulmuş modellerin yaygın belge türlerini çözümlemenize nasıl yardımcı olabileceğini öğreneceksiniz.
Önceden oluşturulmuş modeller nelerdir?
Yapay zeka çözümlerinde kullanılan genel yaklaşım, büyük miktarda örnek veri sağlamak ve ardından farklı veri özellikleri, parametreler ve istatistiksel tedaviler deneyerek iyileştirilmiş bir model eğitmektir. Eğitilen modeli oluşturmak için ilgilendiğiniz değerleri en iyi tahmin eden birleşimdir ve yeni verilerden değerleri tahmin etmek için bu modeli kullanabilirsiniz.
İşletmelerin günden güne kullandığı biçimlerin çoğu birkaç yaygın türdedir. Örneğin, çoğu işletme faturaları ve makbuzları düzenler veya alır. Birleşik Devletler çalışanları olan tüm işletmeler W-2 vergi beyannamesi formunu kullanmalıdır. Ayrıca genellikle verileri ayıklamak isteyebileceğiniz daha genel belgeleriniz vardır. Bu durumlarda Microsoft, önceden oluşturulmuş modeller sağlayarak size yardımcı olur. Önceden oluşturulmuş modeller zaten çok sayıda hedef form türü üzerinde eğitilir.
Bu yaygın formlardan veya belgelerden veri ayıklamak için Belge Zekası'nı kullanmak istiyorsanız, önceden oluşturulmuş bir model kullanmayı seçebilirsiniz ve kendi modelinizi eğitmek zorunda değilsiniz. Microsoft bu modelleri büyük bir örnek kümesi üzerinde eğittiğinden, hedeflenen formlarla ilgilenirken doğru ve güvenilir sonuçlar sağlamalarını bekleyebilirsiniz.
Önceden oluşturulmuş modellerin bazıları belirli form türleri üzerinde eğitilir:
- Fatura modeli. Ortak alanları ve bunların değerlerini faturalardan ayıklar.
- Makbuz modeli. Alış irsaliyelerinden ortak alanları ve bunların değerlerini ayıklar.
- ABD Vergi modeli. W-2, 1098, 1099 ve 1040 gibi formlardan ayıklanabilir birleşik ABD vergi modeli.
- Kimlik belgesi modeli. Ortak alanları ve değerlerini ABD sürücü lisanslarından, Avrupa Birliği kimliklerinden ve sürücü lisanslarından ve uluslararası pasaportlardan ayıklar.
- Kartvizit modeli. Kartvizitlerden ortak alanları ve değerlerini ayıklar.
- Sağlık sigortası kartı modeli. Sağlık sigortası kartlarından ortak alanları ve değerlerini ayıklar.
- Evlilik sertifikası. Evlilik belgelerinden bilgi alır.
- Kredi/Banka kartı modeli. Banka kartlarından ortak bilgileri ayıklar.
- Mortgage belgeleri. İpotek kapanışı açıklaması, Tekdüzen Konut Kredisi Uygulaması (Form 1003), Ekspertiz (Form 1004), İstihdam Doğrulama (Form 1005) ve Tekdüzen Altı Yazma ve İletim özeti (Form 1008) bilgileri ayıklar.
- Banka ekstresi modeli. Başlangıç ve bitiş bakiyeleri, banka ekstrelerindeki işlem ayrıntıları dahil olmak üzere hesap bilgilerini ayıklar.
- Pay Stub modeli. Ücretleri, saatleri, kesintileri, net ödemeyi ve diğer ortak ödeme saplama alanlarını ayıklar.
- Modeli denetleyin. Çeklerden ödeme, tutar, tarih ve diğer ilgili bilgileri ayıklar.
Diğer modeller, daha az belirli yapıya sahip belgelerden değerleri ayıklamak için tasarlanmıştır:
- Modeli okuma. Belgelerden metin ve dil ayıklar.
- Genel belge modeli. Belgelerden metin, anahtar, değer, varlık ve seçim işaretlerini ayıklayın.
- Düzen modeli. Belgelerden metin ve yapı bilgilerini ayıklar.
Önceden oluşturulmuş modellerin özellikleri
Önceden oluşturulmuş modeller, kullanıcıların gönderdiği belgelerden ve formlardan farklı veri türlerini ayıklamak için tasarlanmıştır. Gereksinimlerinize uygun modeli seçmek için şu özellikleri anlamanız gerekir:
- Metin ayıklama. Önceden oluşturulmuş tüm modeller, el ile yazılmış ve yazdırılan metinden metin ve sözcük satırları ayıklar.
- Anahtar-değer çiftleri. Birçok model, belge içindeki bir etiketi veya anahtarı ve yanıtını veya değerini anahtar-değer çiftleri olarak tanımlayan metin aralıklarını ayıklar. Örneğin, tipik bir anahtar Ağırlık ve değeri 31 kg olabilir.
- Varlık. Ortak, daha karmaşık veri yapıları içeren metinler varlık olarak ayıklanabilir. Varlık türleri kişileri, konumları ve tarihleri içerir.
- Seçim işaretleri. Bazı modeller seçim işaretleri olarak bir seçimi gösteren metin aralıklarını ayıklar. Bu işaretler radyo düğmelerini ve onay kutularını içerir.
- Tablolar. Birçok model, hücrelerde bulunan veriler, sütun ve satır sayısı ile sütun ve satır başlıkları dahil taranan formlardaki tabloları ayıklayabilir. Birleştirilmiş hücreleri olan tablolar desteklenir.
- Alanlar. Belirli bir form türü için eğitilen modeller, sabit bir alan kümesinin değerlerini tanımlar. Örneğin, Fatura modeli CustomerName ve InvoiceTotal alanlarını içerir.
Ayrıca, önceden oluşturulmuş modellerin genel belge ve form türleri için tasarlandığını ve bunlar üzerinde eğitildiğini de göz önünde bulundurun. Sık kullandığınız sektöre özgü veya benzersiz bir form türünüz varsa, özel bir model kullanarak daha güvenilir ve öngörülebilir sonuçlar elde edebilirsiniz. Ancak, özel modellerin geliştirilmesi zaman alır, çünkü bunları kullanabilmeniz için önce örnek formlarda eğitmek için zaman ve kaynaklara yatırım yapmalısınız. Eğitim için sağladığınız örnek form sayısı ne kadar fazlaysa, model form içeriğini doğru tahmin etme konusunda o kadar iyi olur.
Giriş gereksinimleri
Önceden oluşturulmuş modeller esnektir, ancak her belge için tek bir net fotoğraf veya yüksek kaliteli tarama göndererek doğru ve yararlı sonuçlar döndürmelerine yardımcı olabilirsiniz.
Analiz için bir form gönderirken de bu gereksinimlere uymanız gerekir:
- Dosya JPEG, PNG, BMP, TIFF veya PDF biçiminde olmalıdır. Ayrıca, Okuma modeli Microsoft Office dosyalarını kabul edebilir.
- Dosya standart katman için 500 MB'tan küçük ve ücretsiz katman için 4 MB olmalıdır.
- Görüntülerin boyutları 50 x 50 piksel ile 10.000 x 10.000 piksel arasında olmalıdır.
- PDF belgelerinin boyutları 17 x 17 inç veya A3 kağıt boyutundan küçük olmalıdır.
- PDF belgeleri parolayla korunmamalıdır.
Not
Bunu yapabilirseniz, karakter tanıma hatalarını ortadan kaldırdıkları için metin eklenmiş PDF dosyaları gönderin.
PDF ve TIFF dosyalarının herhangi bir sayıda sayfası olabilir, ancak standart katmanda yalnızca ilk 2.000 sayfa analiz edilir. Ücretsiz katmanda yalnızca ilk iki sayfa analiz edilir.
Azure Document Intelligence Studio ile önceden oluşturulmuş modelleri deneyin
Azure Document Intelligence, özel uygulamalarınızda kod kullanarak çağırabileceğiniz bir web hizmeti olarak tasarlanmıştır. Ancak modelleri ve formlarınızla görsel olarak nasıl davrandıklarını keşfetmek genellikle yararlı olur. Azure Document Intelligence Studio kullanarak bu tür denemeler gerçekleştirebilir ve bu deneyimi kullanarak kodunuzu tasarlayıp yazabilirsiniz.
Azure Document Intelligence Studio'da önceden oluşturulmuş modellerden herhangi birini seçebilirsiniz. Microsoft, her modelle kullanmak üzere bazı örnek belgeler sağlar veya kendi belgelerinizi ekleyip analiz edebilirsiniz.
API'leri kullanarak önceden oluşturulmuş modelleri çağırma
Azure Document Intelligence RESTful web hizmetlerini uyguladığından, bunları destekleyen herhangi bir dilden web hizmeti çağrılarını kullanabilirsiniz. Ancak, Microsoft'un Azure Document Intelligence API'lerini kullandığınızda güvenlik ve oturum yönetimi basitleştirilir ve daha az kod yazmanız gerekir.
Azure Belge Zekası şu öğeler için kullanılabilir:
- C# ve diğer .NET dilleri.
- Java.
- Piton.
- JavaScript'e dokunun.
Azure Document Intelligence'ı her çağırmak istediğinizde, Azure aboneliğinizdeki hizmetle bağlantı kurarak ve kimlik doğrulaması yaparak işe başlamanız gerekir. Bu bağlantıyı oluşturmak için şunları yapmanız gerekir:
- Hizmet uç noktası. Bu değer, hizmetin yayımlandığı URL'dir.
- API anahtarı. Bu değer, erişim veren benzersiz bir anahtardır.
Bu değerlerin ikisini de Azure portalından alırsınız.
Hizmetin yanıt vermesi birkaç saniye sürebileceğinden, en iyisi zaman uyumsuz çağrıları kullanarak form göndermek ve analizden sonuç almaktır:
AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, "prebuilt-layout", fileUri);
AnalyzeResult result = operation.Value;
poller = document_analysis_client.begin_analyze_document(
"prebuilt-layout", AnalyzeDocumentRequest(url_source=docUrl
))
result: AnalyzeResult = poller.result()
Bu sonuçlardan ayıklayabileceğiniz ayrıntılar, kullandığınız modele bağlıdır.