कस्टम मॉडल को प्रशिक्षित करें और उपयोग करें
सुझाव
अधिक जानकारी के लिए टेक्स्ट और इमेज टैब देखें!
जब पूर्वनिर्मित मॉडल आपके विशिष्ट दस्तावेज़ प्रकारों को कवर नहीं करते हैं, तो आप अपने स्वयं के प्रपत्रों से डेटा निकालने के लिए कस्टम मॉडल को प्रशिक्षित कर सकते हैं। Azure दस्तावेज़ इंटेलिजेंस पर्यवेक्षित मशीन लर्निंग का समर्थन करता है, जहाँ आप उन फ़ील्ड के साथ नमूना दस्तावेज़ों को लेबल करते हैं जिन्हें आप निकालना चाहते हैं, और सेवा नए दस्तावेज़ों में उन फ़ील्ड्स को पहचानने के लिए एक मॉडल को प्रशिक्षित करती है.
कस्टम मॉडल प्रकार
Azure Document Intelligence दो प्रकार के कस्टम निष्कर्षण मॉडल प्रदान करता है, साथ ही एक वर्गीकरण मॉडल भी प्रदान करता है:
कस्टम टेम्पलेट मॉडल
कस्टम टेम्पलेट मॉडल लेबल किए गए डेटा को निकालने के लिए एक सुसंगत दृश्य टेम्पलेट पर निर्भर करते हैं। वे संरचित रूपों के लिए सबसे अच्छा काम करते हैं जहां लेआउट एक दस्तावेज़ उदाहरण से दूसरे तक स्थिर होता है, जैसे प्रश्नावली, अनुप्रयोग या मानक सरकारी प्रपत्र।
टेम्पलेट मॉडल लेबल किए गए कुंजी-मान जोड़े, चयन चिह्न, तालिकाएँ, क्षेत्र और हस्ताक्षर सटीक रूप से निकालते हैं. प्रशिक्षण में केवल कुछ मिनट लगते हैं, और 100 से अधिक भाषाओं का समर्थन किया जाता है। चूंकि टेम्पलेट मॉडल प्रशिक्षित करने के लिए तेज़ और चलाने के लिए लागत प्रभावी होते हैं, इसलिए वे एक अच्छा प्रारंभिक बिंदु होते हैं जब आपके दस्तावेज़ों में एक समान दृश्य लेआउट होता है।
कस्टम तंत्रिका मॉडल
कस्टम न्यूरल मॉडल डीप लर्निंग का उपयोग करते हैं और आपके लेबल किए गए डेटा पर ठीक किए जाते हैं। वे संरचित, अर्ध-संरचित और असंरचित दस्तावेज़ों से फ़ील्ड निकालने के लिए लेआउट और भाषा सुविधाओं को जोड़ते हैं। तंत्रिका मॉडल समर्थन करते हैं:
- ओवरलैपिंग फ़ील्ड
- हस्ताक्षर का पता लगाना
- तालिका, पंक्ति और कक्ष स्तर का आत्मविश्वास
तंत्रिका मॉडल टेम्पलेट मॉडल की तुलना में उच्च सटीकता प्रदान करते हैं, विशेष रूप से अर्ध-संरचित या असंरचित दस्तावेजों के लिए जहां लेआउट उदाहरणों के बीच भिन्न होता है। हालाँकि, उन्हें प्रशिक्षित करने और अधिक संसाधनों का उपभोग करने में अधिक समय लगता है।
टेम्पलेट और तंत्रिका मॉडल के बीच चयन करें
किस कस्टम मॉडल प्रकार का उपयोग करना है, यह तय करते समय, ट्रेडऑफ़ पर विचार करें:
| कारण | कस्टम टेम्पलेट | कस्टम तंत्रिका |
|---|---|---|
| के लिए सर्वश्रेष्ठ | एक सुसंगत दृश्य लेआउट के साथ संरचित प्रपत्र | अलग-अलग लेआउट के साथ अर्ध-संरचित या असंरचित दस्तावेज़ |
| प्रशिक्षण का समय | मिनट्स | लंबा (डेटासेट आकार पर निर्भर करता है) |
| प्रशिक्षण लागत | निचला | उच्चतर |
| सटीकता | निश्चित-लेआउट रूपों के लिए उच्च; लेआउट बदलने पर घटता है | समग्र रूप से उच्चतर, विशेष रूप से प्रारूप भिन्नता वाले दस्तावेज़ों के लिए |
| भाषा समर्थन | 100+ भाषाएँ | कम भाषाएँ (वर्तमान समर्थन के लिए दस्तावेज़ीकरण की जाँच करें) |
| फ़ीचर समर्थन | कुंजी-मान जोड़े, चयन चिह्न, तालिकाएँ, क्षेत्र, हस्ताक्षर | ओवरलैपिंग फ़ील्ड, हस्ताक्षर का पता लगाना, तालिका/पंक्ति/सेल विश्वास |
सुझाव
यदि आपके प्रपत्रों में एक समान दृश्य लेआउट है, तो एक कस्टम टेम्पलेट मॉडल के साथ प्रारंभ करें. इसे प्रशिक्षित करना तेज़ और सस्ता है। यदि सटीकता अपर्याप्त है या आपके दस्तावेज़ प्रारूप में भिन्न हैं, तो एक कस्टम न्यूरल मॉडल पर स्विच करें।
कस्टम क्लासिफायर
कस्टम वर्गीकरण मॉडल निष्कर्षण मॉडल को लागू करने से पहले दस्तावेज़ के प्रकार की पहचान करते हैं। जब आप कई प्रपत्र प्रकारों को संभाल रहे हों, तो आप आवक दस्तावेज़ों को उपयुक्त निष्कर्षण मॉडल पर रूट करने के लिए एक क्लासिफायर का उपयोग कर सकते हैं.
एक कस्टम मॉडल को प्रशिक्षित करें
एक कस्टम निष्कर्षण मॉडल को प्रशिक्षित करने के लिए:
- नमूना प्रपत्रों को Azure ब्लॉब कंटेनर में संग्रहीत करें, साथ ही लेआउट और लेबल फ़ील्ड जानकारी वाली JSON फ़ाइलें भी संग्रहीत करें:
- प्रत्येक नमूना प्रपत्र के लिए एक
ocr.jsonफ़ाइल (दस्तावेज़ का विश्लेषण करें फ़ंक्शन का उपयोग करके जनरेट किया गया)। - उन फ़ील्ड्स का वर्णन करने वाली एक एकल
fields.jsonफ़ाइल जिन्हें आप निकालना चाहते हैं. - प्रत्येक नमूना प्रपत्र के लिए एक
labels.jsonफ़ाइल, प्रपत्र में फ़ील्ड को उनके स्थान पर मैप करना.
- प्रत्येक नमूना प्रपत्र के लिए एक
- कंटेनर के लिए एक साझा पहुँच हस्ताक्षर (SAS) URL जनरेट करें।
- बिल्ड मॉडल REST API फ़ंक्शन या समकक्ष SDK विधि का उपयोग करें.
- प्रशिक्षित मॉडल आईडी प्राप्त करने के लिए मॉडल REST API फ़ंक्शन प्राप्त करें का उपयोग करें।
आप दस्तावेज़ इंटेलिजेंस स्टूडियो का उपयोग करके कस्टम मॉडल को नेत्रहीन रूप से भी प्रशिक्षित कर सकते हैं, जैसा कि दस्तावेज़ इंटेलिजेंस स्टूडियो इकाई का उपयोग करें में वर्णित है।
सुझाव
प्रशिक्षण के लिए कम से कम पांच से छह नमूना रूपों का उपयोग करें। एक बड़ा और अधिक विविध डेटासेट अधिक सटीक मॉडल तैयार करता है।
कस्टम मॉडल का उपयोग करें
कस्टम मॉडल के साथ प्रपत्र डेटा निकालने के लिए, अपने मॉडल ID के साथ दस्तावेज़ का विश्लेषण करें फ़ंक्शन को कॉल करें. आप समर्थित SDK या REST API का उपयोग कर सकते हैं.
C#
string endpoint = "<endpoint>";
string apiKey = "<apiKey>";
AzureKeyCredential credential = new AzureKeyCredential(apiKey);
DocumentAnalysisClient client = new DocumentAnalysisClient(new Uri(endpoint), credential);
string modelId = "<modelId>";
Uri fileUri = new Uri("<fileUri>");
AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, modelId, fileUri);
AnalyzeResult result = operation.Value;
Python
endpoint = "YOUR_DOC_INTELLIGENCE_ENDPOINT"
key = "YOUR_DOC_INTELLIGENCE_KEY"
model_id = "YOUR_CUSTOM_BUILT_MODEL_ID"
formUrl = "YOUR_DOCUMENT"
document_analysis_client = DocumentAnalysisClient(
endpoint=endpoint, credential=AzureKeyCredential(key)
)
task = document_analysis_client.begin_analyze_document_from_url(model_id, formUrl)
result = task.result()
एक सफल प्रतिक्रिया में निकाली गई सामग्री के साथ एक analyzeResult ऑब्जेक्ट और दस्तावेज़ के बारे में जानकारी वाले पृष्ठों की एक सरणी होती है।
रचित मॉडल
आप कई कस्टम मॉडल को एक ही रचित मॉडल में जोड़ सकते हैं। जब आप किसी दस्तावेज़ को किसी रचित मॉडल के लिए सबमिट करते हैं, तो दस्तावेज़ इंटेलिजेंस इसे सबसे उपयुक्त घटक मॉडल निर्धारित करने के लिए वर्गीकृत करता है, और उसके बाद उस मॉडल से निष्कर्षण परिणाम देता है। यह दृष्टिकोण तब उपयोगी होता है जब आप कई प्रपत्र प्रकारों को संभालते हैं जिनमें से प्रत्येक को अपने स्वयं के निष्कर्षण मॉडल की आवश्यकता होती है।