לאמן ולהשתמש בדגמים מותאמים אישית

הושלם

עצה

עיין בכרטיסייה טקסט ותמונות לפרטים נוספים!

כשמודלים מוכנים מראש לא מכסים את סוגי המסמכים הספציפיים שלך, אפשר לאמן מודלים מותאמים אישית לחלץ נתונים מהטפסים שלך. Azure Document Intelligence תומך בלמידת מכונה מפוקחת, שבה אתה מתייג מסמכים לדוגמה עם השדות שאתה רוצה לחלץ, והשירות מאמן מודל לזהות את השדות במסמכים חדשים.

סוגי דגמים מותאמים אישית

Azure Document Intelligence מציע שני סוגים של מודלים מותאמים אישית לחילוץ, בנוסף למודל סיווג:

מודלים מותאמים אישית

מודלים מותאמים אישית של תבניות מסתמכים על תבנית ויזואלית עקבית כדי לחלץ נתונים מתויגים. הם עובדים הכי טוב עבור טפסים מובנים שבהם הפריסה סטטית ממופע מסמך אחד לשני, כמו שאלונים, בקשות או טפסי ממשל סטנדרטיים.

מודלים של תבניות מפיקים במדויק זוגות מפתח-ערך, סימני בחירה, טבלאות, אזורים וחתימות. ההכשרה אורכת רק כמה דקות, ויותר מ-100 שפות נתמכות. מכיוון שמודלים של תבניות מהירים לאימון וחסכוניים להפעלה, הם נקודת התחלה טובה כאשר למסמכים שלך יש פריסה ויזואלית אחידה.

מודלים עצביים מותאמים אישית

מודלים עצביים מותאמים אישית משתמשים בלמידה עמוקה ומכוונים במדויק על הנתונים המסומנים שלך. הם משלבים תכונות פריסה ושפה כדי לחלץ שדות ממסמכים מובנים, חצי-מובנים ולא מובנים. מודלים עצביים תומכים ב:

  • שדות חופפים
  • זיהוי חתימה
  • ביטחון ברמת הטבלה, השורה והתא

מודלים עצביים מספקים דיוק גבוה יותר ממודלים של תבניות, במיוחד במסמכים חצי-מובנים או לא מובנים שבהם הפריסה משתנה בין מופעים. עם זאת, הם לוקחים יותר זמן להתאמן וצורכים יותר משאבים.

בחר בין מודלים של תבנית למודלים עצביים

כשמחליטים איזה סוג מודל מותאם אישית להשתמש, שקלו את הפשרות:

גורם תבנית מותאמת אישית עצב מותאם אישית
הכי טוב עבור צורות מובנות עם פריסה ויזואלית עקבית מסמכים חצי-מובנים או לא מובנים עם פריסות משתנות
זמן האימון דקות ארוך יותר (תלוי בגודל מערך הנתונים)
עלות הכשרה Lower גבוה יותר
דיוק גבוה לצורות עם פריסה קבועה; פוחת כאשר הפריסה משתנה גבוה יותר בסך הכל, במיוחד למסמכים עם שינויים בפורמט
תמיכה בשפה 100+ שפות פחות שפות (בדקו תיעוד לתמיכה נוכחית)
תמיכה בתכונות זוגות מפתח-ערך, סימני בחירה, טבלאות, אזורים, חתימות שדות חופפים, זיהוי חתימה, ביטחון טבלה/שורה/תא

עצה

תתחיל עם מודל תבנית מותאם אישית אם הטפסים שלך כוללים פריסה ויזואלית עקבית. זה מהיר וזול יותר להתאמן. אם הדיוק אינו מספיק או שהמסמכים שלך משתנים בפורמטם, עבור למודל עצבי מותאם אישית.

מסווגים מותאמים אישית

מודלים מותאמים אישית מזהים את סוג המסמך לפני הפעלת מודל חילוץ. אתה יכול להשתמש במסווג כדי לנתב מסמכים נכנסים למודל החילוץ המתאים כשאתה מטפל במספר סוגי טפסים.

הכשרת דגם מותאם אישית

כדי לאמן מודל חילוץ מותאם אישית:

  1. אחסן טפסי דוגמה במיכל blob של Azure, יחד עם קבצי JSON המכילים מידע על פריסה ושדות תווית:
    • קובץ ocr.json לכל טופס לדוגמה (נוצר באמצעות פונקציית ניתוח המסמך).
    • קובץ יחיד fields.json שמתאר את השדות שאתה רוצה לחלץ.
    • קובץ labels.json לכל טופס לדוגמה, שממפה שדות למיקומם בטופס.
  2. יצר כתובת URL של חתימת גישה משותפת (SAS) עבור המכולה.
  3. השתמש בפונקציית REST API של Build Model או בשיטת SDK המקבילה.
  4. השתמש בפונקציית Get model REST API כדי לשלוף את מזהה המודל המאומן.

ניתן גם לאמן דגמים מותאמים אישית ויזואלית באמצעות Document Intelligence Studio, כפי שמתואר ביחידת Use the Document Intelligence Studio .

עצה

השתמשו לפחות בחמישה עד שישה טפסי דוגמה לאימון. מערך נתונים גדול ומגוון יותר מייצר מודלים מדויקים יותר.

השתמש במודל מותאם אישית

כדי לחלץ נתוני טופס עם מודל מותאם אישית, קרא לפונקציית ניתוח המסמך עם מזהה המודל שלך. אתה יכול להשתמש ב-SDK נתמך או ב-REST API.

C#‎

string endpoint = "<endpoint>";
string apiKey = "<apiKey>";
AzureKeyCredential credential = new AzureKeyCredential(apiKey);
DocumentAnalysisClient client = new DocumentAnalysisClient(new Uri(endpoint), credential);

string modelId = "<modelId>";
Uri fileUri = new Uri("<fileUri>");

AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, modelId, fileUri);
AnalyzeResult result = operation.Value;

פיתון

endpoint = "YOUR_DOC_INTELLIGENCE_ENDPOINT"
key = "YOUR_DOC_INTELLIGENCE_KEY"

model_id = "YOUR_CUSTOM_BUILT_MODEL_ID"
formUrl = "YOUR_DOCUMENT"

document_analysis_client = DocumentAnalysisClient(
    endpoint=endpoint, credential=AzureKeyCredential(key)
)

task = document_analysis_client.begin_analyze_document_from_url(model_id, formUrl)
result = task.result()

תגובה מוצלחת כוללת analyzeResult אובייקט עם התוכן שהופץ ומערך דפים המכילים מידע על המסמך.

דגמים מורכבים

אתה יכול לשלב מספר מודלים מותאמים אישית למודל מורכב אחד. כשאתה מגיש מסמך למודל מורכב, Document Intelligence מסווג אותו כדי לקבוע את מודל הרכיב המתאים ביותר, ואז מחזיר את תוצאות החילוץ מאותו מודל. גישה זו שימושית כאשר מטפלים במספר סוגי טפסים שכל אחד מהם דורש מודל חילוץ משלו.

קבל מידע נוסף