تدريب المصنف التزايدي
ينطبق هذا المحتوى على:v4.0 (معاينة)
Azure الذكاء الاصطناعي Document Intelligence هي خدمة Azure الذكاء الاصطناعي مستندة إلى السحابة تمكنك من إنشاء حلول ذكية لمعالجة المستندات. تحلل واجهات برمجة التطبيقات الخاصة بذكاء المستند الصور وملفات PDF وملفات المستندات الأخرى لاستخراج المحتوى والتخطيط والنمط والعناصر الدلالية المختلفة واكتشافها.
نماذج التصنيف المخصصة لذكاء المستند هي أنواع نماذج التعلم العميق التي تجمع بين ميزات التخطيط واللغة لاكتشاف المستندات التي تعالجها داخل التطبيقات وتحديدها بدقة. تقوم نماذج التصنيف المخصصة بتصنيف ملفات الإدخال صفحة واحدة في كل مرة لتحديد المستندات داخل ويمكنها أيضا تحديد مستندات متعددة أو مثيلات متعددة لمستند واحد داخل ملف إدخال.
تحدد مصنفات المستندات الذكية المستند أنواع المستندات المعروفة في الملفات. عند معالجة ملف إدخال بأنواع مستندات متعددة أو عندما لا تعرف نوع المستند، استخدم مصنفا لتعريف المستند. يجب تحديث المصنفات بشكل دوري عند إضافة قوالب جديدة لفئة موجودة، أو إضافة أنواع مستندات جديدة للتعرف عليها، أو تكون ثقة المصنف منخفضة. في بعض السيناريوهات، لم يعد بإمكانك استخدام مجموعة المستندات الأصلية لتدريب المصنف. مع التدريب المتزايد، يمكنك الآن تحديث المصنف باستخدام العينات الجديدة المسماة فقط.
إشعار
ينطبق التدريب المتزايد فقط على نماذج مصنف المستندات وليس النماذج المخصصة.
يكون التدريب التزايدي مفيدا عندما تريد تحسين جودة المصنف المخصص. تؤدي إضافة نماذج تدريب جديدة للفئات الموجودة إلى تحسين ثقة النموذج في أنواع المستندات الموجودة. على سبيل المثال، إذا تمت إضافة إصدار جديد من نموذج موجود أو كان هناك نوع مستند جديد. يمكن أن يكون أحد الأمثلة عندما يبدأ التطبيق الخاص بك في دعم نوع مستند جديد كإدخل صالح.
الشروع في العمل مع التدريب المتزايد
لا يقدم التدريب التزايدي أي نقاط نهاية جديدة لواجهة برمجة التطبيقات.
documentClassifiers:build
يتم تعديل حمولة الطلب لدعم التدريب التزايدي.ينتج عن التدريب التزايدي نموذج مصنف جديد يتم إنشاؤه مع ترك المصنف الموجود دون تغيير.
يحتوي المصنف الجديد على جميع نماذج المستند وأنواع المصنف القديم إلى جانب العينات المقدمة حديثا. تحتاج إلى التأكد من أن تطبيقك عبارة عن تحديثات للعمل مع المصنف المدرب حديثا.
إشعار
عملية النسخ للمصنفات غير متوفرة حاليا.
إنشاء طلب إنشاء مصنف تزايدي
طلب إنشاء المصنف التزايدي مشابه لتصنيف طلب إنشاء المستند ولكنه يتضمن الخاصية الجديدة baseClassifierId
. baseClassifierId
تم تعيين إلى المصنف الموجود الذي تريد توسيعه. تحتاج أيضا إلى توفير docTypes
لأنواع المستندات المختلفة في مجموعة العينات. من خلال توفير docType
الموجود في baseClassifier، تضاف العينات المقدمة في الطلب إلى العينات المقدمة عند تدريب المصنف الأساسي. تتم إضافة القيم الجديدة docType
المضافة في التدريب التزايدي فقط إلى المصنف الجديد. تظل عملية تحديد العينات دون تغيير. لمزيد من المعلومات، راجعتدريب نموذج مصنف.
نموذج طلب POST
نموذج POST
طلب لإنشاء مصنف مستند تزايدي
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
استجابة POST
جميع واجهات برمجة التطبيقات الخاصة بذكاء المستند غير متزامنة، يوفر التحقق من موقع العملية التي تم إرجاعها حالة على عملية الإنشاء. يتم تدريب المصنفات بسرعة ويمكن أن يكون المصنف جاهزا للاستخدام في دقيقة أو دقيقتين.
عند الانتهاء بنجاح:
- يقوم الأسلوب الناجح
POST
بإرجاع رمز استجابة202 OK
يشير إلى أن الخدمة أنشأت الطلب. - توجد المستندات المترجمة في الحاوية الهدف.
- يقوم
POST
الطلب أيضا بإرجاع رؤوس الاستجابة بما في ذلكOperation-Location
. تحتوي قيمة هذا العنوان علىresultId
التي يمكن الاستعلام عن للحصول على حالة العملية غير المتزامنة واسترداد النتائج باستخدامGET
طلب مع نفس مفتاح اشتراك المورد الخاص بك.
نموذج طلب GET
نموذج GET
طلب لاسترداد نتيجة مصنف مستند تزايدي
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
استجابة GET
GET
تختلف الاستجابة من مصنف مدرب بشكل متزايد عن استجابة المصنف GET
القياسي. لا يقوم المصنف المدرب بشكل متزايد بإعادة كافة أنواع المستندات المدعومة. تقوم بإرجاع أنواع المستندات المضافة أو المحدثة في خطوة التدريب التزايدي والمصنف الأساسي الموسع. للحصول على قائمة كاملة وأنواع المستندات، يجب إدراج المصنف الأساسي. لا يؤثر حذف مصنف أساسي على استخدام مصنف مدرب بشكل متزايد.
الحدود
يعمل التدريب التزايدي فقط عندما يتم تدريب المصنف الأساسي والمصنف المدرب بشكل متزايد على نفس إصدار واجهة برمجة التطبيقات. ونتيجة لذلك، يكون للمصنف المدرب بشكل متزايد نفس دورة حياة النموذج مثل المصنف الأساسي.
حدود حجم مجموعة بيانات التدريب للمصنف التزايدي هي نفسها لنموذج المصنف الآخر. راجع حدود الخدمة للحصول على قائمة كاملة بالحدود القابلة للتطبيق.
الخطوات التالية
- تعرف على المزيد حول تصنيف المستندات
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ