التعرف البصري على الحروف - التعرف البصري على الحروف

مقالة
04/30/2024

يشار إلى التعرف البصري على الحروف أو التعرف البصري على الحروف أيضا باسم التعرف على النص أو استخراج النص. تسمح لك تقنيات التعرف البصري على الحروف المستندة إلى التعلم الآلي باستخراج النص المطبوع أو المكتوب بخط اليد من الصور مثل الملصقات وعلامات الشوارع وتسميات المنتجات، وكذلك من مستندات مثل المقالات والتقارير والنماذج والفواتير. عادة ما يتم استخراج النص ككلمات وأسطر نصية وفقرات أو كتل نصية، مما يتيح الوصول إلى الإصدار الرقمي من النص الممسوح ضوئيا. وهذا يلغي أو يقلل بشكل كبير من الحاجة إلى إدخال البيانات يدويا.

تستخدم معالجة المستندات الذكية (IDP) التعرف البصري على الحروف (OCR) كتقنيتها الأساسية لاستخراج البنية والعلاقات والقيم الرئيسية والكيانات والرؤى الأخرى التي تركز على المستند مع خدمة الذكاء الاصطناعي متقدمة تستند إلى التعلم الآلي مثل Document Intelligence. يتضمن Document Intelligence إصدارا محسنا للمستند من Read كمحرك التعرف البصري على الحروف (OCR) الخاص به أثناء التفويض إلى نماذج أخرى للحصول على رؤى أعلى. إذا كنت تقوم باستخراج النص من المستندات الممسوحة ضوئيا والرقمية، فاستخدم Document Intelligence Read OCR.

محرك التعرف البصري على الحروف (OCR)

يتكون محرك Read OCR من Microsoft من نماذج متقدمة متعددة تستند إلى التعلم الآلي تدعم اللغات العالمية. يمكنه استخراج النص المطبوع والمكتوب بخط اليد بما في ذلك اللغات المختلطة وأنماط الكتابة. تتوفر القراءة كخدمة سحابية وحاوية محلية لمرونة النشر. مع أحدث معاينة، تتوفر أيضا كواجهة برمجة تطبيقات متزامنة لسيناريوهات الصور الفردية غير المستندية فقط مع تحسينات الأداء التي تسهل تنفيذ تجارب المستخدم بمساعدة التعرف البصري على الحروف.

تحذير

لا يوصى باستخدام واجهة برمجة تطبيقات التعرف البصري على الحروف القديمة في Azure الذكاء الاصطناعي Vision في v3.2 و RecognizeText API في عمليات v2.1 .

إصدارات التعرف البصري على الحروف (قراءة)

هام

حدد إصدار Read الذي يناسب متطلباتك بشكل أفضل.

الإدخال	الأمثلة	قراءة الإصدار	الميزة
الصور: صور عامة في البرية	الملصقات وعلامات الشوارع والملصقات	التعرف البصري على الحروف للصور (الإصدار 4.0)	تم تحسينه للصور العامة غير المستندية باستخدام واجهة برمجة تطبيقات متزامنة محسنة الأداء تسهل تضمين التعرف البصري على الحروف (OCR) في سيناريوهات تجربة المستخدم.
المستندات: رقمية وممسوحة ضوئيا، بما في ذلك الصور	الكتب والمقالات والتقارير	نموذج قراءة تحليل معلومات المستند	تم تحسينه للمستندات الرقمية والممسوحة ضوئيا والمثقفة بالنص باستخدام واجهة برمجة تطبيقات غير متزامنة للمساعدة في أتمتة معالجة المستندات الذكية على نطاق واسع.

نبذة عن Azure الذكاء الاصطناعي Vision v3.2 GA Read

هل تبحث عن أحدث إصدار من Azure الذكاء الاصطناعي Vision v3.2 GA Read؟ تعد جميع تحسينات التعرف البصري على الحروف للقراءة المستقبلية جزءا من الخدمتين المذكورتين سابقا. لا توجد تحديثات أخرى على Azure الذكاء الاصطناعي Vision v3.2. لمزيد من المعلومات، راجع استدعاء واجهة برمجة تطبيقات قراءة Azure الذكاء الاصطناعي Vision 3.2 GA و Quickstart: Azure الذكاء الاصطناعي Vision v3.2 GA Read.

كيفية استخدام التعرف البصري على الحروف (OCR)

جرب التعرف البصري على الحروف باستخدام Vision Studio. ثم اتبع أحد الارتباطات إلى إصدار Read الذي يلبي متطلباتك على أفضل نحو.

جرب Vision Studio

Screenshot: Read OCR demo in Vision Studio.

اللغات المعتمدة من OCR

يدعم إصدارا القراءة المتوفران اليوم في Azure الذكاء الاصطناعي Vision العديد من اللغات للنص المطبوع والمكتوب بخط اليد. يتضمن التعرف البصري على الحروف (OCR) للنص المطبوع دعما للغات الإنجليزية والفرنسية والألمانية والإيطالية والبرتغالية والإسبانية والصينية واليابانية والكورية والروسية والعربية والهندية وغيرها من اللغات الدولية التي تستخدم نصوصا لاتينية وسيريلية وعربية وDevanagari. يتضمن التعرف البصري على الحروف للنص المكتوب بخط اليد دعما للغات الإنجليزية والصينية المبسطة والفرنسية والألمانية والإيطالية واليابانية والكورية والبرتغالية والإسبانية.

راجع القائمة الكاملة للغات التي يدعمها التعرف البصري على الحروف.

ميزات التعرف البصري على الحروف الشائعة

يتوفر نموذج قراءة التعرف البصري على الحروف (OCR) في Azure الذكاء الاصطناعي Vision و Document Intelligence مع قدرات أساسية مشتركة مع التحسين للسيناريوهات المعنية. تلخص القائمة التالية الميزات الشائعة:

استخراج النص المطبوع والمكتوب بخط اليد باللغات المدعومة
الصفحات وخطوط النص والكلمات مع الموقع ودرجات الثقة
دعم اللغات المختلطة، الوضع المختلط (طباعة وكتابة بخط اليد)
متوفر كحاوية Distroless Docker للنشر في البيئة المحلية

استخدام واجهات برمجة تطبيقات سحابة التعرف البصري على الحروف (OCR) أو التوزيع المحلي

واجهات برمجة التطبيقات السحابية هي الخيار المفضل لمعظم العملاء بسبب سهولة التكامل والإنتاجية السريعة خارج الصندوق. تعالج خدمة Azure وAzure الذكاء الاصطناعي Vision احتياجات المقياس والأداء وأمان البيانات والامتثال أثناء التركيز على تلبية احتياجات عملائك.

للنشر المحلي، تمكنك حاوية Read Docker من نشر قدرات التعرف البصري على الحروف (OCR) المتوفرة بشكل عام في بيئة Azure الذكاء الاصطناعي Vision v3.2 المتوفرة بشكل عام في بيئتك المحلية. وتعد الحاويات رائعة لمتطلبات الأمان وإدارة البيانات المحددة.

خصوصية بيانات التعرف البصري على الحروف وأمانها

كما هو الحال مع جميع خدمات Azure الذكاء الاصطناعي، يجب أن يكون المطورون الذين يستخدمون خدمة Azure الذكاء الاصطناعي Vision على دراية بسياسات Microsoft بشأن بيانات العملاء. راجع صفحة خدمات الذكاء الاصطناعي Azure في مركز توثيق Microsoft لمعرفة المزيد.

الخطوات التالية

التعرف البصري على الحروف للصور العامة (غير المستند): جرب التشغيل السريع لواجهة برمجة تطبيقات REST لتحليل الصور في Azure الذكاء الاصطناعي Vision 4.0.
OCR لمستندات PDF وOffice وHTML وصور المستندات: ابدأ ب Document Intelligence Read.
هل تبحث عن إصدار GA السابق؟ راجع التشغيل السريع ل Azure الذكاء الاصطناعي Vision 3.2 GA SDK أو REST API.