استخراج البيانات من ملف PDF

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

Data Factory في Microsoft Fabric هو الجيل القادم من Azure Data Factory، مع بنية أبسط، وذكاء اصطناعي مدمج، وميزات جديدة. إذا كنت جديدا في تكامل البيانات، ابدأ مع Fabric Data Factory. يمكن لأعباء عمل ADF الحالية الترقية إلى Fabric للوصول إلى قدرات جديدة في علوم البيانات، والتحليلات اللحظية، والتقارير.

تصف هذه المقالة قالب حل يمكنك استخدامه لاستخراج البيانات من مصدر PDF باستخدام Azure Data Factory و Azure Document Intelligence في أدوات Foundry.

حول قالب الحل هذا

يقوم هذا القالب بتحليل البيانات من مصدر URL PDF باستخدام استدعائي Document Intelligence. ثم يحول الإخراج إلى جداول قابلة للقراءة في تدفق البيانات ويعمل على إخراج البيانات إلى متلقي تخزين.

يحتوي القالب على نشاطين:

  • نشاط الويب لاستدعاء واجهة برمجة تطبيقات نموذج القراءة الجاهزة من Document Intelligence
  • تدفق البيانات لتحويل البيانات المستخرجة من PDF

يعرف هذا القالب خمس معلمات:

  • CognitiveServices URL هو رابط ذكاء المستندات ("https://{endpoint}/formrecognizer/v2.1/layout/analysis"). استبدل {endpoint} بنقطة النهاية التي حصلت عليها من اشتراكك في Document Intelligence. تحتاج إلى استبدال القيمة الافتراضية بعنوان URL الخاص بك.
  • مفتاح خدمات معرفية هو مفتاح الاشتراك في استخبارات المستندات. تحتاج إلى استبدال القيمة الافتراضية بمفتاح الاشتراك الخاص بك.
  • PDF_SourceURL هو عنوان URL لمصدر PDF. تحتاج إلى استبدال القيمة الافتراضية بعنوان URL الخاص بك.
  • OutputContainer هو اسم مسار الحاوية حيث تريد أن تكون ملفاتك في مخزن الوجهة. تحتاج إلى استبدال القيمة الافتراضية بحاوية خاصة بك.
  • OutputFolder هو اسم مسار المجلد حيث تريد أن تكون ملفاتك في مخزن الوجهة. تحتاج إلى استبدال القيمة الافتراضية بمسار المجلد الخاص بك.

المتطلبات الأساسية

  • رابط ومفتاح نقطة نهاية مصدر ذكاء المستند (أنشئ موردا جديدا here)

كيفية استخدام قالب الحل هذا

  1. انتقل إلى قالب استخراج البيانات من PDF. أنشئ اتصالا جديدا بمورد استخبارات المستندات الخاص بك أو اختر اتصالا قائما.

    لقطة شاشة لكيفية إنشاء اتصال جديد أو اختيار اتصال موجود من القائمة المنسدلة إلى اتصال Document Intelligence في إعداد القالب.

    في اتصالك ب Document Intelligence، تأكد من إضافة معلمة خدمة مرتبطة. ستحتاج إلى استخدام معلمة url هذه كعنون URL الأساسي الديناميكي. ستحتاج أيضا إلى إضافة رأس مصادقة جديد ضمن رؤوس المصادقة. يجب أن يكون الاسم Ocp-Apim-Subscription-Key ويجب أن تكون القيمة المفتاحية التي تجدها من Azure المورد الخاص بك.

    لقطة شاشة لعنوان URL لقاعدة الخدمة المرتبطة التي تشير إلى معلمة الخدمة المرتبطة ورؤوس المصادقة لإضافتها.

  2. أنشئ اتصالا جديدا بمخزن تخزين المصدر أو اختر اتصالا موجودا. الوجهة المختارة هي المكان الذي يتم فيه تخزين بيانات PDF المستخرجة.

    لقطة شاشة لكيفية إنشاء اتصال جديد أو تحديد اتصال موجود من قائمة منسدلة إلى المتلقي في إعداد القالب.

  3. حدد استخدام هذا القالب.

    لقطة شاشة توضح كيفية إكمال القالب بالنقر فوق استخدام هذا القالب في أسفل الشاشة.

  4. يجب أن تشاهد البنية الأساسية لبرنامج ربط العمليات التجارية التالية.

    لقطة شاشة لعرض البنية الأساسية لبرنامج ربط العمليات التجارية مع ارتباط نشاط الويب بنشاط تدفق البيانات

  5. انتقل إلى نشاط تدفق البيانات وابحث عن الإعدادات. هنا تحتاج إلى إضافة محتوى ديناميكي لمعلمة عنوان URL للخدمة المرتبطة. بعد النقر فوق إضافة محتوى ديناميكي، سيتم فتح منشئ تعبير البنية الأساسية لبرنامج ربط العمليات التجارية. حدد الخدمات المعرفية - إخراج نشاط POST. بعد ذلك، اكتب أو انسخ والصق ".output. ADFWebActivityResponseHeaders['Operation-Location']." يجب أن تشاهد التعبير التالي في منشئ التعبير.

    لقطة شاشة لعرض البنية الأساسية لبرنامج ربط العمليات التجارية لإعدادات نشاط تدفق البيانات.

    لقطة شاشة لمنشئ تعبير البنية الأساسية لبرنامج ربط العمليات التجارية مع عرض المحتوى الديناميكي لتدفق البيانات.

  6. انقر فوق موافق للعودة إلى البنية الأساسية لبرنامج ربط العمليات التجارية.

  7. بعد ذلك، حدد Debug.

    لقطة شاشة توضح كيفية تتبع أخطاء البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام زر تتبع الأخطاء الموجود أعلى الشعار من الشاشة.

  8. أدخِل قيم المعلمات، وراجع النتائج، وانشرها.

    لقطة شاشة لمكان إدخال معلمات تتبع أخطاء البنية الأساسية لبرنامج ربط العمليات التجارية على لوحة إلى اليمين.

     لقطة شاشة تعرض النتائج التي يتم عرضها عند تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية.