مشاركة عبر


استخراج البيانات من ملف PDF

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

توضح هذه المقالة قالب حل يمكنك استخدامه لاستخراج البيانات من مصدر PDF باستخدام Azure Data Factory وAzure الذكاء الاصطناعي Document Intelligence.

حول قالب الحل هذا

يحلل هذا القالب البيانات من مصدر URL PDF باستخدام استدعاءين Azure الذكاء الاصطناعي Document Intelligence. ثم يحول الإخراج إلى جداول قابلة للقراءة في تدفق البيانات ويعمل على إخراج البيانات إلى متلقي تخزين.

يحتوي القالب على نشاطين:

  • نشاط الويب للاتصال بواجهة برمجة تطبيقات نموذج القراءة المعدة مسبقا من Azure الذكاء الاصطناعي Document Intelligence
  • تدفق البيانات لتحويل البيانات المستخرجة من PDF

يعرف هذا القالب خمس معلمات:

  • CognitiveServicesURL هو عنوان URL ل Azure الذكاء الاصطناعي Document Intelligence ("https://{endpoint}/formrecognizer/v2.1/layout/analyze"). استبدل {endpoint} بنقطة النهاية التي حصلت عليها باشتراك Azure الذكاء الاصطناعي Document Intelligence. تحتاج إلى استبدال القيمة الافتراضية بعنوان URL الخاص بك.
  • CognitiveServicesKey هو مفتاح اشتراك Azure الذكاء الاصطناعي Document Intelligence. تحتاج إلى استبدال القيمة الافتراضية بمفتاح الاشتراك الخاص بك.
  • PDF_SourceURL هو عنوان URL لمصدر PDF. تحتاج إلى استبدال القيمة الافتراضية بعنوان URL الخاص بك.
  • OutputContainer هو اسم مسار الحاوية حيث تريد أن تكون ملفاتك في مخزن الوجهة. تحتاج إلى استبدال القيمة الافتراضية بحاوية خاصة بك.
  • OutputFolder هو اسم مسار المجلد حيث تريد أن تكون ملفاتك في مخزن الوجهة. تحتاج إلى استبدال القيمة الافتراضية بمسار المجلد الخاص بك.

المتطلبات الأساسية

  • Azure الذكاء الاصطناعي Document Intelligence Resource Endpoint URL وKey (إنشاء مورد جديد هنا)

كيفية استخدام قالب الحل هذا

  1. انتقل إلى قالب استخراج البيانات من PDF. أنشئ اتصالا جديدا بمورد Azure الذكاء الاصطناعي Document Intelligence أو اختر اتصالا موجودا.

    لقطة شاشة لكيفية إنشاء اتصال جديد أو تحديد اتصال موجود من قائمة منسدلة إلى اتصال Azure الذكاء الاصطناعي Document Intelligence في إعداد القالب.

    في اتصالك ب Azure الذكاء الاصطناعي Document Intelligence، تأكد من إضافة معلمة خدمة مرتبطة. ستحتاج إلى استخدام معلمة url هذه كعنون URL الأساسي الديناميكي. ستحتاج أيضا إلى إضافة رأس مصادقة جديد ضمن رؤوس المصادقة. يجب أن يكون الاسم Ocp-Apim-Subscription-Key ويجب أن تكون القيمة هي قيمة المفتاح التي تجدها من مورد Azure.

    لقطة شاشة لعنوان URL لقاعدة الخدمة المرتبطة التي تشير إلى معلمة الخدمة المرتبطة ورؤوس المصادقة لإضافتها.

  2. أنشئ اتصالا جديدا بمخزن تخزين المصدر أو اختر اتصالا موجودا. الوجهة المختارة هي المكان الذي يتم فيه تخزين بيانات PDF المستخرجة.

    لقطة شاشة لكيفية إنشاء اتصال جديد أو تحديد اتصال موجود من قائمة منسدلة إلى المتلقي في إعداد القالب.

  3. حدد استخدام هذا القالب.

    لقطة شاشة توضح كيفية إكمال القالب بالنقر فوق استخدام هذا القالب في أسفل الشاشة.

  4. يجب أن تشاهد البنية الأساسية لبرنامج ربط العمليات التجارية التالية.

    لقطة شاشة لعرض البنية الأساسية لبرنامج ربط العمليات التجارية مع ارتباط نشاط الويب بنشاط تدفق البيانات

  5. انتقل إلى نشاط تدفق البيانات وابحث عن الإعدادات. هنا تحتاج إلى إضافة محتوى ديناميكي لمعلمة عنوان URL للخدمة المرتبطة. بعد النقر فوق إضافة محتوى ديناميكي، سيتم فتح منشئ تعبير البنية الأساسية لبرنامج ربط العمليات التجارية. حدد الخدمات المعرفية - إخراج نشاط POST. بعد ذلك، اكتب أو انسخ والصق ".output. ADFWebActivityResponseHeaders['Operation-Location']." يجب أن تشاهد التعبير التالي في منشئ التعبير.

    لقطة شاشة لعرض البنية الأساسية لبرنامج ربط العمليات التجارية لإعدادات نشاط تدفق البيانات.

    لقطة شاشة لمنشئ تعبير البنية الأساسية لبرنامج ربط العمليات التجارية مع عرض المحتوى الديناميكي لتدفق البيانات.

  6. انقر فوق موافق للعودة إلى البنية الأساسية لبرنامج ربط العمليات التجارية.

  7. بعد ذلك، حدد Debug.

    لقطة شاشة توضح كيفية تتبع أخطاء البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام زر تتبع الأخطاء الموجود أعلى الشعار من الشاشة.

  8. أدخِل قيم المعلمات، وراجع النتائج، وانشرها.

    لقطة شاشة لمكان إدخال معلمات تتبع أخطاء البنية الأساسية لبرنامج ربط العمليات التجارية على لوحة إلى اليمين.

     لقطة شاشة تعرض النتائج التي يتم عرضها عند تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية.