ما المقصود بهندسة البيانات

مكتمل

غالبا ما يعمل مهندس البيانات مع أنواع متعددة من البيانات لتنفيذ العديد من العمليات باستخدام العديد من لغات البرمجة النصية أو الترميز المناسبة لمؤسستهم الفردية.

أنواع البيانات

هناك ثلاثة أنواع رئيسية من البيانات يعمل بها مهندس البيانات.

منظّمة البنية شبه مهيكلة غير منظّمة البنية
رسم تخطيطي لنوع البيانات المنظمة. رسم تخطيطي لنوع البيانات شبه المنظمة. رسم تخطيطي لنوع البيانات غير المنظمة.
تأتي البيانات المنظمة في المقام الأول من أنظمة المصدر المستندة إلى الجدول مثل قاعدة بيانات ارتباطية أو من ملف ثابت مثل ملف مفصول بفواصل (CSV). العنصر الأساسي لملف منظم هو أن الصفوف والأعمدة تتم محاذاتها باستمرار في جميع أنحاء الملف. البيانات شبه المنظمة هي بيانات مثل ملفات تدوين كائن JavaScript (JSON)، والتي قد تتطلب التسطيح قبل التحميل في نظام المصدر الخاص بك. عند التسوية، لا يجب أن تتناسب هذه البيانات بدقة مع بنية الجدول. تتضمن البيانات غير المنظمة البيانات المخزنة كأزواج قيم المفاتيح التي لا تلتزم بالنماذج الارتباطية القياسية والأنواع الأخرى من البيانات غير المنظمة التي تستخدم عادة وتشمل تنسيق البيانات المحمولة (PDF) ومستندات معالج الكلمات والصور.

عمليات البيانات

بصفتك مهندس بيانات، بعض المهام الرئيسية التي تقوم بها في Azure تشمل دمج البيانات، وتحويل البيانات، وتوحيد البيانات.

تكامل البيانات

رسم تخطيطي يمثل عملية تكامل البيانات.

يتضمن تكامل البيانات إنشاء روابط بين الخدمات التشغيلية والتحليلية ومصادر البيانات لتمكين الوصول الآمن والموثوق به إلى البيانات عبر أنظمة متعددة. على سبيل المثال، قد تعتمد عملية الأعمال على البيانات التي تنتشر عبر أنظمة متعددة، ويطلب من مهندس البيانات إنشاء ارتباطات بحيث يمكن استخراج البيانات المطلوبة من جميع هذه الأنظمة.

تحويل البيانات

رسم تخطيطي يمثل عملية تحويل البيانات.

عادة ما تحتاج البيانات التشغيلية إلى تحويلها إلى هيكل وتنسيق مناسبين للتحليل، غالبا كجزء من عملية استخراج وتحويل وتحميل (ETL)؛ على الرغم من أن تباينا بشكل متزايد تقوم فيه باستخراج البيانات وتحميلها وتحويلها (ELT) يتم استخدامها لاستيعاب البيانات بسرعة في مستودع بيانات ثم تطبيق تقنيات معالجة "البيانات الضخمة" لتحويلها. بغض النظر عن النهج المستخدم، فإن البيانات مستعدة لدعم الاحتياجات التحليلية للمصب.

دمج البيانات

رسم تخطيطي يمثل عملية دمج البيانات.

دمج البيانات هو عملية دمج البيانات التي تم استخراجها من مصادر بيانات متعددة في بنية متسقة - عادة لدعم التحليلات وإعداد التقارير. عادة ما يتم استخراج البيانات من الأنظمة التشغيلية وتحويلها وتحميلها في مخازن تحليلية مثل مستودع البيانات أو مستودع البيانات.

اللغات الشائعة

يجب أن يكون مهندسو البيانات بارعين مع مجموعة من الأدوات ولغات البرمجة النصية - خاصة SQL وPython، وربما الآخرين.

  • SQL - إحدى اللغات الأكثر شيوعا التي يستخدمها مهندسو البيانات هي SQL، أو لغة الاستعلام المنظمة، وهي لغة سهلة التعلم نسبيا. يستخدم SQL الاستعلامات التي تتضمن عبارات SELECT وINSERT و UPDATE وDELETE للعمل مباشرة مع البيانات المخزنة في الجداول.

  • Python - Python هي واحدة من أكثر لغات البرمجة شيوعا وأسرعها نموا في العالم. يتم استخدامه لجميع أنواع المهام، بما في ذلك برمجة الويب وتحليل البيانات. وقد ظهرت كلغة للتعلم الآلي، وتزداد شعبيتها في هندسة البيانات باستخدام دفاتر الملاحظات. في أعباء عمل هندسة البيانات واسعة النطاق، يستخدم مهندسو البيانات عادة PySpark—واجهة برمجة تطبيقات بايثون للعبة Apache Spark—لكتابة منطق تحويل يعمل عبر مجموعات Spark الموزعة.

  • KQL - لغة استعلام كوستو (KQL) هي لغة استعلام لتحليل بيانات البث والسجلات في سيناريوهات التحليلات اللحظية. يستخدم مهندسو البيانات KQL في عبء عمل Real-Time Intelligence من Microsoft Fabric وAzure Data Explorer للاستعلام عن تدفقات البيانات عالية السرعة.

  • أخرى - اعتمادا على احتياجات المنظمة ومجموعة المهارات الفردية الخاصة بك ، يمكنك أيضا استخدام لغات شائعة أخرى داخل أو خارج دفاتر الملاحظات بما في ذلك R و Java و Scala و C # والمزيد. يتزايد انتشار استخدام دفاتر الملاحظات، ويسمح بالتعاون باستخدام لغات مختلفة داخل دفتر الملاحظات نفسه.