نظرة عامة عن البيانات

مكتمل

يُقصد بالبيانات ببساطة مجموعة من الحقائق والرسوم التوضيحية. وتكون التطبيقات هي المسؤولة عن توليد البيانات وتخزينها وتحليلها واستهلاكها، أو القيام بمجموعة وظائف منها.

تؤثر طبيعة وخصائص البيانات عادة على تصميم وتنفيذ أنظمة التخزين. تتضمن بعض الخصائص وحدة تخزين البيانات ومحتواها وترد الوصول إليها. على سبيل المثال، درس Facebook2 مؤخرا أنماط الوصول إلى محتوى الصور والفيديو الذي نشره مستخدمو فيسبوك ليجدوا أن معدل الوصول ينخفض بشكل كبير مع مرور الوقت. واستخدم فيسبوك هذه النتائج لتصميم وتنفيذ نظام تخزين خاص باحتياجاته. في الفيديو التالي، نتطلع إلى الخصائص المختلفة للبيانات التي تؤثر على تصميم أنظمة التخزين.

بنية البيانات

ويمكن تصنيف البيانات باستخدام ديناميكيتها وبنيتها. وعلى وجه التحديد، يمكن تقسيم البيانات على نطاق واسع إلى ربع من الأجزاء الأربعة للشكل الموضحة في الشكل التالي. يمثل تصنيف واحد بنية البيانات، والتي تعتبر إما منظمة أو غير منظمة.

تقسيم البيانات إلى أنواع مختلفة.

الشكل 1: تقسيم البيانات إلى أنواعمختلفة 3

تحتوي البيانات المنظمة على نموذج بيانات محدد مسبقا ينظم البيانات في نموذج يسهل نسبيا معالجتها وتخزينها واستردادها وإدارتها. عادة ما تكون البيانات المنظمة عبارة عن بيانات صغيرة تناسب بشكل طبيعي في شكل جدولي، ومن ثم يمكن تخزينها بسهولة في قواعد البيانات التقليدية (على سبيل المثال، قواعد البيانات الارتباطية ). ومن أمثلة البيانات المصنفة هو معلومات الاتصال الخاصة بالعملاء التي يتم تخزينها في جداول في قاعدة بيانات إدارة العلاقة مع العملاء (CRM). تناسب هذه البيانات في نموذج صارم إلى حد ما (يسمى مخطط في قواعد البيانات الارتباطية)، والتي يمكن تخزينها والوصول إليها ومعالجتها بسرعة.

ومن ناحية أخرى، قد لا تحتوي البيانات غير المنظمة بالضرورة على نموذج تنظيمي محدد مسبقا وصارم. قد تكون البيانات غير المصنفة أكبر وقد لا تلائم بطبيعة الحال وضعها في نموذج جدولي، ما يجعل البيانات غير مناسبة للتخزين في قاعدة بيانات ارتباطية. ومن ثم، قد يكون من الصعب نسبيًا تنظيم البيانات غير المصنفة في نموذج بسيط لمعالجة البيانات وتخزينها واستردادها وإدارتها. ومن أمثلة البيانات غير المصنفة الملفات الثنائية الثابتة تحتوي على معلومات رسائل نصية أو فيديو أو صوتية. ومن المهم أن نلاحظ أن البيانات غير المصنفة لا تخلو بالضرورة من البنية الجدولية؛ فقد تكون على هيئة مستند أو ملف فيديو أو ملف صوتي، تحتوي عل بنية ترميز الملفات أو بيانات التعريف المقترنة به. ومن ثم، فإن البيانات المصنفة بأي من تصنيفات البنية يمكن أن توصف بأنها غير مصنفة إذا لم تساهم بنيتها في مهمة المعالجة التي تحتاج إليها البيانات. ولتوضيح الأمر أكثر، فمن الصعب البحث عن ذاكرة تخزينية مؤقتة كبيرة من مستندات الرسائل النصية (التي لم يتم تصنيفها) والبحث عنها عند مقارنتها بقاعدة بيانات ارتباطية تحتوي على معلومات العملاء (التي تم تصنيفها). ولكي تكتمل هذه الدورة التدريبية، يمكن تعريف البيانات غير المصنفة على أنها بيانات لا تلائم وضعها بطبيعة الحال في قاعدة بيانات ارتباطية. وبالإضافة إلى ذلك، يمكن عملية بعض البيانات على أنها غير مصنفة (غير مخزنة في قاعدة بيانات) لأنه سيتم الوصول إليها باستخدام أنماط وصول غير متوقعة؛ وفي هذه الحالة يكون تحسين قاعدة البيانات التقليدي لا طائل منه فيما يتعلق بهذه البيانات.

يوجد نوع من البيانات يقع بين البيانات المنظمة وغير المنظمة، ويشار إليها باسم البيانات شبه المنظمة. لا تتطابق البيانات شبه المصنفة مع البنية الرسمية لنماذج البيانات المرتبطة بقواعد البيانات الارتباطية أو نماذج أخرى من جداول البيانات، ولكنها تحتوي على علامات أو محددات أخرى لفصل العناصر الدلالية وفرض قائمة هيكلية للسجلات والحقول داخل البيانات. البيانات التي يتم وصفها باستخدام لغات القيمة المضافة للتكلفة الحالية - على سبيل المثال، صفحات الويب وبيانات تصفح الإنترنت وعناصر الويب - هي مثال على البيانات شبه المصنفة. ويعد XML وJSON أمثلة كلاسيكية من تمثيلات البيانات شبه المصنفة، كما أنها تستخدم العلامات المضمنة التي تصف البيانات أيضًا.

ديناميكية البيانات

وهناك توصيف آخر وهو ديناميكية البيانات، وهو مؤشر على عدد المرات التي تتغير فيها البيانات. تتغير البيانات الديناميكية، مثل مستندات Microsoft Office وإدخالات العمليات في قاعدة بيانات مالية، بشكل متكرر نسبيًا، في حين أن البيانات الثابتة، بمجرد إنشائها، قد لا يتم تغييرها. وتشمل أمثلة البيانات الثابتة بيانات التصوير الطبي من التصوير بالرنين المغناطيسي حتى التصوير المقطعي المحوسب، وبث لقطات فيديو تتم أرشفتها في مكتبة فيديو.

يساعد تقسيم البيانات إلى أحد هذه الأرباع في تصميم وتطوير الحل لتخزين البيانات. تتم معالجة البيانات المنظمة عادة باستخدام قواعد البيانات الارتباطية التي يمكن الوصول إلى البيانات وإدارتها ومعالجتها باستخدام أوامر دقيقة (تصدر عادة بلغة استعلام مثل SQL). قد يتم تخزين البيانات غير المصنفة في ملفات ثابتة في نظام الملفات أو قد يتم تنظيمها باستخدام قاعدة بيانات NoSQL (ويتم التعامل مع المزيد بعد ذلك من خلال NoSQL في الوحدة النمطية).

وتوفر بنية البيانات وديناميكيتها إرشادات بشأن كيفية تصميم نظام التخزين. يمكن تخزين كميات كبيرة من البيانات الثابتة نسبيًا على صفائف القرص إذا كانت تقرأ بشكل متكرر. تعمل أنظمة التخزين المصممة باستخدام بنية التخزين المؤقت متعددة المستويات على تحسين أداء عمليات القراءة على هذه البيانات.

تم تصميم أنواع معينة من أنظمة الملفات، مثل الإصدارات السابقة من نظام الملفات الموزعة الخاص بـ Hadoop، خصيصًا للبيانات الثابتة نسبيًا. وهي تسمح بكتابة الملف مرة واحدة فقط، ولا يمكن تعديل الملف بعد كتابته. يمكن أرشفة البيانات الثابتة، مثل صور محركات الأقراص ولقطات النسخ الاحتياطية، على أنظمة تخزين غير مكلفة نسبيًا دون اتصال إذا لم تكن بحاجة إلى الوصول إليها بشكل متكرر.

وباختصار، يجب مراعاة طبيعة البيانات المستخدمة من قبل التطبيق قبل اختيار بنية التخزين المناسبة.

نقاوة البيانات ووحدة التخزين

بالإضافة إلى كتابة البيانات، يجب مراعاة وحدة تخزين البيانات التي تحتاج إلى تخزين ومعالجة لتطبيق معين. يتم وصف حجم البيانات وفقًا للبعدين التاليين، الحجم الإجمالي للبيانات (وحدة التخزين الإجمالية) مقابل حجم جزء مفيد من البيانات (نقاوة البيانات). على سبيل المثال، ضع في اعتبارك حالة موقع مشاركة الصور الذي يحتوي على الملايين من المستخدمين الذين ينشرون عشرات إلى مئات الصور. قد يكون الحجم الإجمالي للبيانات عشرات أو مئات من تيرابايت أو حتى بيتابايت، ولكن قد يكون متوسط حجم الصورة بضعة ميغابايت. على تباين ذلك، بالنسبة إلى موقع على شبكة الإنترنت مثل يوتيوب، حيث يُقدر الحجم الإجمالي لجميع أشرطة الفيديو الموجودة على الموقع بالكثير من البيتابايت، وحجم الفيديو يمكن أن تتراوح بين بضع مئات من ميغابايت وغيغابايت في الحجم.

وفي هذا الصدد، نتطرق إلى مصطلح غالبا ما يستخدم لوصف كميات كبيرة من البيانات: البيانات الضخمة. ويمكن تعريف البيانات الضخمة في عدة مصطلحات، ولكن يلخصها أحد التعريفات الشائعة على أنها بيانات كبيرة جدًا بحيث لا يمكن التعامل معها باستخدام التقنيات التقليدية.

أدت تقنية المعلومات والاتصالات المستمرة في التوسع السريع التي تتغلغل في جميع جوانب الحياة العصرية إلى حدوث انفجار هائل في البيانات على مدى العقود القليلة الماضية. وقد أدت أوجه التقدم الرئيسية في الاتصال والرقمنة للمعلومات إلى زيادة كميات البيانات التي يجري إنشاؤها يوميًا. تتنوع هذه البيانات، بدءًا من الصور ومقاطع الفيديو من الهاتف الجوال التي يتم تحميلها إلى مواقع مثل الفيسبوك ويوتيوب، إلى البث التلفزيوني الرقمي على مدار الساعة طوال السبعة أيام، إلى لقطات كاميرات المراقبة بواسطة مئات الآلاف من كاميرات الأمان، إلى التجارب العلمية الكبيرة مثل مصادم الهادرون الكبير - وكلها تنتج الكثير من تيرابايت من البيانات كل يوم. تتوقع أحدث دراسة للكون الرقمي لشركة البيانات الدولية (IDC) زيادة قدرها 300 أضعاف في كمية البيانات التي تم إنشاؤها عالميا، من 130 إكسابايت (1028) في عام 2012 إلى 30000 إكسابايت في عام 2020.

النمو المتوقع للبيانات من 2009 حتى 2020.

الشكل 2: النمو المتوقع للبيانات من 2009 إلى 20201

تحاول المؤسسات الاستفادة من الكميات الهائلة من البيانات التي تنمو بمعدلات متزايدة باستمرار أو التعامل معها. وقد انتقلت مايكروسوفت وجوجل وياهو وفيسبوك من معالجة جيجابايت والتيرابايت إلى نطاق بيتابايت، ما يضع ضغطًا هائلاً على البنية الهيكلية للحوسبة التي تحتاج إلى أن تكون متاحة على مدار الساعة طوال أيام الأسبوع، يجب أن يغيّر السعة بسلاسة مع ارتفاع كمية البيانات المنتجة بشكل كبير. هذه هي التحديات التي يجب أن تستجيب لها تقنيات التخزين الحالية والمستقبلية.


المراجع

  1. ⁧جون غانتز وديفيد رينسيل (2012). ⁧⁩⁧المستندات التقنية لمؤسسة البيانات الدولية بشأن العالم الرقمي في 2020
  2. سوبرامانيان موراليدار، وايت لويد، سابياساتشي روي، كوري هيل، إرنست لين، ويوين ليو، ساتادرو بان، شيفا شانكار، فيسواناث سيفاكومار، لينبنغ تانغ وسانجيف كومار (2014). f4: نظام تخزين الكائن الثنائي كبير الحجم (BLOB) المتوسط لـ Facebook ندوة USENIX الحادية عشر بشأن تصميم أنظمة التشغيل وتنفيذها (OSDI 14) 383-398 رابطة USENIX
  3. توماس ريفيرا (2012). ⁧ تطوّر برامج رابطة صناعة شبكات التخزين التعليمية المتعلقة بأنظمة الملفات