بيانات ملف التعريف في Power BI

مكتمل

إن تحديد البيانات هو حول دراسة الفروق الدقيقة للبيانات: تحديد الحالات الشاذة، وفحص وتطوير هياكل البيانات الأساسية، والاستعلام عن إحصاءات البيانات مثل تعداد الصفوف، وتوزيع القيم، والحد الأدنى والحد الأقصى، والمتوسطات، وما إلى ذلك. هذا المفهوم مهم لأنه يسمح لك بتشكيل وتنظيم البيانات بحيث التفاعل مع البيانات وتحديد توزيع البيانات غير معقدة ، ومن ثمَّ يساعد على جعل مهمتك للعمل مع البيانات على الواجهة الأمامية لتطوير عناصر التقرير بالقرب من جهد.

افترض أنك تقوم بتطوير تقارير لفريق المبيعات في المؤسسة الخاصة بك. كنت غير متأكد من كيفية بناء البيانات واحتوائها داخل الجداول، لذا تريد أن تقوم بتشكيل البيانات خلف الكواليس قبل البدء في تطوير المرئيات. تمتلك Power BI وظائف متأصلة تجعل هذه المهام سهلة الاستخدام ومباشرة.

فحص بنيات البيانات

قبل البدء في فحص البيانات في Power Query Editor، يجب أولاً التعرف على بنيات البيانات الأساسية التي يتم تنظيم البيانات فيها. يمكنك عرض نموذج البيانات الحالي ضمن علامة التبويب Model على Power BI Desktop.

مثال على بنية البيانات والشريط

في علامة التبويب Model، يمكنك تحرير خصائص عمود وجدول محددة عن طريق تحديد جدول أو أعمدة، ويمكنك تحويل البيانات باستخدام زر Transform Data الذي ينقلك إلى Power Query Editor. بالإضافة إلى ذلك، يمكنك إدارة العلاقات بين جداول مختلفة وإنشاؤها وتحريرها وحذفها باستخدام Manage Relationships الموجود على الشريط.

البحث عن مفارقات البيانات وإحصاءات البيانات

بعد إنشاء اتصال بمصدر بيانات وتحديد "Transform Data"، يتم نقلك إلى Power Query Editor حيث يمكنك تحديد ما إذا كانت هناك حالات شاذة داخل البيانات الخاصة بك. البيانات الشاذة هي القيم المتطرفة داخل بياناتك. يمكن أن يساعدك تحديد ماهية هذه الحالات الشاذة في تحديد شكل التوزيع العادي للبيانات وما إذا كانت هناك نقاط بيانات محددة تحتاج إلى مزيد من البحث. يحدد Power Query Editor شذوذ البيانات باستخدام ميزة Column Distribution.

حدد View على الشريط، و ضمن Data Preview، يمكنك الاختيار من بين بعض الخيارات. لفهم حالات الشذوذ والإحصائيات المتعلقة بالبيانات، حدد خيارات Column Distribution، و Column Quality، و Column Profile. يظهر الشكل التالي الإحصائيات التي تظهر.

Column quality و Column distribution يظهرا في الرسوم البيانية أعلى أعمدة البيانات. Column quality تعرض لك النسب المئوية للبيانات الصالحة والخاطئة والفارغة. في حالة مثالية، تريد 100 بالمئة من البيانات لتكون صالحة.

الشذوذ وإحصائيات البيانات لعمود من البيانات

ملاحظة

بشكل افتراضي، يفحص Power Query الصفوف الأولى 1000 من مجموعة البيانات. لتغيير هذا، حدد حالة التنميط في شريط المعلومات وحدد "Column profiling based on entire data set". ]

يعرض "Column distribution" توزيع البيانات داخل العمود وعدد القيم المتميزة والفريدة، وكلاهما يمكن أن يخبرك بتفاصيل حول عدد البيانات. القيم المميزة هي جميع القيم المختلفة في أحد الأعمدة، بما في ذلك القيم المكررة والقيم الخالية، بينما لا تتضمن القيم الفريدة التكرارات أو القيم الخالية. لذلك، يخبرك distinct في هذا الجدول بإجمالي عدد القيم الموجودة، بينما يخبرك unique عدد هذه القيم التي تظهر مرة واحدة فقط.

Column profile يمنحك نظرة أكثر تعمقاً على الإحصائيات داخل الأعمدة لأول 1000 صف من البيانات. يوفر هذا العمود عدة قيم مختلفة، بما في ذلك عدد الصفوف، وهو أمر مهم عند التحقق من نجاح استيراد البيانات. على سبيل المثال، إذا كانت قاعدة البيانات الأصلية 100 صف، يمكنك استخدام هذا العدد من الصفوف للتحقق من أن 100 صف تم استيرادها بشكل صحيح في الواقع. بالإضافة إلى ذلك، سيوضح عدد الصفوف هذا عدد الصفوف التي يعتبرها Power BI بأنها قيم خارجية، والصفوف الفارغة والسلاسل، والحد الأدنى والحد الأقصى، والتي سوف تظهر القيمة الأقل والأكبر في عمود، على التوالي. هذا التمييز مهم بشكل خاص في حالة البيانات الرقمية لأنه سيتم إعلامك على الفور إذا كان لديك قيمة قصوى تتجاوز ما يعرف عملك بأنه "الحد الأقصى". هذه القيمة تستدعي انتباهك إلى هذه القيم، ما يعني أنه يمكنك بعد ذلك تركيز جهودك عند الخوض أعمق في البيانات. في حالة وجود البيانات في عمود النص، كما هو الحال في الصورة السابقة، تكون القيمة الدنيا هي القيمة الأولى والقيمة القصوى هي القيمة الأخيرة عندما تكون بالترتيب الأبجدي.

بالإضافة إلى ذلك، يخبرك الرسم البياني Value distribution أعداد كل قيمة مميزة في هذا العمود المحدد. عند النظر إلى الرسم البياني في الصورة السابقة، لاحظ أن توزيع القيمة يشير إلى أن عدد مرات ظهور "Anthony Grosse" داخل عمود SalesPerson هو الأكثر، وأن مرات ظهور "Lily Code" هي الأقل. هذه المعلومات مهمة بشكل خاص لأنها تحدد القيم المتطرفة. إذا ظهرت قيمة أكثر بكثير من القيم الأخرى في عمود، فإن ميزة "Value distribution" تتيح لك تحديد مكان لبدء التحقيق في سبب ذلك.

على عمود رقمي، سوف تتضمن Column Statistics أيضاً عدد الأصفار والقيم الفارغة الموجودة، بالإضافة إلى متوسط القيمة في العمود، والانحراف المعياري للقيم في العمود، وكم عدد القيم الزوجية و الفردية الموجودة في العمود. تعطيك هذه الإحصائيات فكرة عن توزيع البيانات داخل العمود، وهي مهمة لأنها تلخص البيانات في العمود وتعمل كنقطة بداية لتحديد القيم المتطرفة.

على سبيل المثال، أثناء البحث عن بيانات الفاتورة، تلاحظ أن الرسم البياني Value distribution يُظهر أن بعض مسؤولي المبيعات في عمود SalesPerson يظهرون نفس عدد المرات داخل البيانات. بالإضافة إلى ذلك، لاحظت نفس الموقف حدث أيضًا في العمود Profit وفي بعض الجداول الأخرى. في أثناء التحقيق، تكتشف أن البيانات التي كنت تستخدمها كانت بيانات سيئة وتحتاج إلى تحديث، لذا يمكنك إكمال التحديث على الفور. بدون عرض هذا الرسم البياني، قد لا تشاهد هذا الخطأ بهذه السرعة ولهذا السبب، فإن توزيع القيمة ضروري.

بعد الانتهاء من عمليات التحرير في Power Query Editor وبعد أن تصبح جاهزاً لبدء إنشاء مرئيات، ارجع إلى Home على شريط Power Query Editor. حدد Close & Apply، والذي سيعيدك إلى Power BI Desktop وسيتم أيضا تطبيق أي عمليات تحرير/تحويلات للأعمدة.

لقد حددت الآن العناصر التي تشكل بيانات تشكيل جانبي في Power BI، والتي تتضمن تحميل البيانات في Power BI، واستنطاق خصائص العمود للحصول على وضوح حول وإجراء المزيد من التعديلات على نوع البيانات وتنسيقها في الأعمدة، والعثور على تشوهات البيانات، وعرض إحصائيات البيانات في Power Query Editor. مع هذه المعرفة، يمكنك تضمين مجموعة أدواتك والقدرة على دراسة البيانات الخاصة بك بطريقة فعالة وكفء.