إزالة التكرارات في كل جدول لتوحيد البيانات
تقوم خطوة قواعد إلغاء التكرار للتوحيد بالبحث عن السجلات المكررة لعميل وإزالتها من جدول المصدر بحيث يتم تمثيل كل عميل بصف واحد في كل جدول. يتم إلغاء تكرار كل جدول بشكل منفصل باستخدام القواعد لتحديد السجلات الخاصة بعميل معين.
تتم معالجة القواعد بالترتيب. بعد تشغيل جميع القواعد على جميع السجلات في جدول، يتم دمج مجموعات التطابق التي تشارك في صف مشترك في مجموعة تطابق واحدة.
تحديد قواعد إلغاء التكرار
تحدد القاعدة الصالحة عميلاً فريدًا. خذ بياناتك في الاعتبار. قد تكون كافية لتعريف العملاء بالاستناد إلى حقل مثل البريد الإلكتروني. ومع ذلك، إذا كنت تريد التمييز بين العملاء الذين يشاركون بريدًا إلكترونيًا، فيمكنك اختيار قاعدة بشرطين، مطابقة البريد الإلكتروني + الاسم الأول. لمزيد من المعلومات، راجع أفضل ممارسات إلغاء البيانات المكررة.
في صفحة قواعد إلغاء التكرار، حدد جدولاً وحدد إضافة قاعدة لتحديد قواعد إلغاء التكرار.
تلميح
إذا قمت بإثراء الجداول على مستوى مصدر البيانات للمساعدة في تحسين نتائج التوحيد، فحدد استخدام الجداول التي تم إثراؤها في أعلى الصفحة. لمزيد من المعلومات، راجع الإثراء لمصادر البيانات.
في جزء إضافة قاعدة، أدخل المعلومات التالية:
تحديد الحقل: اختر من قائمة الحقول المتوفرة من الجدول الذي تريد التحقق من التكرار فيه. اختر الحقول التي من المرجح أن تكون فريدة لكل عميل. على سبيل المثال، عنوان البريد الإلكتروني أو مجموعة مكوّنة من الاسم والمدينة ورقم الهاتف.
تطبيع: حدد خيارات التسوية للعمود. تؤثر التسوية فقط على خطوة المطابقة، ولا تغيّر البيانات.
- الأرقام: تحويل رموز Unicode التي تمثل الأرقام إلى أرقام بسيطة.
- الرموز: إزالة الرموز والأحرف الخاصة مثل !" #$٪&'()*+,-./:;<=>?@[]^_'{|}~. على سبيل المثال، يتحوّل Head&Shoulder إلى HeadShoulder.
- نص إلى أحرف صغيرة: يحول الأحرف الكبيرة إلى أحرف صغيرة. يتحوّل "ALL CAPS and Title Case" إلى "all caps and title case".
- النوع (الهاتف، الاسم، العنوان، المؤسسة): لتوحيد الأسماء والألقاب وأرقام الهواتف والعناوين.
- Unicode إلى ASCII: تحويل أحرف Unicode إلى مكافئ لحرف ASCII. على سبيل المثال، يتم تحويل الحرف ề إلى الحرف e.
- مسافة فارغة: إزالة كافة المسافات. يتحول Hello World إلى HelloWorld.
- تعيين الاسم المستعار: يسمح لك بتحميل قائمة مخصصة بأزواج السلاسل للإشارة إلى السلاسل التي يجب اعتبارها دائما مطابقة تامة.
- تجاوز مخصص: يسمح لك بتحميل قائمة مخصصة من السلاسل للإشارة إلى السلاسل التي يجب ألا تتطابق أبدا.
الدقة: تعيين مستوى الدقة. تستخدم الدقة للمطابقة التامة والمطابقة الضبابية ، وتحدد مدى قرب سلسلتين حتى يتم اعتبارهما مطابقين.
- أساسي: اختر من منخفض (30%)، ومتوسط (60%)، ومرتفع (80%) ودقيق (100%). حدد تام لمطابقة السجلات التي تطابق 100 بالمائة فقط.
- مخصص: تعيين نسبة مئوية تحتاج السجلات إلى مطابقتها. يطابق النظام فقط السجلات التي تجتاز هذا الحد.
الاسم: اسم القاعدة.
بشكل اختياري، حدد إضافة>إضافة شرط لإضافة المزيد من الشروط إلى القاعدة. يتم توصيل الشروط بعامل التشغيل المنطقي AND وبالتالي يتم تنفيذها فقط إذا تم استيفاء جميع الشروط.
بشكل اختياري، يمكنك إضافة>إضافة استثناء إلى لإضافة الاستثناءات إلى القاعدة. تُستخدم الاستثناءات لمعالجة الحالات النادرة للإيجابيات الكاذبة والسلبيات الكاذبة.
حدد تم لإنشاء القاعدة.
بشكل اختياري، أضف المزيد من القواعد.
حدد جدولاً ثم حرر تفضيلات الدمج.
في جزء دمج التفضيلات:
اختر أحد الخيارات الثلاثة لتحديد السجل الذي تريد الاحتفاظ به إذا تم العثور على نسخة مكررة:
- الأكثر تعبئة: لتعريف السجل الذي يتضمن حقول الأعمدة الأكثر تعبئة تعبئة كالسجل الفائز. إنه خيار الدمج الافتراضي.
- الأحدث: لتعريف السجل الفائز بالاستناد إلى الأكثر حداثة. يتطلب حقل تاريخ أو حقلاً رقمياً لتعريف الحداثة.
- الأقل حداثة: لتعريف السجل الفائز بالاستناد إلى الأقل حداثة. يتطلب حقل تاريخ أو حقلاً رقمياً لتعريف الحداثة.
في حالة التعادل، يكون السجل الفائز هو السجل الذي يحتوي على MAX(PK) أو قيمة المفتاح الأساسي الأكبر.
بشكل اختياري، لتحديد تفضيلات الدمج على أعمدة جدول فردية، حدد متقدم في أسفل الجزء. على سبيل المثال، يمكنك اختيار الاحتفاظ بأحدث بريد إلكتروني والعنوان الأكثر اكتمالاً من سجلات مختلفة. قم بتوسيع الجدول لمشاهدة جميع أعمدته، وحدد الخيار الذي يجب استخدامه للأعمدة الفردية. إذا اخترت خيارًا يستند إلى حداثة الزيارة، فستحتاج أيضًا إلى تحديد حقل التاريخ / الوقت الذي يحدد الحداثة.
حدد تم لتطبيق تفضيلات الدمج الخاصة بك.
بعد تحديد قواعد إلغاء البيانات المكررة ودمج التفضيلات، حدد التالي.