שתף באמצעות


הסרת כפילויות בכל טבלה לצורך איחוד נתונים

שלב הכללים לביטול כפילויות של האיחוד מוצא ומסיר רשומות כפולות עבור לקוח מטבלת מקור כך שכל לקוח מיוצג על ידי שורה בודדת בכל טבלה. ביטול כפילויות מבוצע בנפרד עבור כל טבלה באמצעות כללים לזיהוי הרשומות עבור לקוח נתון.

הכללים מעובדים לפי הסדר. לאחר שכל הכללים הופעלו על כל הרשומות בטבלה, קבוצות התאמה שחולקות שורה משותפת משולבות לקבוצת התאמה אחת.

הגדר כללים לביטול כפילויות

כלל טוב מזהה לקוח ייחודי. התחשב בנתונים שלך. ייתכן שזה יספיק לזיהוי לקוחות על סמך שדה כמו דואר אלקטרוני. עם זאת, אם אתה רוצה להבדיל בין לקוחות שחולקים דואר אלקטרוני, אתה יכול לבחור כלל עם שני תנאים, התואם לדואר אלקטרוני ולשם פרטי. למידע נוסף, ראה שיטות עבודה מומלצות למניעת כפילויות.

  1. בדף כללי ביטול כפילויות , בחר טבלה ובחר הוסף כלל כדי להגדיר את הכללים לביטול כפילויות.

    טיפ

    אם העשרת טבלאות ברמת מקור הנתונים כדי לעזור לשפר את תוצאות האיחוד, בחר השתמש בטבלאות מעושרות בראש הדף. למידע נוסף, ראה העשרה עבור מקורות נתונים.

    צילום מסך של דף כללים למניעת כפילויות עם טבלה מודגשת והוספת כלל שמוצג

    1. בחלונית הוסף כלל הזן את הפרטים הבאים:

      • בחר שדה: בחר מרשימת השדות הזמינים מהטבלה שברצונך לבדוק כפילויות. בחר שדות שעשויים להיות ייחודיים עבור כל לקוח יחיד. לדוגמה, כתובת דואר, או השילוב של שם, עיר ומספר טלפון.

      • נרמל: בחר ב אפשרויות נורמליזציה עבור העמודה. נרמול משפיע רק על שלב ההתאמה, ואינו משנה את הנתונים.

        • ספרות: המרת סמלי Unicode המייצגים מספרים למספרים פשוטים.
        • סמלים: מסיר סמלים ותווים מיוחדים כגון !"#$%&'()*+,-./:;<=>? @[]^_`{|}~. לדוגמה, Head&Shoulder הופך להיות ‎HeadShoulder‎.
        • טקסט לאותיות קטנות: ממיר אותיות רישיות לאותיות קטנות. "ALL CAPS and Title Case" הפך להיות "all caps and title case."
        • סוג (טלפון, שם, כתובת, ארגון): מתקן שמות, כותרות, מספרי טלפון וכתובות.
        • Unicode ל-ASCII: המרת תווי Unicode לאות ASCII המקבילה שלהם. לדוגמה, ề המבטא מומר לתו e.
        • רווח לבן: מסיר את כל הרווחים. שלום עולם הופך להיות שלוםעולם.
        • מיפוי כינוי: מאפשר לך להעלות רשימה מותאמת אישית של זוגות מחרוזות כדי לציין מחרוזות שתמיד יש לראות בהן התאמה מדויקת.
        • מעקף מותאם אישית: מאפשר לך להעלות רשימה מותאמת אישית של מחרוזות כדי לציין מחרוזות שאסור להתאים לעולם.
      • דיוק: מגדיר את רמת הדיוק. הדיוק משמש להתאמה מדויקת והתאמה מטושטשת, וקובע עד כמה שתי מחרוזות צריכות להיות קרובות כדי להיחשב כהתאמה.

        • בסיסי: בחר בין נמוך (30%), בינוני (60%), גבוה (80%), או מדויק (100%). בחר מדויקת כדי להתאים רק רשומות עם התאמה של 100%.
        • מותאם אישית: הגדר אחוז התאמה רצוי עבור רשומות. המערכת מתאימה רק רשומות שעוברות ערך סף זה.
      • שם: שם הכלל.

      צילום מסך של חלונית 'הוסף כלל' להסרת כפילויות.

    2. לחלופין, בחר הוסף>הוסף תנאי כדי להוסיף תנאים נוספים לכלל. התנאים קשורים לאופרטור AND לוגי וכך הם מופעלים רק אם כל התנאים מתקיימים.

    3. לחלופין, הוסף>הוסף חריגה כדי להוסיף חריגים לכלל. חריגים משמשים לטיפול במקרים נדירים של תוצאות חיוביות מוטעות ותוצאות שליליות מוטעות.

    4. בחר בוצע כדי ליצור את הכלל.

  2. לבחירתך, הוסף כללים נוספים.

  3. בחר טבלה ולאחר מכן ערוך העדפות מיזוג.

  4. בחלונית מיזוג העדפות:

    1. בחר אחת משלוש אפשרויות כדי לקבוע איזו רשומה לשמור אם תימצא כפילות:

      • הכי הרבה אנשים מילאו: מזהה את הרשומה עם הכי הרבה עמודות מאוכלסות כרשומה המנצחת. זוהי אפשרות המיזוג של ברירת המחדל.
      • החדשים ביותר: מזהה את הרשומה המנצחת בהתבסס על העדכניות. דורש תאריך או שדה מספרי להגדרת העדכניות.
      • הישנים ביותר: מזהה את הרשומה המנצחת בהתבסס על העדכניות הנמוכה ביותר. דורש תאריך או שדה מספרי להגדרת העדכניות.

      במקרה של תיקו, הרשומה שתישאר היא זו עם MAX(PK)‎ או ערך המפתח הראשי הגדול יותר.

    2. לחלופין, כדי להגדיר העדפות מיזוג על עמודות בודדות של טבלה, בחר מתקדם בחלק התחתון של החלונית. לדוגמה, אתה יכול לבחור לשמור את הדואר האלקטרוני העדכני ביותר ואת הכתובת המלאה ביותר מרשומות שונות. הרחב את הטבלה כדי לראות את כל העמודות שלה ולהגדיר באיזו אפשרות להשתמש עבור עמודות בודדות. אם תבחר באפשרות מבוססת עדכניות, עליך לציין גם שדה תאריך/שעה שמגדיר את העדכניות.

      חלונית העדפות מיזוג מתקדמות המציגה את הדואר העדכני ביותר ואת הכתובת המלאה

    3. בחר בוצע כדי להחיל את העדפות המיזוג שבחרת.

  5. לאחר הגדרת כללי מניעת הכפילויות והעדפות המיזוג, בחר הבא.