סיור בעיבוד נתונים אנליטי
עיבוד נתונים אנליטיים משתמש בדרך כלל במערכות לקריאה בלבד (או לקריאה בעיקר) המאחסנים כמויות עצומות של נתונים היסטוריים או מדדים עסקיים. ניתוחים יכולים להיות מבוססים על תמונה של הנתונים בנקודה מסוימת בזמן, או סדרת תמונות.
הפרטים הספציפיים עבור מערכת עיבוד אנליטי עשויים להשתנות בין פתרונות, אך ארכיטקטורה נפוצה לניתוח בקנה מידה ארגוני נראית כך:
- הנתונים התפעוליים מחולצים, מבצעים המרה ונטעון (ETL) לאגם נתונים לצורך ניתוח.
- הנתונים נטענים בסכימה של טבלאות - בדרך כלל בבית אגם של נתונים המבוסס על Spark עם הפשטות טבלאית על קבצים באגם הנתונים, או מחסן נתונים עם מנגנון SQL יחסי לחלוטין.
- ייתכן שהנתונים במחסן הנתונים נצברים ונטמעו במודל עיבוד אנליטי מקוון (OLAP), או בקוביה. ערכים מספריים מצטברים (מידות) מטבלאות עובדה מחושבים עבור הצטלבויות של ממדים מטבלאות ממדים. לדוגמה, הכנסה ממכירות עשויה להיות מסתכמות לפי תאריך, לקוח ומוצר.
- ניתן לבצע שאילתה על הנתונים באגם הנתונים, מחסן הנתונים והמודל האנליטי כדי ליצור דוחות, פריטים חזותיים ולוחות מחוונים.
אגמי נתונים נפוצים בתרחישי עיבוד אנליטי של נתונים בקנה מידה גדול, שבהם יש לאסוף ולנתח נפח גדול של נתונים מבוססי קובץ.
מחסני נתונים הם דרך מבוססת לאחסון נתונים בסכימה יחסית הממוטבת לפעולות קריאה – בעיקר שאילתות לתמיכה בדיווח ובפריטים חזותיים של נתונים. Data Lakehouses הם חדשנות עדכנית יותר המשלבת את האחסון הגמיש והדרגתי של אגם נתונים עם הסמנטיקה היחסית של מחסן נתונים. סכימת הטבלה עשויה לדרוש ירידה נורמלית מסוימת של נתונים במקור נתונים של OLTP (הצגת שכפול כדי לגרום לשאילתות לבצע פעולות מהירות יותר).
מודל OLAP הוא סוג נצבר של אחסון נתונים הממוטב עבור עומסי עבודה אנליטיים. צבירות הנתונים נמצאות בין ממדים ברמות שונות, ומאפשרות לך לבצע הסתעפות / למטה כדי להציג צבירות ברמות הירארכיות מרובות; לדוגמה, כדי למצוא את סך המכירות לפי אזור, לפי עיר או עבור כתובת בודדת. מאחר שהנתונים של OLAP נצברים מראש, ניתן להפעיל במהירות שאילתות להחזרת סיכומים שהם מכילים.
סוגים שונים של משתמשים עשויים לבצע עבודה אנליטית של נתונים בשלבים שונים של הארכיטקטורה הכוללת. לדוגמה:
- מדעני נתונים עשויים לעבוד ישירות עם קבצי נתונים באגם נתונים כדי לחקור ולדגם נתונים.
- אנליסטי נתונים עשויים לבצע שאילתות בטבלאות ישירות במחסן הנתונים כדי להפיק דוחות ופריטים חזותיים מורכבים.
- משתמשים עסקיים עשויים לצרוך נתונים מצטברים מראש במודל אנליטי בצורת דוחות או לוחות מחוונים.