Design a data integration solution with Azure Data Lake
אגם נתונים הוא מאגר של נתונים המאוחסנים בתבנית הטבעית שלו, בדרך כלל כקבצי Blob או קבצים. Azure Data Lake Storage הוא פתרון אגם נתונים מקיף, ניתן להרחבה וחסכוני לניתוח נתונים גדולים המובנה Azure. Azure Data Lake Storage משלב מערכת קבצים עם פלטפורמת אחסון כדי לעזור לך לזהות במהירות תובנות לגבי הנתונים שלך. הפתרון מבוסס על יכולות Azure Blob Storage כדי לספק אופטימיזציות לעומסי אנליטיקה. אינטגרציה זו מאפשרת ביצועי אנליטיקה, זמינות גבוהה, אבטחה ויכולות עמידות של Azure Storage. בסרטון וידאו זה, ההדגמה אינה מסופקת.
חשוב
Azure Data Lake Storage Gen1 יצא לגמלאות ב-29 בפברואר 2024. חשבונות Gen1 קיימים כבר אינם נגישים ולא ניתן ליצור חשבונות חדשים. יחידה זו מכסה בלעדית את Azure Data Lake Storage Gen2.
דברים שכדאי לדעת על Azure Data Lake Storage
כדי להבין טוב יותר את Azure Data Lake Storage, בואו נבחן את המאפיינים הבאים.
Azure Data Lake Storage יכול לאחסן כל סוג של נתונים באמצעות הפורמט המקורי של הנתונים. עם תמיכה בכל פורמט נתונים וגודל נתונים עצום, Azure Data Lake Storage יכול לעבוד עם נתונים מובנים, חצי-מובנים ולא מובנים.
הפתרון מיועד בעיקר לעבודה עם Hadoop וכל המסגרות המשתמשות במערכת הקבצים המבווזרת של Apache Hadoop (HDFS) כשכבת הגישה לנתונים שלהם. מסגרות ניתוח נתונים המשתמשות ב- HDFS כשכבת הגישה לנתונים שלהן יכולות לגשת ישירות.
Azure Data Lake Storage תומך בתפוקה גבוהה לניתוחים והעברת נתונים אינטנסיבית של קלט ופלט.
מודל בקרת הגישה Azure Data Lake Storage תומך הן ברשימות בקרת גישה מבוססת תפקידים (Azure מבוססת תפקידים) והן ברשימות בקרת גישה (ACL) של ממשק מערכת הפעלה נייד ליוניקס (POSIX).
Azure Data Lake Storage משתמש במודלים של Azure Blob Replication. הדגמים הללו תומכים באותן אפשרויות יתירות זמינות עבור Azure Blob Storage. Microsoft ממליצה על ZRS עבור Azure Data Lake Storage workloads.
Azure Data Lake Storage מציע אחסון עצום ומקבל סוגי נתונים רבים לניתוחים.
Azure Data Lake Storage במחיר Azure Blob Storage levels.
איך Azure Data Lake Storage עובד
ישנם שלושה שלבים חשובים לשימוש ב-Azure Data Lake Storage:
הנתונים של Ingest. Azure Data Lake Storage מציע שיטות קליטה שונות רבות:
- לנתונים לא מתוכננים, ניתן להשתמש בכלים כמו AzCopy, Azure CLI, PowerShell ו-Azure Storage Explorer.
- לנתונים יחסיים, ניתן להשתמש בשירות Azure Data Factory. ניתן להעביר נתונים מכל מקור, כמו Azure Cosmos DB, SQL Database, מופעי Azure SQL Managed ועוד.
- לנתוני סטרימינג, אפשר להשתמש בכלים כמו Apache Storm על Azure HDInsight, Azure Stream Analytics ועוד.
הדיאגרמה הבאה מראה כיצד נתונים בלתי מתוכננים ונתוני זרם נספגים בכמויות גדולות או בלתי מתוכננים ב-Azure Data Lake Storage.
הנתונים המאוחסנים ב- Access. הדרך הקלה ביותר לגשת לנתונים שלך היא להשתמש ב-Azure Storage Explorer. סייר אחסון הוא יישום עצמאי עם ממשק משתמש גרפי (GUI) לגישה לנתוני Azure Data Lake Storage שלך. אתה יכול גם להשתמש ב-PowerShell, Azure CLI, HDFS CLI או SDKs אחרים בשפת תכנות כדי לגשת לנתונים.
את התצורה של בקרת. שלוט מי יכול לגשת לנתונים המאוחסנים ב-Azure Data Lake Storage על ידי יישום מנגנון הרשאה. אתה יכול לבחור בין Azure RBAC או ACL.
תרחיש עסקי
ל- Tailwind Traders יש מקורות נתונים מרובים, כולל אתרי אינטרנט, מערכות נקודת מכירה (POS), אתרי מדיה חברתית ומכשירי אינטרנט של דברים (IoT). החברה מעוניינת להשתמש ב-Azure לניתוח כל נתוני העסק שלה. המשימה שלך היא לספק הנחיות כיצד Azure יכולה לשפר את מערכות ה-BI הקיימות שלה. עליך לייעץ לצוות כיצד יכולות האחסון של Azure יכולות להוסיף ערך לפתרון ה-BI של החברה. כדי לעמוד בדרישות הנתונים, אתה מתכנן להמליץ על Azure Data Lake Storage. Data Lake Storage מספקת מאגר שבו תוכל להעלות ולאחסן כמויות עצומות של נתונים לא מובנים עם התמקדות באנליטיקה ביג דאטה בביצועים גבוהים.
בואו נסקור כיצד Azure Data Lake Storage יכול להיות הבחירה הנכונה לדרישות הנתונים הגדולים של הארגון.
| תרחיש | תמיסה |
|---|---|
| ספק מחסן נתונים בענן לניהול כמויות גדולות של נתונים. | Azure Data Lake Storage פועל על חומרה וירטואלית על פלטפורמת Azure. שטח האחסון הוא מדרגי, מהיר ואמין מבלי לצבור חיובים עצומים. היא מפרידה בין עלויות האחסון לעלויות חישוב. ככל שנפח הנתונים גדל, רק דרישות האחסון שלך משתנות. |
| תמיכה באוסף מגוון של סוגי נתונים, כגון קבצי JSON, CSV, קבצי יומן רישום או תבניות. | Azure Data Lake Storage מאפשר דמוקרטיזציה של נתונים לארגון שלך על ידי אחסון כל פורמטי הנתונים שלך (כולל נתונים גולמיים) במקום אחד. על ידי ביטול סילואים של נתונים, המשתמשים שלך יכולים להשתמש בכלים כמו Azure Data Explorer כדי לגשת ולעבוד עם כל פריט נתונים בחשבון האחסון שלהם. |
| לאפשר מיון ואחסון של נתונים בזמן אמת. | Azure Data Lake Storage can init-time data ישירות ממופע Apache Storm על Azure HDInsight, Azure IoT Hub, Azure Event Hubs, או Azure Stream Analytics. הוא פועל גם עם נתונים מובנים למחצה ומאפשר לך להוסיף את כל הנתונים בזמן אמת לחשבון האחסון שלך. |
דברים שיש לקחת בחשבון כשבוחרים ב-Azure Blob Storage או Azure Data Lake
הטבלה הבאה משווה בין קריטריוני פתרון האחסון לשימוש ב-Azure Blob Storage מול Azure Data Lake. סקור את הקריטריונים ושקול איזה פתרון הוא מיטבי עבור Tailwind Traders.
| השווה | Azure Data Lake | Azure Blob Storage |
|---|---|---|
| סוגי נתונים | טוב לאחסון כמויות גדולות של נתוני טקסט | אפשרות זו טובה לאחסון נתונים שאינם מבוססי טקסט שאינם ברורים, כגון תמונות, סרטוני וידאו גיבוי |
| יתירות גיאוגרפית | יש לקבוע תצורה ידנית של שכפול נתונים | מספק אחסון גיאוגרפי יתיר כברירת מחדל |
| שמות | תמיכה מרחבי שמות הירארכיים | תמיכה מרחבי שמות שטוחים |
| תאימות Hadoop | שירותי Hadoop יכולים להשתמש בנתונים המאוחסנים ב-Azure Data Lake | באמצעות Azure Blob Filesystem Driver, יישומים ומסגרות יכולות לגשת לנתונים ב-Azure Blob Storage |
| אבטחה | תומך בגישה פרטנית | אין תמיכה בגישה פרטנית |
עצה
למדו עוד עם אימון בקצב עצמי, מבוא ל-Azure Data Lake Storage Gen2.