Informationen zu Azure Data Lake Storage Gen2

Abgeschlossen

Bei einem Data Lake handelt es sich um ein Repository mit Daten, die in ihrem natürlichen Format in der Regel als Blobs oder Dateien gespeichert sind. Bei Azure Data Lake Storage handelt es sich um eine in Azure integrierte umfangreiche, hoch skalierbare, sichere und kosteneffiziente Data Lake-Lösung für Hochleistungsanalysen.

Diagram representing files in Azure data Lake Storage Gen2 being accessed by big data technologies.

Azure Data Lake Storage kombiniert ein Dateisystem mit einer Speicherplattform, damit Sie schneller Erkenntnisse aus Ihren Daten gewinnen können. Data Lake Storage baut auf den Funktionen von Azure Blob Storage auf, um eine Optimierung für Analyseworkloads zu erzielen. Diese Integration ermöglicht Analyseleistungen. Außerdem stehen neben den Blob Storage-Funktionen zum Tiering und zur Verwaltung der Lebenszyklen von Daten auch die Azure Storage-Funktionen für Hochverfügbarkeit, Sicherheit und Dauerhaftigkeit zur Verfügung.

Vorteile

Azure Data Lake Storage wurde dafür entwickelt, große Mengen dieser verschiedenen Daten im Exabytebereich zu verarbeiten. Der Durchsatz von Hunderten Gigabyte an Daten wird dabei automatisch gesichert. Sie können Data Lake Storage Gen2 also sowohl für Echtzeit- als auch für Batchlösungen einsetzen.

Hadoop-kompatibler Zugriff

Ein Vorteil von Data Lake Storage besteht darin, dass Sie Daten so verarbeiten können, als wären sie in einem Hadoop Distributed File System (HDFS) gespeichert. Mithilfe dieses Features können Sie Daten an einem Speicherort speichern und über verschiedene Computetechnologien (u. a. Azure Databricks, Azure HDInsight und Azure Synapse Analytics) darauf zugreifen, ohne die Daten zwischen mehreren Umgebungen verschieben zu müssen. Die technische Fachkraft für Daten hat auch die Möglichkeit, Speichermechanismen wie das Parquet-Format zu verwenden, das hoch komprimiert ist und über mehrere Plattformen hinweg mit einem internen spaltenbasierten Speicher gut funktioniert.

Sicherheit

Data Lake Storage unterstützt Zugriffssteuerungslisten (Access Control Lists, ACLs) und POSIX-Berechtigungen (Portable Operating System Interface), die nicht die Berechtigungen des übergeordneten Verzeichnisses erben. Tatsächlich können Sie Berechtigungen auf Verzeichnis- oder Dateiebene für die im Data Lake gespeicherten Daten festlegen und so ein wesentlich sichereres Speichersystem bereitstellen. Sie können die Sicherheit mithilfe von Technologien wie Hive und Spark oder mit Hilfsprogrammen wie dem Azure Storage-Explorer konfigurieren, der auf Windows, macOS und Linux ausgeführt wird. Darüber hinaus werden alle gespeicherten Daten im Ruhezustand mit Microsoft-Schlüsseln oder vom Kunden verwalteten Schlüsseln verschlüsselt.

Leistung

Azure Data Lake Storage erstellt für die gespeicherten Daten eine Hierarchie aus Verzeichnissen und Unterverzeichnissen, die einem Dateisystem ähnelt und eine einfachere Navigation ermöglicht. Dadurch sind für die Datenverarbeitung weniger Computeressourcen erforderlich, sodass Zeit und Geld gespart werden.

Datenredundanz

Data Lake Storage nutzt die Replikationsmodelle von Azure Blob Storage, die Datenredundanz in einem einzelnen Rechenzentrum mit lokal redundantem Speicher (LRS) oder in einer sekundären Region mithilfe der Option für georedundanten Speicher ermöglichen. Durch dieses Feature wird sichergestellt, dass Ihre Daten auch im Ernstfall immer verfügbar und geschützt sind.

Tipp

Bei der Planung eines Data Lake sollte eine technische Fachkraft für Daten die Struktur, die Datengovernance und die Sicherheit berücksichtigen. Dies sollte die Berücksichtigung von Faktoren umfassen, die die Lake-Struktur und -Organisation beeinflussen können, z. B.:

  • Zu speichernde Datentypen
  • Art der Transformation der Daten
  • Wer auf die Daten zugreifen sollte
  • Typische Zugriffsmuster

Mit diesem Ansatz können Sie bestimmen, wie Sie die Zugriffssteuerungsgovernance für Ihren Lake planen. Technische Fachkräfte für Daten sollten proaktiv sicherstellen, dass der Lake nicht zum sprichwörtlichen Datensumpf wird, auf den Benutzer aufgrund fehlender Datengovernance und Datenqualitätsmaßnahmen nicht mehr zugreifen und den sie nicht mehr nutzen können. Das Einrichten einer Baseline und die Einhaltung bewährter Methoden für Azure Data Lake tragen dazu bei, eine ordnungsgemäße und robuste Implementierung sicherzustellen, die der Organisation ermöglicht, zu wachsen und Erkenntnisse zu gewinnen, um mehr zu erreichen.