Udostępnij za pośrednictwem


Omówienie usługi Azure Data Lake Storage na potrzeby analizy w skali chmury

Usługa Azure Data Lake to wysoce skalowalny i bezpieczny magazyn danych na potrzeby obciążeń analitycznych o wysokiej wydajności. Konta magazynu można tworzyć w ramach jednej grupy zasobów na potrzeby analizy w skali chmury. Zalecamy aprowizowanie trzech kont usługi Azure Data Lake Storage Gen2 w ramach jednej grupy zasobów podobnej do storage-rg grupy zasobów opisanej w artykule Omówienie strefy docelowej architektury analizy w skali chmury.

Każde konto magazynu w strefie docelowej danych przechowuje dane w jednym z trzech etapów:

  • Nieprzetworzone dane
  • Wzbogacone i wyselekcjonowane dane
  • Tworzenie magazynów danych

Aplikacja danych może wykorzystywać wzbogacone i wyselekcjonowane dane z konta magazynu, które zostało pozyskane przez zautomatyzowaną usługę pozyskiwania danych niezależnie od danych. Możesz utworzyć aplikację danych wyrównaną do źródła, jeśli nie implementujesz aparatu niezależnego od danych lub ułatwiasz złożone połączenia na potrzeby pozyskiwania danych ze źródeł operacyjnych. Ta aplikacja danych jest zgodna z tym samym przepływem co aparat niezależny od danych podczas pozyskiwania danych z zewnętrznych źródeł danych.

Usługa Data Lake Storage Gen2 obsługuje szczegółowe listy kontroli dostępu (ACL), które chronią dane na poziomach plików i folderów. Listy kontroli dostępu mogą pomóc organizacji w zaimplementowaniu ścisłych środków zabezpieczeń na potrzeby uwierzytelniania i autoryzacji dla produktów danych:

  • Bezpieczne przechowywanie danych za pośrednictwem szyfrowania magazynowanych.
  • Mechanizmy kontroli dostępu dla użytkowników i grup zabezpieczeń firmy Microsoft Entra za pośrednictwem integracji firmy Microsoft Entra.

Planowanie usługi Data Lake

Podczas planowania usługi Data Lake zawsze należy wziąć pod uwagę odpowiednie kwestie dotyczące struktury, ładu i zabezpieczeń. Wiele czynników wpływa na strukturę i organizację usługi Data Lake:

  • Typ przechowywanych danych
  • Jak przekształcane są jego dane
  • KtoTo uzyskuje dostęp do danych
  • Jakie są typowe wzorce dostępu

Konsumenci i producenci grup w oparciu o ich potrzeby dotyczące dostępu do danych. Dobrym pomysłem jest zaplanowanie implementacji i kontroli dostępu w usłudze Data Lake.

Jeśli usługa Data Lake zawiera kilka zasobów danych i zautomatyzowanych procesów, takich jak wyodrębnianie, przekształcanie, ładowanie (ETL), planowanie może być dość proste. Jeśli usługa Data Lake zawiera setki zasobów danych i obejmuje zautomatyzowaną i ręczną interakcję, należy spodziewać się dłuższego planowania, ponieważ będziesz potrzebować znacznie większej współpracy od właścicieli danych.

Analogia bagna danych

Bagna danych to niezarządzany magazyn typu data lake, który jest prawie niedostępny dla użytkowników. Obszary danych występują, gdy nie implementujesz miar jakości danych i ładu danych. Czasami można zobaczyć bagno danych w magazynie danych z istniejącymi modelami hybrydowymi.

Odpowiedni nadzór i organizacja uniemożliwiają zamazań danych. Podczas tworzenia solidnej podstawy dla usługi Data Lake zwiększa się prawdopodobieństwo trwałego sukcesu w usłudze Data Lake i wartości biznesowej.

Wraz ze wzrostem rozmiaru, złożoności, liczby zasobów danych i liczby użytkowników lub działów usługi Data Lake coraz bardziej ważne jest posiadanie niezawodnego systemu wykazu danych. System wykazu danych gwarantuje, że użytkownicy będą mogli znajdować, oznaczać i klasyfikować dane podczas przetwarzania, korzystania z usługi Data Lake i zarządzania nim.

Aby uzyskać więcej informacji, zobacz Omówienie ładu danych.

Konta magazynu w usłudze Logical Data Lake

Zastanów się, czy organizacja potrzebuje jednego lub wielu kont magazynu, i zastanów się, jakie systemy plików są wymagane do utworzenia logicznego magazynu data lake. Technologia pojedynczego magazynu zapewnia wiele metod dostępu do danych i ułatwia standaryzację w całej organizacji.

Data Lake Storage Gen2 to w pełni zarządzana platforma jako usługa (PaaS). Wiele kont magazynu lub systemów plików nie może ponieść kosztów pieniężnych, dopóki dane nie będą uzyskiwane ani przechowywane. Należy pamiętać, że każdy zasób platformy Azure ma powiązane koszty administracyjne i operacyjne podczas aprowizacji, zabezpieczeń i ładu, w tym kopii zapasowych i odzyskiwania po awarii.

Uwaga

Trzy magazyny danych są ilustrowane w każdej strefie docelowej danych. Jednak w zależności od wymagań możesz skonsolidować nieprzetworzone, wzbogacone i wyselekcjonowane warstwy na jedno konto magazynu. Możesz utworzyć inne konto magazynu o nazwie "programowanie", w którym konsumenci danych mogą przynieść inne przydatne produkty danych.

Podczas podejmowania decyzji o skonsolidowanym lub trzech kontach magazynu należy wziąć pod uwagę następujące czynniki:

  • Izolacja środowisk danych i przewidywalność
    • Możesz odizolować działania uruchamiane w strefach pierwotnych i programistycznych, aby uniknąć potencjalnego wpływu na strefę wyselekcjonowanego, w której przechowywane są dane o świetnej wartości biznesowej potrzebnej do podejmowania krytycznych decyzji
  • Funkcje i funkcje na poziomie konta magazynu
    • Możesz wybrać, czy opcje zarządzania cyklem życia lub reguły zapory muszą być stosowane na poziomie strefy docelowej danych lub magazynu data lake.
    • Utwórz wiele kont magazynu, ale nie niechcianych silosów.
    • Unikaj duplikowania projektów danych z braku widoczności lub udostępniania wiedzy w całej organizacji.
    • Upewnij się, że masz dobre zarządzanie danymi, narzędzia do śledzenia projektów i wykaz danych.
  • Interakcja narzędzi i technologii przetwarzania danych z danymi w wielu jeziorach na podstawie skonfigurowanych uprawnień
  • Jeziora regionalne i globalne
    • Globalnie rozproszeni odbiorcy lub procesy w jeziorze są wrażliwe na opóźnienia spowodowane odległościami geograficznymi.
    • Przechowywanie danych lokalnie jest dobrym rozwiązaniem.
    • Ograniczenia regulacyjne i niezależność danych mogą wymagać, aby dane pozostały w określonym regionie.
    • Aby uzyskać więcej informacji, zobacz Wdrożenia w wielu regionach.

Wdrożenia w wielu regionach

W przypadku dyktowania przez reguły rezydencji danych lub wymaganie, aby dane były blisko bazy użytkowników, może być konieczne utworzenie kont usługi Azure Data Lake w wielu regionach świadczenia usługi Azure. W tym celu utwórz strefę docelową danych w jednym regionie, a następnie zreplikuj dane globalne przy użyciu narzędzia AzCopy, usługi Azure Data Factory lub produktów innych firm. Dane lokalne żyją w regionie, podczas gdy dane globalne są replikowane w wielu regionach.

Następne kroki

Strefy i kontenery usługi Data Lake