Projektowanie rozwiązania integracji danych z usługą Azure Data Lake
Magazyn typu data lake to repozytorium danych przechowywanych w swoim zwykłym formacie, zazwyczaj w postaci plików lub obiektów blob. Azure Data Lake Storage to kompleksowe, skalowalne i ekonomiczne rozwiązanie typu data lake na potrzeby analizy big data, zintegrowane z platformą Azure. Usługa Azure Data Lake Storage łączy system plików z platformą do przechowywania danych, dzięki czemu możesz szybko wyciągać praktyczne wnioski z danych. Rozwiązanie opiera się na możliwościach usługi Azure Blob Storage w celu zapewnienia optymalizacji obciążeń analitycznych. Ta integracja umożliwia analizę wydajności, wysokiej dostępności, zabezpieczeń i trwałości usługi Azure Storage. W tym filmie pokaz nie jest przedstawiony.
Uwaga
Bieżąca implementacja usługi to Azure Data Lake Storage Gen2.
Informacje o usłudze Azure Data Lake Storage
Aby lepiej zrozumieć usługę Azure Data Lake Storage, przyjrzyjmy się następującym cechom.
- Usługa Azure Data Lake Storage może przechowywać dowolny typ danych przy użyciu natywnego formatu danych. Dzięki obsłudze dowolnego formatu danych i ogromnych rozmiarów danych usługa Azure Data Lake Storage może pracować ze ustrukturyzowanymi, częściowo ustrukturyzowanymi i nieustrukturyzowanymi danymi.
- Rozwiązanie jest przeznaczone głównie do pracy z usługą Hadoop i wszystkimi strukturami korzystającymi z rozproszonego systemu plików Apache Hadoop (HDFS) jako warstwy dostępu do danych. Struktury analizy danych korzystające z systemu plików HDFS jako warstwy dostępu do danych mogą uzyskiwać bezpośredni dostęp.
- Usługa Azure Data Lake Storage obsługuje wysoką przepływność na potrzeby analizy danych wejściowych i wyjściowych oraz przenoszenia danych.
- Model kontroli dostępu usługi Azure Data Lake Storage obsługuje listy kontroli dostępu opartej na rolach (RBAC) i przenośnego interfejsu operacyjnego dla systemu UNIX (POSIX).
- Usługa Azure Data Lake Storage korzysta z modeli replikacji obiektów blob platformy Azure. Te modele zapewniają nadmiarowość danych w jednym centrum danych z magazynem lokalnie nadmiarowym (LRS).
- Usługa Azure Data Lake Storage oferuje ogromny magazyn i akceptuje wiele typów danych na potrzeby analizy.
- Usługa Azure Data Lake Storage jest wyceniona na poziomach usługi Azure Blob Storage.
Jak działa usługa Azure Data Lake Storage
Istnieją trzy ważne kroki dotyczące korzystania z usługi Azure Data Lake Storage:
Pozyskiwanie danych. Usługa Azure Data Lake Storage oferuje wiele różnych metod pozyskiwania danych:
- W przypadku nieplanowanych danych możesz użyć narzędzi takich jak AzCopy, interfejs wiersza polecenia platformy Azure, program PowerShell i Eksplorator usługi Azure Storage.
- W przypadku danych relacyjnych można użyć usługi Azure Data Factory. Możesz przesyłać dane z dowolnego źródła, takiego jak Azure Cosmos DB, SQL Database, wystąpienia zarządzane usługi Azure SQL i inne.
- W przypadku danych przesyłanych strumieniowo możesz używać narzędzi takich jak Apache Storm w usłudze Azure HDInsight, Azure Stream Analytics itd.
Na poniższym diagramie pokazano, jak nieplanowane dane i dane przesyłane strumieniowo są pozyskiwane zbiorczo lub nieplanowane w usłudze Azure Data Lake Storage.
Uzyskiwanie dostępu do przechowywanych danych. Najprostszym sposobem uzyskania dostępu do danych jest użycie Eksplorator usługi Azure Storage. Eksplorator usługi Storage to autonomiczna aplikacja z graficznym interfejsem użytkownika umożliwiającym uzyskiwanie dostępu do danych usługi Azure Data Lake Storage. Do uzyskiwania dostępu do danych można również użyć programu PowerShell, interfejsu wiersza polecenia platformy Azure, interfejsu wiersza polecenia systemu PLIKÓW HDFS lub innych zestawów SDK języka programowania.
Konfigurowanie kontroli dostępu. Kontrolowanie, kto może uzyskiwać dostęp do danych przechowywanych w usłudze Azure Data Lake Storage, implementując mechanizm autoryzacji. Możesz wybrać kontrolę dostępu opartą na rolach platformy Azure lub listę ACL.
Scenariusz biznesowy
Firma Tailwind Traders ma wiele źródeł danych, w tym witryn internetowych, systemów punktów sprzedaży (POS), witryn mediów społecznościowych i urządzeń Internetu rzeczy (IoT). Firma interesuje się używaniem platformy Azure do analizowania wszystkich danych biznesowych. Zadaniem jest zapewnienie wskazówek dotyczących możliwości ulepszania istniejących systemów analizy biznesowej na platformie Azure. Musisz poinformować zespół o tym, jak możliwości usługi Azure Storage mogą zwiększyć wartość rozwiązania analizy biznesowej firmy. Aby spełnić wymagania dotyczące danych, planujesz zalecić usługę Azure Data Lake Storage. Usługa Data Lake Storage udostępnia repozytorium umożliwiające przekazywanie i przechowywanie ogromnych ilości danych bez struktury, zaprojektowane pod kątem wydajnej analizy danych big data.
Sprawdźmy, jak usługa Azure Data Lake Storage może być właściwym wyborem dla wymagań organizacji dotyczących danych big data.
| Scenariusz | Rozwiązanie |
|---|---|
| Udostępnianie magazynu danych w chmurze na potrzeby zarządzania dużymi ilościami danych. | Usługa Azure Data Lake Storage działa na sprzęcie wirtualnym na platformie Azure. Magazyn jest skalowalny, szybki i niezawodny bez naliczania ogromnych opłat. Oddziela koszty magazynowania od kosztów obliczeniowych. Wraz ze wzrostem ilości danych zmieniają się tylko wymagania dotyczące magazynu. |
| Obsługa zróżnicowanej kolekcji typów danych, takich jak pliki JSON, CSV, pliki dziennika lub inne formaty. | Usługa Azure Data Lake Storage umożliwia demokratyzację danych w organizacji, przechowując wszystkie formaty danych (w tym nieprzetworzone dane) w jednej lokalizacji. Eliminując silosy danych, użytkownicy mogą używać narzędzi, takich jak Usługa Azure Data Explorer, aby uzyskiwać dostęp do każdego elementu danych i pracować z każdym elementem danych na koncie magazynu. |
| Włącz pozyskiwanie i przechowywanie danych w czasie rzeczywistym. | Usługa Azure Data Lake Storage może pozyskiwać dane w czasie rzeczywistym bezpośrednio z wystąpienia systemu Apache Storm w usłudze Azure HDInsight, usłudze Azure IoT Hub, usłudze Azure Event Hubs lub usłudze Azure Stream Analytics. Działa również z danymi częściowo ustrukturyzowanymi i umożliwia pozyskiwanie wszystkich danych w czasie rzeczywistym na koncie magazynu. |
Kwestie, które należy wziąć pod uwagę podczas wybierania usługi Azure Blob Storage lub Azure Data Lake
W poniższej tabeli porównaliśmy kryteria rozwiązania magazynu dotyczące używania usługi Azure Blob Storage i usługi Azure Data Lake. Przejrzyj kryteria i zastanów się, które rozwiązanie jest optymalne dla firmy Tailwind Traders.
| Porównaj | Azure Data Lake | Azure Blob Storage |
|---|---|---|
| Typy danych | Dobra do przechowywania dużych ilości danych tekstowych | Dobra do przechowywania danych nieustrukturyzowanych nietekstowych, takich jak zdjęcia, filmy wideo i kopie zapasowe |
| Nadmiarowość geograficzna | Należy ręcznie skonfigurować replikację danych | Domyślnie udostępnia magazyn geograficznie nadmiarowy |
| Przestrzenie nazw | Obsługuje hierarchiczne przestrzenie nazw | Obsługuje płaskie przestrzenie nazw |
| Zgodność z platformą Hadoop | Usługi Hadoop mogą używać danych przechowywanych w usłudze Azure Data Lake | Za pomocą sterownika systemu plików obiektów blob platformy Azure aplikacje i struktury mogą uzyskiwać dostęp do danych w usłudze Azure Blob Storage |
| Bezpieczeństwo | Obsługuje szczegółowy dostęp | Szczegółowy dostęp nie jest obsługiwany |