Używanie Azure Data Lake Storage Gen1 na potrzeby wymagań dotyczących danych big data
Uwaga
Azure Data Lake Storage Gen1 jest teraz wycofana. Zobacz ogłoszenie o wycofaniu tutaj. Data Lake Storage Gen1 zasoby nie są już dostępne. Jeśli potrzebujesz specjalnej pomocy, skontaktuj się z nami.
Istnieją cztery kluczowe etapy przetwarzania danych big data:
- Pozyskiwanie dużych ilości danych do magazynu danych w czasie rzeczywistym lub w partiach
- Przetwarzanie danych
- Pobieranie danych
- Wizualizowanie danych
W tym artykule przyjrzymy się tym etapom w odniesieniu do Azure Data Lake Storage Gen1, aby zrozumieć opcje i narzędzia dostępne do spełnienia wymagań dotyczących danych big data.
Pozyskiwanie danych do Data Lake Storage Gen1
W tej sekcji przedstawiono różne źródła danych oraz różne sposoby pozyskiwania tych danych na konto Data Lake Storage Gen1.
Dane ad hoc
Reprezentuje to mniejsze zestawy danych używane do tworzenia prototypów aplikacji danych big data. Istnieją różne sposoby pozyskiwania danych ad hoc w zależności od źródła danych.
Źródło danych | Pozyskiwanie go przy użyciu |
---|---|
Komputer lokalny | |
Azure Storage Blob |
Dane przesyłane strumieniowo
Reprezentuje to dane, które mogą być generowane przez różne źródła, takie jak aplikacje, urządzenia, czujniki itp. Te dane można pozyskać do Data Lake Storage Gen1 przez różne narzędzia. Te narzędzia zwykle przechwytują i przetwarzają dane na podstawie zdarzeń w czasie rzeczywistym, a następnie zapisują zdarzenia w partiach w Data Lake Storage Gen1, aby można je było dalej przetwarzać.
Poniżej przedstawiono narzędzia, których można użyć:
- Azure Stream Analytics — zdarzenia pozyskane do usługi Event Hubs można zapisywać w usłudze Azure Data Lake Storage Gen1 przy użyciu danych wyjściowych Azure Data Lake Storage Gen1.
- EventProcessorHost — możesz odbierać zdarzenia z usługi Event Hubs, a następnie zapisywać je w Data Lake Storage Gen1 przy użyciu zestawu SDK platformy Data Lake Storage Gen1 .NET.
Dane relacyjne
Możesz również źródle danych z relacyjnych baz danych. Przez pewien czas relacyjne bazy danych zbierają ogromne ilości danych, które mogą zapewnić kluczowe szczegółowe informacje w przypadku przetwarzania za pośrednictwem potoku danych big data. Aby przenieść takie dane do Data Lake Storage Gen1, możesz użyć następujących narzędzi.
Dane dziennika serwera sieci Web (przekazywanie przy użyciu aplikacji niestandardowych)
Ten typ zestawu danych jest specjalnie wywoływany, ponieważ analiza danych dziennika serwera internetowego jest typowym przypadkiem użycia dla aplikacji danych big data i wymaga przekazania dużych ilości plików dziennika do Data Lake Storage Gen1. Możesz użyć dowolnego z poniższych narzędzi do pisania własnych skryptów lub aplikacji w celu przekazania takich danych.
- Interfejs wiersza polecenia platformy Azure
- Azure PowerShell
- zestaw SDK platformy .NET usługi Azure Data Lake Storage Gen1
- Azure Data Factory
W przypadku przekazywania danych dziennika serwera internetowego, a także przekazywania innych rodzajów danych (np. danych tonacji społecznościowych), dobrym rozwiązaniem jest napisanie własnych niestandardowych skryptów/aplikacji, ponieważ zapewnia elastyczność uwzględnienia składnika przekazującego dane w ramach większej aplikacji danych big data. W niektórych przypadkach ten kod może mieć postać skryptu lub prostego narzędzia wiersza polecenia. W innych przypadkach kod może służyć do integrowania przetwarzania danych big data z aplikacją biznesową lub rozwiązaniem.
Dane skojarzone z klastrami usługi Azure HDInsight
Większość typów klastrów usługi HDInsight (Hadoop, HBase, Storm) obsługuje Data Lake Storage Gen1 jako repozytorium magazynu danych. Klastry usługi HDInsight uzyskują dostęp do danych z obiektów blob usługi Azure Storage (WASB). Aby uzyskać lepszą wydajność, możesz skopiować dane z usługi WASB do konta Data Lake Storage Gen1 skojarzonego z klastrem. Do skopiowania danych można użyć następujących narzędzi.
Dane przechowywane w klastrach lokalnych lub IaaS Hadoop
Duże ilości danych mogą być przechowywane w istniejących klastrach Hadoop lokalnie na maszynach przy użyciu systemu plików HDFS. Klastry Hadoop mogą znajdować się we wdrożeniu lokalnym lub mogą znajdować się w klastrze IaaS na platformie Azure. Mogą istnieć wymagania dotyczące kopiowania takich danych do Azure Data Lake Storage Gen1 w przypadku podejścia jednorazowego lub cyklicznego. Istnieją różne opcje, których można użyć do osiągnięcia tego celu. Poniżej znajduje się lista alternatyw i powiązanych kompromisów.
Podejście | Szczegóły | Zalety | Zagadnienia do rozważenia |
---|---|---|---|
Używanie Azure Data Factory (ADF) do kopiowania danych bezpośrednio z klastrów Hadoop do Azure Data Lake Storage Gen1 | Usługa ADF obsługuje system plików HDFS jako źródło danych | Usługa ADF zapewnia kompleksową obsługę systemu plików HDFS i kompleksowego zarządzania i monitorowania | Wymaga wdrożenia bramy Zarządzanie danymi lokalnie lub w klastrze IaaS |
Eksportuj dane z usługi Hadoop jako pliki. Następnie skopiuj pliki do Azure Data Lake Storage Gen1 przy użyciu odpowiedniego mechanizmu. | Pliki można skopiować do usługi Azure Data Lake Storage Gen1 przy użyciu:
|
Szybki start. Możliwość dostosowywania przekazywania | Wieloetapowy proces obejmujący wiele technologii. Zarządzanie i monitorowanie będzie w miarę upływu czasu stanowić wyzwanie, biorąc pod uwagę dostosowany charakter narzędzi |
Użyj narzędzia Distcp, aby skopiować dane z usługi Hadoop do usługi Azure Storage. Następnie skopiuj dane z usługi Azure Storage do Data Lake Storage Gen1 przy użyciu odpowiedniego mechanizmu. | Dane z usługi Azure Storage można skopiować do Data Lake Storage Gen1 przy użyciu: | Możesz użyć narzędzi typu open source. | Wieloetapowy proces obejmujący wiele technologii |
Naprawdę duże zestawy danych
W przypadku przekazywania zestawów danych, które wahają się w kilku terabajtach, użycie opisanych powyżej metod może czasami być powolne i kosztowne. W takich przypadkach możesz użyć poniższych opcji.
Korzystanie z usługi Azure ExpressRoute. Usługa Azure ExpressRoute umożliwia tworzenie połączeń prywatnych między centrami danych platformy Azure i infrastrukturą lokalną. Zapewnia to niezawodną opcję przesyłania dużych ilości danych. Aby uzyskać więcej informacji, zobacz dokumentację usługi Azure ExpressRoute.
Przekazywanie danych w trybie offline. Jeśli korzystanie z usługi Azure ExpressRoute nie jest możliwe z jakiegokolwiek powodu, możesz użyć usługi Azure Import/Export , aby dostarczać dyski twarde z danymi do centrum danych platformy Azure. Dane są najpierw przekazywane do obiektów blob usługi Azure Storage. Następnie możesz użyć narzędzia Azure Data Factory lub narzędzia AdlCopy do kopiowania danych z obiektów blob usługi Azure Storage do Data Lake Storage Gen1.
Uwaga
Podczas korzystania z usługi Import/Export rozmiary plików na dyskach, które są dostarczane do centrum danych platformy Azure, nie powinny być większe niż 195 GB.
Przetwarzanie danych przechowywanych w Data Lake Storage Gen1
Po udostępnieniu danych w Data Lake Storage Gen1 możesz uruchomić analizę tych danych przy użyciu obsługiwanych aplikacji danych big data. Obecnie można używać usług Azure HDInsight i Azure Data Lake Analytics do uruchamiania zadań analizy danych na danych przechowywanych w Data Lake Storage Gen1.
Możesz zapoznać się z poniższymi przykładami.
- Tworzenie klastra usługi HDInsight z Data Lake Storage Gen1 jako magazynem
- Korzystanie z usługi Azure Data Lake Analytics z Data Lake Storage Gen1
Pobieranie danych z Data Lake Storage Gen1
Możesz również pobrać lub przenieść dane z Azure Data Lake Storage Gen1 w scenariuszach, takich jak:
- Przenieś dane do innych repozytoriów do interfejsu z istniejącymi potokami przetwarzania danych. Możesz na przykład przenieść dane z Data Lake Storage Gen1 do bazy danych Azure SQL lub SQL Server.
- Pobierz dane na komputer lokalny do przetwarzania w środowiskach IDE podczas tworzenia prototypów aplikacji.
W takich przypadkach można użyć dowolnej z następujących opcji:
Możesz również użyć następujących metod, aby napisać własny skrypt/aplikację, aby pobrać dane z Data Lake Storage Gen1.
- Interfejs wiersza polecenia platformy Azure
- Azure PowerShell
- zestaw SDK platformy .NET usługi Azure Data Lake Storage Gen1
Wizualizowanie danych w Data Lake Storage Gen1
Możesz użyć kombinacji usług, aby utworzyć wizualne reprezentacje danych przechowywanych w Data Lake Storage Gen1.
- Możesz zacząć od użycia Azure Data Factory, aby przenieść dane z Data Lake Storage Gen1 do usługi Azure Synapse Analytics
- Następnie możesz zintegrować usługę Power BI z usługą Azure Synapse Analytics, aby utworzyć wizualną reprezentację danych.