Używanie Azure Data Lake Storage Gen1 na potrzeby wymagań dotyczących danych big data

Uwaga

Azure Data Lake Storage Gen1 jest teraz wycofana. Zobacz ogłoszenie o wycofaniu tutaj. Data Lake Storage Gen1 zasoby nie są już dostępne. Jeśli potrzebujesz specjalnej pomocy, skontaktuj się z nami.

Istnieją cztery kluczowe etapy przetwarzania danych big data:

  • Pozyskiwanie dużych ilości danych do magazynu danych w czasie rzeczywistym lub w partiach
  • Przetwarzanie danych
  • Pobieranie danych
  • Wizualizowanie danych

W tym artykule przyjrzymy się tym etapom w odniesieniu do Azure Data Lake Storage Gen1, aby zrozumieć opcje i narzędzia dostępne do spełnienia wymagań dotyczących danych big data.

Pozyskiwanie danych do Data Lake Storage Gen1

W tej sekcji przedstawiono różne źródła danych oraz różne sposoby pozyskiwania tych danych na konto Data Lake Storage Gen1.

Pozyskiwanie danych do Data Lake Storage Gen1

Dane ad hoc

Reprezentuje to mniejsze zestawy danych używane do tworzenia prototypów aplikacji danych big data. Istnieją różne sposoby pozyskiwania danych ad hoc w zależności od źródła danych.

Źródło danych Pozyskiwanie go przy użyciu
Komputer lokalny
Azure Storage Blob

Dane przesyłane strumieniowo

Reprezentuje to dane, które mogą być generowane przez różne źródła, takie jak aplikacje, urządzenia, czujniki itp. Te dane można pozyskać do Data Lake Storage Gen1 przez różne narzędzia. Te narzędzia zwykle przechwytują i przetwarzają dane na podstawie zdarzeń w czasie rzeczywistym, a następnie zapisują zdarzenia w partiach w Data Lake Storage Gen1, aby można je było dalej przetwarzać.

Poniżej przedstawiono narzędzia, których można użyć:

Dane relacyjne

Możesz również źródle danych z relacyjnych baz danych. Przez pewien czas relacyjne bazy danych zbierają ogromne ilości danych, które mogą zapewnić kluczowe szczegółowe informacje w przypadku przetwarzania za pośrednictwem potoku danych big data. Aby przenieść takie dane do Data Lake Storage Gen1, możesz użyć następujących narzędzi.

Dane dziennika serwera sieci Web (przekazywanie przy użyciu aplikacji niestandardowych)

Ten typ zestawu danych jest specjalnie wywoływany, ponieważ analiza danych dziennika serwera internetowego jest typowym przypadkiem użycia dla aplikacji danych big data i wymaga przekazania dużych ilości plików dziennika do Data Lake Storage Gen1. Możesz użyć dowolnego z poniższych narzędzi do pisania własnych skryptów lub aplikacji w celu przekazania takich danych.

W przypadku przekazywania danych dziennika serwera internetowego, a także przekazywania innych rodzajów danych (np. danych tonacji społecznościowych), dobrym rozwiązaniem jest napisanie własnych niestandardowych skryptów/aplikacji, ponieważ zapewnia elastyczność uwzględnienia składnika przekazującego dane w ramach większej aplikacji danych big data. W niektórych przypadkach ten kod może mieć postać skryptu lub prostego narzędzia wiersza polecenia. W innych przypadkach kod może służyć do integrowania przetwarzania danych big data z aplikacją biznesową lub rozwiązaniem.

Dane skojarzone z klastrami usługi Azure HDInsight

Większość typów klastrów usługi HDInsight (Hadoop, HBase, Storm) obsługuje Data Lake Storage Gen1 jako repozytorium magazynu danych. Klastry usługi HDInsight uzyskują dostęp do danych z obiektów blob usługi Azure Storage (WASB). Aby uzyskać lepszą wydajność, możesz skopiować dane z usługi WASB do konta Data Lake Storage Gen1 skojarzonego z klastrem. Do skopiowania danych można użyć następujących narzędzi.

Dane przechowywane w klastrach lokalnych lub IaaS Hadoop

Duże ilości danych mogą być przechowywane w istniejących klastrach Hadoop lokalnie na maszynach przy użyciu systemu plików HDFS. Klastry Hadoop mogą znajdować się we wdrożeniu lokalnym lub mogą znajdować się w klastrze IaaS na platformie Azure. Mogą istnieć wymagania dotyczące kopiowania takich danych do Azure Data Lake Storage Gen1 w przypadku podejścia jednorazowego lub cyklicznego. Istnieją różne opcje, których można użyć do osiągnięcia tego celu. Poniżej znajduje się lista alternatyw i powiązanych kompromisów.

Podejście Szczegóły Zalety Zagadnienia do rozważenia
Używanie Azure Data Factory (ADF) do kopiowania danych bezpośrednio z klastrów Hadoop do Azure Data Lake Storage Gen1 Usługa ADF obsługuje system plików HDFS jako źródło danych Usługa ADF zapewnia kompleksową obsługę systemu plików HDFS i kompleksowego zarządzania i monitorowania Wymaga wdrożenia bramy Zarządzanie danymi lokalnie lub w klastrze IaaS
Eksportuj dane z usługi Hadoop jako pliki. Następnie skopiuj pliki do Azure Data Lake Storage Gen1 przy użyciu odpowiedniego mechanizmu. Pliki można skopiować do usługi Azure Data Lake Storage Gen1 przy użyciu: Szybki start. Możliwość dostosowywania przekazywania Wieloetapowy proces obejmujący wiele technologii. Zarządzanie i monitorowanie będzie w miarę upływu czasu stanowić wyzwanie, biorąc pod uwagę dostosowany charakter narzędzi
Użyj narzędzia Distcp, aby skopiować dane z usługi Hadoop do usługi Azure Storage. Następnie skopiuj dane z usługi Azure Storage do Data Lake Storage Gen1 przy użyciu odpowiedniego mechanizmu. Dane z usługi Azure Storage można skopiować do Data Lake Storage Gen1 przy użyciu: Możesz użyć narzędzi typu open source. Wieloetapowy proces obejmujący wiele technologii

Naprawdę duże zestawy danych

W przypadku przekazywania zestawów danych, które wahają się w kilku terabajtach, użycie opisanych powyżej metod może czasami być powolne i kosztowne. W takich przypadkach możesz użyć poniższych opcji.

  • Korzystanie z usługi Azure ExpressRoute. Usługa Azure ExpressRoute umożliwia tworzenie połączeń prywatnych między centrami danych platformy Azure i infrastrukturą lokalną. Zapewnia to niezawodną opcję przesyłania dużych ilości danych. Aby uzyskać więcej informacji, zobacz dokumentację usługi Azure ExpressRoute.

  • Przekazywanie danych w trybie offline. Jeśli korzystanie z usługi Azure ExpressRoute nie jest możliwe z jakiegokolwiek powodu, możesz użyć usługi Azure Import/Export , aby dostarczać dyski twarde z danymi do centrum danych platformy Azure. Dane są najpierw przekazywane do obiektów blob usługi Azure Storage. Następnie możesz użyć narzędzia Azure Data Factory lub narzędzia AdlCopy do kopiowania danych z obiektów blob usługi Azure Storage do Data Lake Storage Gen1.

    Uwaga

    Podczas korzystania z usługi Import/Export rozmiary plików na dyskach, które są dostarczane do centrum danych platformy Azure, nie powinny być większe niż 195 GB.

Przetwarzanie danych przechowywanych w Data Lake Storage Gen1

Po udostępnieniu danych w Data Lake Storage Gen1 możesz uruchomić analizę tych danych przy użyciu obsługiwanych aplikacji danych big data. Obecnie można używać usług Azure HDInsight i Azure Data Lake Analytics do uruchamiania zadań analizy danych na danych przechowywanych w Data Lake Storage Gen1.

Analizowanie danych w Data Lake Storage Gen1

Możesz zapoznać się z poniższymi przykładami.

Pobieranie danych z Data Lake Storage Gen1

Możesz również pobrać lub przenieść dane z Azure Data Lake Storage Gen1 w scenariuszach, takich jak:

  • Przenieś dane do innych repozytoriów do interfejsu z istniejącymi potokami przetwarzania danych. Możesz na przykład przenieść dane z Data Lake Storage Gen1 do bazy danych Azure SQL lub SQL Server.
  • Pobierz dane na komputer lokalny do przetwarzania w środowiskach IDE podczas tworzenia prototypów aplikacji.

Dane wychodzące z danych Data Lake Storage Gen1

W takich przypadkach można użyć dowolnej z następujących opcji:

Możesz również użyć następujących metod, aby napisać własny skrypt/aplikację, aby pobrać dane z Data Lake Storage Gen1.

Wizualizowanie danych w Data Lake Storage Gen1

Możesz użyć kombinacji usług, aby utworzyć wizualne reprezentacje danych przechowywanych w Data Lake Storage Gen1.

Wizualizowanie danych w Data Lake Storage Gen1