Co to jest usługa Azure Data Lake Storage Gen1?

Uwaga

Azure Data Lake Storage Gen1 została wycofana. Zobacz ogłoszenie o wycofaniu tutaj. Data Lake Storage Gen1 zasoby nie są już dostępne. Jeśli potrzebujesz specjalnej pomocy, skontaktuj się z nami.

Azure Data Lake Storage Gen1 to repozytorium hiperskalowe dla całego przedsiębiorstwa dla obciążeń analitycznych danych big data. Usługa Azure Data Lake umożliwia przechwytywanie danych dowolnego typu, o dowolnym rozmiarze i szybkości wprowadzania oraz przechowywanie ich w jednym miejscu na potrzeby analiz operacyjnych i poznawczych.

Data Lake Storage Gen1 można uzyskać dostęp z usługi Hadoop (dostępnej w klastrze usługi HDInsight) przy użyciu interfejsów API REST zgodnych z systemem plików WebHDFS. Jest ona przeznaczona do włączania analizy przechowywanych danych i jest dostrojona pod kątem wydajności scenariuszy analizy danych. Data Lake Storage Gen1 obejmuje wszystkie funkcje klasy korporacyjnej: zabezpieczenia, możliwości zarządzania, skalowalność, niezawodność i dostępność.

Azure Data Lake

Najważniejsze możliwości

Niektóre z kluczowych możliwości Data Lake Storage Gen1 obejmują następujące elementy.

Stworzona dla platformy Hadoop

Data Lake Storage Gen1 to system plików Apache Hadoop zgodny z rozproszonym systemem plików Hadoop (HDFS) i współdziała z ekosystemem usługi Hadoop. Istniejące aplikacje lub usługi HDInsight korzystające z interfejsu API WebHDFS można łatwo zintegrować z Data Lake Storage Gen1. Data Lake Storage Gen1 uwidacznia również interfejs REST zgodny z systemem plików WebHDFS dla aplikacji.

Możesz łatwo analizować dane przechowywane w Data Lake Storage Gen1 przy użyciu struktur analitycznych hadoop, takich jak MapReduce lub Hive. Możesz aprowizować klastry usługi Azure HDInsight i skonfigurować je tak, aby uzyskiwały bezpośredni dostęp do danych przechowywanych w Data Lake Storage Gen1.

Nieograniczony magazyn, petabajtowe pliki

Data Lake Storage Gen1 zapewnia nieograniczony magazyn i może przechowywać różne dane na potrzeby analizy. Nie nakłada żadnych limitów na rozmiary kont, rozmiary plików ani ilość danych, które mogą być przechowywane w usłudze Data Lake. Poszczególne pliki mogą mieć rozmiar od kilobajtów do petabajtów. Dane są przechowywane trwale przez tworzenie wielu kopii. Nie ma limitu czasu, dla którego dane mogą być przechowywane w usłudze Data Lake.

Wydajność dostosowana na potrzeby analizy danych big data

Data Lake Storage Gen1 jest tworzona na potrzeby uruchamiania systemów analitycznych na dużą skalę, które wymagają ogromnej przepływności do wykonywania zapytań i analizowania dużych ilości danych. Usługa Data Lake rozmieszcza części pliku na wielu serwerach magazynu. Zwiększa to przepływność odczytu podczas odczytywania pliku równolegle w celu wykonywania analizy danych.

Gotowość do użycia w przedsiębiorstwie: wysoka dostępność i bezpieczeństwo

Data Lake Storage Gen1 zapewnia standardową dostępność i niezawodność w branży. Dane są przechowywane trwale dzięki wykonywaniu nadmiarowych kopii, aby zapewnić ochronę danych na wypadek nieoczekiwanych awarii.

Data Lake Storage Gen1 zapewnia również zabezpieczenia klasy korporacyjnej dla przechowywanych danych. Aby uzyskać więcej informacji, zobacz Zabezpieczanie danych w usłudze Azure Data Lake Storage Gen1.

Wszystkie dane

Data Lake Storage Gen1 może przechowywać dowolne dane w formacie natywnym bez konieczności wcześniejszych przekształceń. Data Lake Storage Gen1 nie wymaga zdefiniowania schematu przed załadowaniem danych, pozostawiając je do indywidualnej struktury analitycznej w celu zinterpretowania danych i zdefiniowania schematu w czasie analizy. Możliwość przechowywania plików o dowolnych rozmiarach i formatach umożliwia Data Lake Storage Gen1 obsługę ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych danych.

Data Lake Storage Gen1 kontenery danych to zasadniczo foldery i pliki. Dane przechowywane są wykonywane przy użyciu zestawów SDK, Azure Portal i Azure PowerShell. Jeśli dane są umieszczane w magazynie przy użyciu tych interfejsów i przy użyciu odpowiednich kontenerów, możesz przechowywać dane dowolnego typu. Data Lake Storage Gen1 nie wykonuje żadnej specjalnej obsługi danych na podstawie typu przechowywanych danych.

Zabezpieczanie danych

Data Lake Storage Gen1 używa Tożsamość Microsoft Entra do uwierzytelniania i list kontroli dostępu (ACL) do zarządzania dostępem do danych.

Cecha Opis
Authentication Data Lake Storage Gen1 integruje się z Tożsamość Microsoft Entra na potrzeby zarządzania tożsamościami i dostępem dla wszystkich danych przechowywanych w Data Lake Storage Gen1. Ze względu na integrację Data Lake Storage Gen1 korzyści ze wszystkich funkcji Microsoft Entra, takich jak uwierzytelnianie wieloskładnikowe, dostęp warunkowy, kontrola dostępu oparta na rolach platformy Azure, monitorowanie użycia aplikacji, monitorowanie zabezpieczeń i alerty itd. Data Lake Storage Gen1 obsługuje protokół OAuth 2.0 na potrzeby uwierzytelniania w interfejsie REST. Zobacz Data Lake Storage Gen1 uwierzytelnianie.
Kontrola dostępu Data Lake Storage Gen1 zapewnia kontrolę dostępu dzięki obsłudze uprawnień w stylu POSIX uwidocznionych przez protokół WebHDFS. Listy ACL można włączyć w folderze głównym, w podfolderach i w poszczególnych plikach. Aby uzyskać więcej informacji na temat sposobu działania list kontroli dostępu w kontekście Data Lake Storage Gen1, zobacz Kontrola dostępu w Data Lake Storage Gen1.
Szyfrowanie Data Lake Storage Gen1 zapewnia również szyfrowanie danych przechowywanych na koncie. Podczas tworzenia konta Data Lake Storage Gen1 należy określić ustawienia szyfrowania. Możesz wybrać szyfrowanie danych lub wybrać opcję braku szyfrowania. Aby uzyskać więcej informacji, zobacz Szyfrowanie w Data Lake Storage Gen1. Aby uzyskać instrukcje dotyczące zapewniania konfiguracji związanej z szyfrowaniem, zobacz Wprowadzenie do Data Lake Storage Gen1 przy użyciu Azure Portal.

Aby uzyskać instrukcje dotyczące zabezpieczania danych w Data Lake Storage Gen1, zobacz Zabezpieczanie danych w usłudze Azure Data Lake Storage Gen1.

Zgodność aplikacji

Data Lake Storage Gen1 jest zgodna z większością składników typu open source w ekosystemie usługi Hadoop. Integruje się również dobrze z innymi usługami platformy Azure. Aby dowiedzieć się więcej na temat używania Data Lake Storage Gen1 ze składnikami open source i innymi usługami platformy Azure, skorzystaj z następujących linków:

system plików Data Lake Storage Gen1

Data Lake Storage Gen1 można uzyskać dostęp za pośrednictwem systemu plików AzureDataLakeFilesystem (adl://) w środowiskach Hadoop (dostępnych w klastrze usługi HDInsight). Aplikacje i usługi korzystające z adl:// mogą korzystać z dalszych optymalizacji wydajności, które nie są obecnie dostępne w systemie plików WebHDFS. W związku z tym Data Lake Storage Gen1 zapewnia elastyczność korzystania z najlepszej wydajności z zalecaną opcją używania adl:// lub utrzymania istniejącego kodu, kontynuując bezpośrednie korzystanie z interfejsu API WebHDFS. Usługa Azure HDInsight w pełni korzysta z systemu AzureDataLakeFilesystem, aby zapewnić najlepszą wydajność Data Lake Storage Gen1.

Dostęp do danych można uzyskać w Data Lake Storage Gen1 przy użyciu polecenia adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Aby uzyskać więcej informacji na temat uzyskiwania dostępu do danych w Data Lake Storage Gen1, zobacz Wyświetlanie właściwości przechowywanych danych.

Następne kroki