Udostępnij za pośrednictwem


Co to jest usługa Azure Data Lake Storage Gen1?

Uwaga

Usługa Azure Data Lake Storage Gen1 została wycofana. Zobacz ogłoszenie o wycofaniu tutaj. Zasoby usługi Data Lake Storage Gen1 nie są już dostępne.

Usługa Azure Data Lake Storage Gen1 to repozytorium w całej skali przedsiębiorstwa dla obciążeń analitycznych danych big data. Usługa Azure Data Lake umożliwia przechwytywanie danych dowolnego typu, o dowolnym rozmiarze i szybkości wprowadzania oraz przechowywanie ich w jednym miejscu na potrzeby analiz operacyjnych i poznawczych.

Dostęp do usługi Data Lake Storage Gen1 można uzyskać z usługi Hadoop (dostępnej w klastrze usługi HDInsight) przy użyciu interfejsów API REST zgodnych z systemem Plików WebHDFS. Jest ona przeznaczona do włączania analizy przechowywanych danych i jest dostrojona pod kątem wydajności scenariuszy analizy danych. Usługa Data Lake Storage Gen1 obejmuje wszystkie funkcje klasy korporacyjnej: zabezpieczenia, możliwości zarządzania, skalowalność, niezawodność i dostępność.

Azure Data Lake

Najważniejsze możliwości

Niektóre z kluczowych możliwości usługi Data Lake Storage Gen1 obejmują następujące elementy.

Stworzona dla platformy Hadoop

Data Lake Storage Gen1 to system plików Apache Hadoop, który jest zgodny z rozproszonym systemem plików Hadoop (HDFS) i współpracuje z ekosystemem usługi Hadoop. Istniejące aplikacje lub usługi HDInsight korzystające z interfejsu API WebHDFS można łatwo zintegrować z usługą Data Lake Storage Gen1. Usługa Data Lake Storage Gen1 udostępnia również interfejs REST zgodny z systemem plików WebHDFS dla aplikacji.

Dane przechowywane w usłudze Data Lake Storage Gen1 można łatwo analizować przy użyciu platform analitycznych Hadoop, takich jak MapReduce lub Hive. Klastry usługi Azure HDInsight można aprowizować i konfigurować w celu bezpośredniego uzyskiwania dostępu do danych przechowywanych w usłudze Data Lake Storage Gen1.

Nieograniczony magazyn, petabajtowe pliki

Usługa Data Lake Storage Gen1 zapewnia nieograniczony magazyn i może przechowywać różne dane na potrzeby analizy. Nie nakłada żadnych ograniczeń dotyczących rozmiarów kont, rozmiarów plików ani ilości danych, które mogą być przechowywane w usłudze Data Lake. Poszczególne pliki mogą być różne od kilobajtów do petabajtów o rozmiarze. Dane są przechowywane trwale przez tworzenie wielu kopii. Nie ma żadnego limitu czasu, dla którego dane mogą być przechowywane w usłudze Data Lake.

Wydajność dostosowana na potrzeby analizy danych big data

Usługa Data Lake Storage Gen1 została utworzona na potrzeby uruchamiania systemów analitycznych na dużą skalę, które wymagają ogromnej przepływności do wykonywania zapytań i analizowania dużych ilości danych. Usługa Data Lake rozmieszcza części pliku na wielu serwerach magazynu. Zwiększa to przepływność odczytu podczas odczytywania pliku równolegle w celu wykonywania analizy danych.

Gotowość do użycia w przedsiębiorstwie: wysoka dostępność i bezpieczeństwo

Usługa Data Lake Storage Gen1 zapewnia standardową dostępność i niezawodność w branży. Dane są przechowywane trwale dzięki wykonywaniu nadmiarowych kopii, aby zapewnić ochronę danych na wypadek nieoczekiwanych awarii.

Usługa Data Lake Storage Gen1 zapewnia również zabezpieczenia klasy korporacyjnej dla przechowywanych danych. Aby uzyskać więcej informacji, zobacz Zabezpieczanie danych w usłudze Azure Data Lake Storage Gen1.

Wszystkie dane

Usługa Data Lake Storage Gen1 może przechowywać dowolne dane w formacie natywnym bez konieczności wcześniejszych przekształceń. Usługa Data Lake Storage Gen1 nie wymaga zdefiniowania schematu przed załadowaniem danych, pozostawiając go do indywidualnej struktury analitycznej w celu zinterpretowania danych i zdefiniowania schematu w czasie analizy. Możliwość przechowywania plików o dowolnych rozmiarach i formatach umożliwia usłudze Data Lake Storage Gen1 obsługę danych ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych.

Kontenery usługi Data Lake Storage Gen1 dla danych to zasadniczo foldery i pliki. Dane są przechowywane przy użyciu zestawów SDK, witryny Azure Portal i programu Azure PowerShell. Jeśli umieścisz dane w magazynie przy użyciu tych interfejsów i użyjesz odpowiednich kontenerów, możesz przechowywać dowolne typy danych. Usługa Data Lake Storage Gen1 nie wykonuje żadnej specjalnej obsługi danych na podstawie typu przechowywanych danych.

Zabezpieczanie danych

Usługa Data Lake Storage Gen1 używa identyfikatora Entra firmy Microsoft do uwierzytelniania i list kontroli dostępu (ACL) do zarządzania dostępem do danych.

Funkcja opis
Uwierzytelnianie Usługa Data Lake Storage Gen1 integruje się z usługą Microsoft Entra ID na potrzeby zarządzania tożsamościami i dostępem dla wszystkich danych przechowywanych w usłudze Data Lake Storage Gen1. Ze względu na integrację usługa Data Lake Storage Gen1 korzysta ze wszystkich funkcji firmy Microsoft Entra, takich jak uwierzytelnianie wieloskładnikowe, dostęp warunkowy, kontrola dostępu oparta na rolach platformy Azure, monitorowanie użycia aplikacji, monitorowanie zabezpieczeń i alerty itd. Usługa Data Lake Storage Gen1 obsługuje protokół OAuth 2.0 na potrzeby uwierzytelniania w interfejsie REST. Zobacz Uwierzytelnianie usługi Data Lake Storage Gen1.
Kontrola dostępu Usługa Data Lake Storage Gen1 zapewnia kontrolę dostępu, obsługując uprawnienia w stylu POSIX uwidocznione przez protokół WebHDFS. Listy ACL można włączyć w folderze głównym, w podfolderach i w poszczególnych plikach. Aby uzyskać więcej informacji na temat sposobu działania list ACL w kontekście usługi Data Lake Storage Gen1, zobacz Kontrola dostępu w usłudze Data Lake Storage Gen1.
Szyfrowanie Usługa Data Lake Storage Gen1 zapewnia również szyfrowanie danych przechowywanych na koncie. Podczas tworzenia konta usługi Data Lake Storage Gen1 należy określić ustawienia szyfrowania. Możesz wybrać szyfrowanie danych lub wybrać opcję braku szyfrowania. Aby uzyskać więcej informacji, zobacz Szyfrowanie w usłudze Data Lake Storage Gen1. Aby uzyskać instrukcje dotyczące zapewniania konfiguracji związanej z szyfrowaniem, zobacz Rozpoczynanie pracy z usługą Data Lake Storage Gen1 przy użyciu witryny Azure Portal.

Aby uzyskać instrukcje dotyczące zabezpieczania danych w usłudze Data Lake Storage Gen1, zobacz Zabezpieczanie danych w usłudze Azure Data Lake Storage Gen1.

Zgodność aplikacji

Usługa Data Lake Storage Gen1 jest zgodna z większością składników typu open source w ekosystemie usługi Hadoop. Integruje się również dobrze z innymi usługami platformy Azure. Aby dowiedzieć się więcej o tym, jak można używać usługi Data Lake Storage Gen1 ze składnikami typu open source i innymi usługami platformy Azure, skorzystaj z następujących linków:

System plików usługi Data Lake Storage Gen1

Dostęp do usługi Data Lake Storage Gen1 można uzyskać za pośrednictwem systemu plików AzureDataLakeFilesystem (adl://) w środowiskach Hadoop (dostępnych w klastrze usługi HDInsight). Aplikacje i usługi korzystające z adl:// mogą korzystać z dalszych optymalizacji wydajności, które nie są obecnie dostępne w systemie plików WebHDFS. W związku z tym usługa Data Lake Storage Gen1 zapewnia elastyczność korzystania z najlepszej wydajności z zalecaną opcją używania adl:// lub utrzymania istniejącego kodu, kontynuując bezpośrednie korzystanie z interfejsu API WebHDFS. Usługa Azure HDInsight w pełni korzysta z systemu AzureDataLakeFilesystem, aby zapewnić najlepszą wydajność usługi Data Lake Storage Gen1.

Dostęp do danych można uzyskać w usłudze Data Lake Storage Gen1 przy użyciu polecenia adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Aby uzyskać więcej informacji na temat uzyskiwania dostępu do danych w usłudze Data Lake Storage Gen1, zobacz Wyświetlanie właściwości przechowywanych danych.

Następne kroki