Omówienie usługi Azure Data Lake Storage Gen2 w usłudze HDInsight

Usługa Azure Data Lake Storage Gen2 pobiera podstawowe funkcje z usługi Azure Data Lake Storage Gen1 i integruje je z usługą Azure Blob Storage. Te funkcje obejmują system plików zgodny z usługami Hadoop, Microsoft Entra ID i POSIX opartymi na listach kontroli dostępu (ACL). Ta kombinacja umożliwia korzystanie z wydajności usługi Azure Data Lake Storage Gen1. Podczas korzystania z obsługi warstw i zarządzania cyklem życia danych w usłudze Blob Storage.

Aby uzyskać więcej informacji na temat usługi Azure Data Lake Storage Gen2, zobacz Wprowadzenie do usługi Azure Data Lake Storage Gen2.

Podstawowe funkcje usługi Azure Data Lake Storage Gen2

  • Dostęp zgodny z usługą Hadoop: w usłudze Azure Data Lake Storage Gen2 można zarządzać danymi i uzyskiwać do ich dostępu tak samo jak w przypadku rozproszonego systemu plików Hadoop (HDFS). Sterownik systemu plików obiektów blob platformy Azure (ABFS) jest dostępny we wszystkich środowiskach apache Hadoop, w tym w usługach Azure HDInsight i Azure Databricks. Użyj systemu ABFS, aby uzyskać dostęp do danych przechowywanych w usłudze Data Lake Storage Gen2.

  • Nadzbiór uprawnień POSIX: model zabezpieczeń dla usługi Data Lake Gen2 obsługuje uprawnienia listy ACL i POSIX wraz z dodatkowym stopniem szczegółowości specyficznym dla usługi Data Lake Storage Gen2. Ustawienia można skonfigurować za pomocą narzędzi administracyjnych lub struktur, takich jak Apache Hive i Apache Spark.

  • Opłacalność: usługa Data Lake Storage Gen2 oferuje tanią pojemność magazynu i transakcje. Cykle życia usługi Azure Blob Storage pomagają obniżyć koszty dzięki dostosowaniu stawek rozliczeniowych w miarę przechodzenia danych przez cykl życia.

  • Zgodność z narzędziami, strukturami i aplikacjami usługi Blob Storage: Usługa Data Lake Storage Gen2 nadal współpracuje z szeroką gamą narzędzi, struktur i aplikacji dla usługi Blob Storage.

  • Zoptymalizowany sterownik: sterownik ABFS jest zoptymalizowany specjalnie pod kątem analizy danych big data. Odpowiednie interfejsy API REST są udostępniane za pośrednictwem punktu końcowego rozproszonego systemu plików (DFS), dfs.core.windows.net.

Co nowego w usłudze Azure Data Lake Storage Gen 2

Tożsamości zarządzane na potrzeby bezpiecznego dostępu do plików

Usługa Azure HDInsight używa tożsamości zarządzanych do zabezpieczania dostępu klastra do plików w usłudze Azure Data Lake Storage Gen2. Tożsamości zarządzane to funkcja identyfikatora Entra firmy Microsoft, która udostępnia usługom platformy Azure zestaw automatycznie zarządzanych poświadczeń. Te poświadczenia mogą służyć do uwierzytelniania w dowolnej usłudze obsługującej uwierzytelnianie usługi Active Directory. Korzystanie z tożsamości zarządzanych nie wymaga przechowywania poświadczeń w kodzie ani plikach konfiguracji.

Aby uzyskać więcej informacji, zobacz Tożsamości zarządzane dla zasobów platformy Azure.

Sterownik systemu plików obiektów blob platformy Azure

Aplikacje Apache Hadoop natywnie oczekują odczytu i zapisu danych z magazynu na dysku lokalnym. Sterownik systemu plików Hadoop, taki jak ABFS, umożliwia aplikacjom Hadoop pracę z magazynem w chmurze. Działa przez emulowanie zwykłych operacji systemu plików Hadoop. Sterownik konwertuje te polecenia odebrane z aplikacji na operacje, które rozumie rzeczywista platforma magazynu w chmurze.

Wcześniej sterownik systemu plików Hadoop przekonwertował wszystkie operacje systemu plików na wywołania interfejsu API REST usługi Azure Storage po stronie klienta. Następnie wywołano interfejs API REST. Ta konwersja po stronie klienta spowodowała jednak wiele wywołań interfejsu API REST dla pojedynczej operacji systemu plików, takiej jak zmiana nazwy pliku. System plików ABFS przeniósł logikę systemu plików Hadoop ze strony klienta do strony serwera. Interfejs API usługi Azure Data Lake Storage Gen2 działa teraz równolegle z interfejsem API obiektów blob. Ta migracja zwiększa wydajność, ponieważ teraz typowe operacje systemu plików Hadoop można wykonać za pomocą jednego wywołania interfejsu API REST.

Aby uzyskać więcej informacji, zobacz Sterownik systemu plików obiektów blob platformy Azure (ABFS): dedykowany sterownik usługi Azure Storage dla usługi Hadoop.

Schemat identyfikatora URI dla usługi Azure Data Lake Storage Gen 2

Usługa Azure Data Lake Storage Gen2 używa nowego schematu identyfikatora URI do uzyskiwania dostępu do plików w usłudze Azure Storage z usługi HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

Schemat identyfikatora URI zapewnia dostęp szyfrowany za pomocą protokołu SSL.

<FILE_SYSTEM_NAME> identyfikuje ścieżkę systemu plików Data Lake Storage Gen2.

<ACCOUNT_NAME> identyfikuje nazwę konta usługi Azure Storage. Wymagana jest w pełni kwalifikowana nazwa domeny (FQDN).

<PATH> to nazwa ścieżki pliku lub katalogu HDFS.

Jeśli wartości i <FILE_SYSTEM_NAME><ACCOUNT_NAME> nie są określone, zostanie użyty domyślny system plików. W przypadku plików w domyślnym systemie plików użyj ścieżki względnej lub ścieżki bezwzględnej. Na przykład hadoop-mapreduce-examples.jar plik dostarczany z klastrami usługi HDInsight można odwoływać się przy użyciu jednej z następujących ścieżek:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

Uwaga

Nazwa pliku znajduje się hadoop-examples.jar w klastrach usługi HDInsight w wersji 2.1 i 1.6. Podczas pracy z plikami spoza usługi HDInsight okaże się, że większość narzędzi nie rozpoznaje formatu ABFS, ale zamiast tego oczekuje podstawowego formatu ścieżki, takiego jak example/jars/hadoop-mapreduce-examples.jar.

Aby uzyskać więcej informacji, zobacz Use the Azure Data Lake Storage Gen2 URI (Używanie identyfikatora URI usługi Azure Data Lake Storage Gen2).

Następne kroki