Sdílet prostřednictvím


Přehled Azure Data Lake Storage Gen2 ve službě HDInsight

Azure Data Lake Storage Gen2 přebírá základní funkce z Azure Data Lake Storage Gen1 a integruje je do azure Blob Storage. Mezi tyto funkce patří systém souborů, který je kompatibilní se seznamy řízení přístupu (ACL) systému Hadoop, Microsoft Entra ID a POSIX. Tato kombinace umožňuje využít výkon Azure Data Lake Storage Gen1. I když používáte správu vrstvení a životního cyklu dat úložiště objektů blob.

Další informace o službě Azure Data Lake Storage Gen2 najdete v tématu Seznámení se službou Azure Data Lake Storage Gen2.

Základní funkce Azure Data Lake Storage Gen2

  • Přístup, který je kompatibilní s Hadoopem: V Azure Data Lake Storage Gen2 můžete spravovat a přistupovat k datům stejně jako u systému souborů HDFS (Hadoop Distributed File System). Ovladač azure Blob File System (ABFS) je k dispozici ve všech prostředích Apache Hadoop, včetně Azure HDInsight a Azure Databricks. K přístupu k datům uloženým v Data Lake Storage Gen2 použijte ABFS.

  • Nadmnožina oprávnění POSIX: Model zabezpečení pro Data Lake Gen2 podporuje oprávnění ACL a POSIX spolu s některými podrobnostmi specifickými pro Data Lake Storage Gen2. Nastavení je možné nakonfigurovat prostřednictvím nástrojů pro správu nebo architektur, jako jsou Apache Hive a Apache Spark.

  • Efektivita nákladů: Data Lake Storage Gen2 nabízí nízkonákladovou kapacitu úložiště a transakce. Životní cykly úložiště objektů blob v Azure pomáhají snížit náklady úpravou fakturačních sazeb při procházení dat v průběhu životního cyklu.

  • Kompatibilita s nástroji, architekturami a aplikacemi služby Blob Storage: Data Lake Storage Gen2 nadále pracuje s širokou škálou nástrojů, architektur a aplikací pro úložiště objektů blob.

  • Optimalizovaný ovladač: Ovladač ABFS je optimalizovaný speciálně pro analýzu velkých objemů dat. Odpovídající rozhraní REST API se zobrazují prostřednictvím koncového bodu distribuovaného systému souborů (DFS) dfs.core.windows.net.

Co je nového pro Azure Data Lake Storage Gen2

Spravované identity pro zabezpečený přístup k souborům

Azure HDInsight používá spravované identity k zabezpečení přístupu clusteru k souborům ve službě Azure Data Lake Storage Gen2. Spravované identity jsou funkcí ID Microsoft Entra, které poskytuje službám Azure sadu automaticky spravovaných přihlašovacích údajů. Tyto přihlašovací údaje se dají použít k ověření v jakékoli službě, která podporuje ověřování active directory. Použití spravovaných identit nevyžaduje, abyste přihlašovací údaje ukládaly do kódu nebo konfiguračních souborů.

Další informace najdete v tématu Spravované identity pro prostředky Azure.

Ovladač systému souborů Azure Blob

Aplikace Apache Hadoop nativně očekávají čtení a zápis dat z místního diskového úložiště. Ovladač systému souborů Hadoop, jako je ABFS, umožňuje aplikacím Hadoop pracovat s cloudovým úložištěm. Funguje emulací běžných operací systému souborů Hadoop. Ovladač převede tyto příkazy přijaté z aplikace na operace, kterým rozumí skutečná platforma cloudového úložiště.

Dříve ovladač systému souborů Hadoop převedl všechny operace systému souborů na volání rozhraní REST API služby Azure Storage na straně klienta. A pak vyvolal rozhraní REST API. Tento převod na straně klienta ale způsobil několik volání rozhraní REST API pro jednu operaci systému souborů, jako je přejmenování souboru. ABFS přesunul logiku systému souborů Hadoop ze strany klienta na stranu serveru. Rozhraní API Azure Data Lake Storage Gen2 se teď spouští paralelně s rozhraním BLOB API. Tato migrace zlepšuje výkon, protože teď je možné spouštět běžné operace systému souborů Hadoop pomocí jednoho volání rozhraní REST API.

Další informace najdete v tématu Ovladač systému souborů Azure Blob (ABFS): Vyhrazený ovladač služby Azure Storage pro Hadoop.

Schéma identifikátorů URI pro Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 používá nové schéma identifikátorů URI pro přístup k souborům ve službě Azure Storage ze služby HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

Schéma identifikátoru URI poskytuje přístup šifrovaný protokolem SSL.

<FILE_SYSTEM_NAME> identifikuje cestu systému souborů Data Lake Storage Gen2.

<ACCOUNT_NAME> určuje název účtu služby Azure Storage. Vyžaduje se plně kvalifikovaný název domény (FQDN).

<PATH> je název cesty k souboru nebo adresáři HDFS.

Pokud hodnoty pro <FILE_SYSTEM_NAME> a <ACCOUNT_NAME> nejsou zadané, použije se výchozí systém souborů. Pro soubory ve výchozím systému souborů použijte relativní cestu nebo absolutní cestu. Například soubor, který je součástí clusterů HDInsight, hadoop-mapreduce-examples.jar se dá odkazovat pomocí jedné z následujících cest:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

Poznámka:

Název souboru je hadoop-examples.jar v clusterech HDInsight verze 2.1 a 1.6. Při práci se soubory mimo HDInsight zjistíte, že většina nástrojů nerozpozná formát ABFS, ale místo toho očekává základní formát cesty, například example/jars/hadoop-mapreduce-examples.jar.

Další informace najdete v tématu Použití identifikátoru URI služby Azure Data Lake Storage Gen2.

Další kroky