Aracılığıyla paylaş


HDInsight'ta Azure Data Lake Storage 2. Nesil genel bakış

Azure Data Lake Storage 2. Nesil, Azure Data Lake Storage 1. Nesil temel özelliklerini alır ve bunları Azure Blob depolama ile tümleştirir. Bu özellikler Hadoop, Microsoft Entra Kimliği ve POSIX tabanlı erişim denetim listeleri (ACL' ler) ile uyumlu bir dosya sistemi içerir. Bu birleşim, Azure Data Lake Storage 1. Nesil performansından yararlanmanızı sağlar. Blob depolamanın katmanlama ve veri yaşam döngüsü yönetimini de kullanır.

Azure Data Lake Storage 2. Nesil hakkında daha fazla bilgi almak için bkz. Azure Data Lake Storage 2. Nesil’e giriş.

Azure Data Lake Storage 2. Nesil temel işlevselliği

  • Hadoop ile uyumlu erişim: Azure Data Lake Storage 2. Nesil'da, hadoop Dağıtılmış Dosya Sistemi (HDFS) ile yaptığınız gibi verileri yönetebilir ve bu verilere erişebilirsiniz. Azure Blob Dosya Sistemi (ABFS) sürücüsü, Azure HDInsight ve Azure Databricks dahil olmak üzere tüm Apache Hadoop ortamlarında kullanılabilir. Data Lake Storage 2. Nesil depolanan verilere erişmek için ABFS kullanın.

  • POSIX izinlerinin üst kümesi: Data Lake 2. Nesil güvenlik modeli, ACL ve POSIX izinlerinin yanı sıra Data Lake Storage 2. Nesil özgü bazı ek ayrıntı düzeyini destekler. Ayarlar, Yönetim araçları veya Apache Hive ve Apache Spark gibi çerçeveler aracılığıyla yapılandırılabilir.

  • Maliyet verimliliği: Data Lake Storage 2. Nesil düşük maliyetli depolama kapasitesi ve işlemler sunar. Azure Blob depolama yaşam döngüleri, veriler yaşam döngüsü boyunca ilerledikçe faturalama oranlarını ayarlayarak maliyetlerin düşmesine yardımcı olur.

  • Blob depolama araçları, çerçeveleri ve uygulamalarıyla uyumluluk: Data Lake Storage 2. Nesil, Blob depolama için çok çeşitli araçlar, çerçeveler ve uygulamalarla çalışmaya devam eder.

  • İyileştirilmiş sürücü: ABFS sürücüsü özellikle büyük veri analizi için iyileştirilmiştir. İlgili REST API'leri dağıtılmış dosya sistemi (DFS) uç noktası dfs.core.windows.net aracılığıyla ortaya çıkar.

Azure Data Lake Depolama 2. Nesil'e yönelik yenilikler

Güvenli dosya erişimi için yönetilen kimlikler

Azure HDInsight, Azure Data Lake Storage 2. Nesil dosyalara küme erişiminin güvenliğini sağlamak için yönetilen kimlikleri kullanır. Yönetilen kimlikler, Azure hizmetlerine otomatik olarak yönetilen kimlik bilgileri kümesi sağlayan bir Microsoft Entra Id özelliğidir. Bu kimlik bilgileri, Active Directory kimlik doğrulamasını destekleyen herhangi bir hizmette kimlik doğrulaması yapmak için kullanılabilir. Yönetilen kimlikleri kullanmak için kimlik bilgilerini kod veya yapılandırma dosyalarında depolamanız gerekmez.

Daha fazla bilgi için bkz . Azure kaynakları için yönetilen kimlikler.

Azure Blob Dosya Sistemi sürücüsü

Apache Hadoop uygulamaları yerel olarak yerel disk depolama alanından veri okumayı ve yazmayı bekler. ABFS gibi bir Hadoop dosya sistemi sürücüsü, Hadoop uygulamalarının bulut depolama ile çalışmasını sağlar. Normal Hadoop dosya sistemi işlemlerini öykünerek çalışır. Sürücü, uygulamadan alınan bu komutları gerçek bulut depolama platformunun anladığı işlemlere dönüştürür.

Daha önce Hadoop dosya sistemi sürücüsü tüm dosya sistemi işlemlerini istemci tarafında Azure Depolama REST API çağrılarına dönüştürmüştü. Ardından REST API'yi çağırın. Ancak bu istemci tarafı dönüştürme işlemi, bir dosyanın yeniden adlandırılması gibi tek bir dosya sistemi işlemi için birden çok REST API çağrısına neden oldu. ABFS, Hadoop dosya sistemi mantığını istemci tarafından sunucu tarafına taşıdı. Azure Data Lake Storage 2. Nesil API'si artık Blob API'siyle paralel olarak çalışır. Artık yaygın Hadoop dosya sistemi işlemleri tek bir REST API çağrısıyla yürütülebildiğinden bu geçiş performansı artırır.

Daha fazla bilgi için bkz. Azure Blob Dosya Sistemi sürücüsü (ABFS): Hadoop için ayrılmış bir Azure Depolama sürücüsü.

Azure Data Lake Depolama 2. Nesil için URI şeması

Azure Data Lake Storage 2. Nesil, HDInsight'tan Azure Depolama dosyalara erişmek için yeni bir URI düzeni kullanır:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

URI şeması SSL ile şifrelenmiş erişim sağlar.

<FILE_SYSTEM_NAME>dosya sistemi Data Lake Storage 2. Nesil yolunu tanımlar.

<ACCOUNT_NAME>Azure Depolama hesap adını tanımlar. Tam uygun etki alanı adı (FQDN) gereklidir.

<PATH> , dosya veya dizin HDFS yol adıdır.

ve <ACCOUNT_NAME> değerleri <FILE_SYSTEM_NAME> belirtilmezse, varsayılan dosya sistemi kullanılır. Varsayılan dosya sistemindeki dosyalar için göreli yol veya mutlak yol kullanın. Örneğin, hadoop-mapreduce-examples.jar HDInsight kümeleriyle birlikte gelen dosyaya aşağıdaki yollardan biri kullanılarak başvurulabilir:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

Dekont

Dosya adı hadoop-examples.jar HDInsight sürüm 2.1 ve 1.6 kümelerindedir. HDInsight dışındaki dosyalarla çalışırken çoğu yardımcı programların ABFS biçimini tanımadığını ancak bunun yerine gibi example/jars/hadoop-mapreduce-examples.jartemel bir yol biçimi beklediğini göreceksiniz.

Daha fazla bilgi için bkz. Azure Data Lake Storage 2. Nesil URI'sini kullanma.

Sonraki adımlar