HDInsight'ta Apache Hadoop işleri için verileri karşıya yükleme
HDInsight, Azure Depolama ve Azure Data Lake Storage üzerinden Hadoop dağıtılmış dosya sistemi (HDFS) sağlar. Bu depolama 2. Nesil'i içerir. Azure Depolama ve Data Lake Storage 2. Nesil HDFS uzantıları olarak tasarlanmıştır. Hadoop ortamındaki bileşenlerin tam kümesinin doğrudan yönettiği veriler üzerinde çalışmasını sağlar. Azure Depolama, Data Lake Storage 2. Nesil ayrı dosya sistemleridir. Sistemler, söz konusu veriler üzerinde verilerin ve hesaplamaların depolanması için iyileştirilmiştir. Azure Depolama kullanmanın avantajları hakkında bilgi için bkz . HDInsight ile Azure Depolama'yı kullanma. Ayrıca bkz. HDInsight ile Data Lake Storage 2. Nesil kullanma.
Önkoşullar
Başlamadan önce aşağıdaki gereksinimleri not edin:
- Bir Azure HDInsight kümesi. Yönergeler için bkz . Azure HDInsight'ı kullanmaya başlama.
- Aşağıdaki makaleler hakkında bilgi:
Azure Depolama'ya veri yükleme
Yardımcı Programlar
Microsoft, Azure Depolama ile çalışmak için aşağıdaki yardımcı programları sağlar:
Araç | Linux | OS X | Windows |
---|---|---|---|
Azure portalı | ✔ | ✔ | ✔ |
Azure CLI | ✔ | ✔ | ✔ |
Azure PowerShell | ✔ | ||
AzCopy | ✔ | ✔ | |
Hadoop komutu | ✔ | ✔ | ✔ |
Not
Hadoop komutu yalnızca HDInsight kümesinde kullanılabilir. komutu yalnızca yerel dosya sisteminden Azure Depolama'ya veri yüklenmesine izin verir.
Hadoop komut satırı
Hadoop komut satırı yalnızca veriler küme baş düğümünde zaten mevcut olduğunda Verileri Azure depolama blobuna depolamak için kullanışlıdır.
Hadoop komutunu kullanmak için önce SSH veya PuTTY kullanarak baş düğüme bağlanmanız gerekir.
Bağlandıktan sonra, bir dosyayı depolama alanına yüklemek için aşağıdaki söz dizimini kullanabilirsiniz.
hadoop fs -copyFromLocal <localFilePath> <storageFilePath>
Örneğin hadoop fs -copyFromLocal data.txt /example/data/data.txt
HDInsight için varsayılan dosya sistemi Azure Depolama'da olduğundan, /example/data/data.txt aslında Azure Depolama'dadır. Dosyaya şu şekilde de başvurabilirsiniz:
wasbs:///example/data/data.txt
Or
wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt
Dosyalarla çalışan diğer Hadoop komutlarının listesi için bkz. https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html
Uyarı
Apache HBase kümelerinde, veri yazarken kullanılan varsayılan blok boyutu 256 KB'tır. HBase API'leri veya REST API'leri kullanılırken bu düzgün çalışsa da, yaklaşık 12 GB'tan büyük verileri yazmak için veya hdfs dfs
komutlarının kullanılması hadoop
hataya neden olur. Daha fazla bilgi için bkz . Bloba yazma için depolama özel durumu.
Grafik istemciler
Azure Depolama ile çalışmak için grafik arabirim sağlayan çeşitli uygulamalar da vardır. Aşağıdaki tablo, bu uygulamalardan birkaçının listesidir:
İstemci | Linux | OS X | Windows |
---|---|---|---|
HDInsight için Microsoft Visual Studio Araçları | ✔ | ✔ | ✔ |
Azure Depolama Gezgini | ✔ | ✔ | ✔ |
Cerulea |
✔ | ||
CloudXplorer | ✔ | ||
Microsoft Azure için CloudBerry Gezgini | ✔ | ||
Cyberduck | ✔ | ✔ |
Azure Depolama'yı Yerel Sürücü Olarak Bağlama
Bkz. Azure Depolama'yı Yerel Sürücü Olarak Bağlama.
Hizmetleri kullanarak karşıya yükleme
Azure Data Factory
Azure Data Factory hizmeti, veri oluşturmak için tam olarak yönetilen bir hizmettir: depolama, işleme ve taşıma hizmetlerini kolaylaştırılmış, uyarlanabilir ve güvenilir veri üretim işlem hatlarına taşıma.
Depolama türü | Belgeler |
---|---|
Azure Blob Depolama | Azure Data Factory kullanarak Azure Blob depolama alanına veya oradan veri kopyalama |
(.. /data-factory/connector-azure-data-lake-store.md) | |
Azure Data Lake Storage 2. Nesil | Azure Data Factory ile Azure Data Lake Storage 2. Nesil veri yükleme |
Apache Sqoop
Sqoop, Hadoop ve ilişkisel veritabanları arasında veri aktarmak için tasarlanmış bir araçtır. SQL Server, MySQL veya Oracle gibi bir ilişkisel veritabanı yönetim sisteminden (RDBMS) verileri içeri aktarmak için bunu kullanın. Ardından Hadoop dağıtılmış dosya sistemine (HDFS) gidin. MapReduce veya Hive ile Hadoop'taki verileri dönüştürün ve ardından verileri bir RDBMS'ye geri aktarın.
Daha fazla bilgi için bkz . HDInsight ile Sqoop kullanma.
Geliştirme SDK'ları
Azure Depolama'ya aşağıdaki programlama dillerinden bir Azure SDK'sı kullanılarak da erişilebilir:
- .NET
- Java
- Node.js
- PHP
- Python
- Ruby
Azure SDK'larını yükleme hakkında daha fazla bilgi için bkz. Azure indirmeleri
Sonraki adımlar
HDInsight'a veri almayı anladığınıza göre analizi öğrenmek için aşağıdaki makaleleri okuyun: