Aracılığıyla paylaş


HDInsight'ta Apache Hadoop işleri için verileri karşıya yükleme

HDInsight, Azure Depolama ve Azure Data Lake Storage üzerinden Hadoop dağıtılmış dosya sistemi (HDFS) sağlar. Bu depolama 2. Nesil'i içerir. Azure Depolama ve Data Lake Storage 2. Nesil HDFS uzantıları olarak tasarlanmıştır. Hadoop ortamındaki bileşenlerin tam kümesinin doğrudan yönettiği veriler üzerinde çalışmasını sağlar. Azure Depolama, Data Lake Storage 2. Nesil ayrı dosya sistemleridir. Sistemler, söz konusu veriler üzerinde verilerin ve hesaplamaların depolanması için iyileştirilmiştir. Azure Depolama kullanmanın avantajları hakkında bilgi için bkz . HDInsight ile Azure Depolama'yı kullanma. Ayrıca bkz. HDInsight ile Data Lake Storage 2. Nesil kullanma.

Önkoşullar

Başlamadan önce aşağıdaki gereksinimleri not edin:

Azure Depolama'ya veri yükleme

Yardımcı Programlar

Microsoft, Azure Depolama ile çalışmak için aşağıdaki yardımcı programları sağlar:

Araç Linux OS X Windows
Azure portalı
Azure CLI
Azure PowerShell
AzCopy
Hadoop komutu

Not

Hadoop komutu yalnızca HDInsight kümesinde kullanılabilir. komutu yalnızca yerel dosya sisteminden Azure Depolama'ya veri yüklenmesine izin verir.

Hadoop komut satırı

Hadoop komut satırı yalnızca veriler küme baş düğümünde zaten mevcut olduğunda Verileri Azure depolama blobuna depolamak için kullanışlıdır.

Hadoop komutunu kullanmak için önce SSH veya PuTTY kullanarak baş düğüme bağlanmanız gerekir.

Bağlandıktan sonra, bir dosyayı depolama alanına yüklemek için aşağıdaki söz dizimini kullanabilirsiniz.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

Örneğin hadoop fs -copyFromLocal data.txt /example/data/data.txt

HDInsight için varsayılan dosya sistemi Azure Depolama'da olduğundan, /example/data/data.txt aslında Azure Depolama'dadır. Dosyaya şu şekilde de başvurabilirsiniz:

wasbs:///example/data/data.txt

Or

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

Dosyalarla çalışan diğer Hadoop komutlarının listesi için bkz. https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Uyarı

Apache HBase kümelerinde, veri yazarken kullanılan varsayılan blok boyutu 256 KB'tır. HBase API'leri veya REST API'leri kullanılırken bu düzgün çalışsa da, yaklaşık 12 GB'tan büyük verileri yazmak için veya hdfs dfs komutlarının kullanılması hadoop hataya neden olur. Daha fazla bilgi için bkz . Bloba yazma için depolama özel durumu.

Grafik istemciler

Azure Depolama ile çalışmak için grafik arabirim sağlayan çeşitli uygulamalar da vardır. Aşağıdaki tablo, bu uygulamalardan birkaçının listesidir:

İstemci Linux OS X Windows
HDInsight için Microsoft Visual Studio Araçları
Azure Depolama Gezgini
Cerulea
CloudXplorer
Microsoft Azure için CloudBerry Gezgini
Cyberduck

Azure Depolama'yı Yerel Sürücü Olarak Bağlama

Bkz. Azure Depolama'yı Yerel Sürücü Olarak Bağlama.

Hizmetleri kullanarak karşıya yükleme

Azure Data Factory

Azure Data Factory hizmeti, veri oluşturmak için tam olarak yönetilen bir hizmettir: depolama, işleme ve taşıma hizmetlerini kolaylaştırılmış, uyarlanabilir ve güvenilir veri üretim işlem hatlarına taşıma.

Depolama türü Belgeler
Azure Blob Depolama Azure Data Factory kullanarak Azure Blob depolama alanına veya oradan veri kopyalama
(.. /data-factory/connector-azure-data-lake-store.md)
Azure Data Lake Storage 2. Nesil Azure Data Factory ile Azure Data Lake Storage 2. Nesil veri yükleme

Apache Sqoop

Sqoop, Hadoop ve ilişkisel veritabanları arasında veri aktarmak için tasarlanmış bir araçtır. SQL Server, MySQL veya Oracle gibi bir ilişkisel veritabanı yönetim sisteminden (RDBMS) verileri içeri aktarmak için bunu kullanın. Ardından Hadoop dağıtılmış dosya sistemine (HDFS) gidin. MapReduce veya Hive ile Hadoop'taki verileri dönüştürün ve ardından verileri bir RDBMS'ye geri aktarın.

Daha fazla bilgi için bkz . HDInsight ile Sqoop kullanma.

Geliştirme SDK'ları

Azure Depolama'ya aşağıdaki programlama dillerinden bir Azure SDK'sı kullanılarak da erişilebilir:

  • .NET
  • Java
  • Node.js
  • PHP
  • Python
  • Ruby

Azure SDK'larını yükleme hakkında daha fazla bilgi için bkz. Azure indirmeleri

Sonraki adımlar

HDInsight'a veri almayı anladığınıza göre analizi öğrenmek için aşağıdaki makaleleri okuyun: