Unggah data untuk pekerjaan Apache Hadoop di Microsoft Azure HDInsight

Microsoft Azure HDInsight menyediakan sistem file terdistribusi Hadoop (HDFS) melalui Azure Storage, dan Azure Data Lake Storage. Penyimpanan ini mencakup Gen1 dan Gen2. Azure Storage dan Data Lake Storage Gen1 dan Gen2 dirancang sebagai ekstensi HDFS. Mereka mengaktifkan set komponen lengkap di lingkungan Hadoop untuk mengoperasikan secara langsung pada data yang dikelolanya. Azure Storage, Data Lake Storage Gen1, dan Gen2 adalah sistem file yang berbeda. Sistem dioptimalkan untuk penyimpanan data dan komputasi pada data tersebut. Untuk informasi tentang keuntungan menggunakan Azure, Storage lihat Gunakan Azure Storage dengan Microsoft Azure HDInsight. Lihat juga, Gunakan Azure Data Lake Storage Gen1 dengan Microsoft Azure HDInsight, dan Gunakan Azure Data Lake Storage Gen2 dengan Microsoft Azure HDInsight.

Prasyarat

Perhatikan persyaratan berikut sebelum Anda mulai:

Unggah data ke Azure Storage

Utilitas

Microsoft menyediakan utilitas berikut untuk bekerja dengan Azure Storage:

Alat Linux OS X Windows
portal Microsoft Azure
Azure CLI
Azure PowerShell
AzCopy
perintah Hadoop

Catatan

Perintah Hadoop hanya tersedia pada kluster Microsoft Azure HDInsight. Perintah hanya memungkinkan memuat data dari sistem file lokal ke Azure Storage.

baris perintah Hadoop

Baris perintah Hadoop hanya berguna untuk menyimpan data ke dalam blob penyimpanan Azure ketika data sudah ada pada simpul kepala kluster.

Untuk menggunakan perintah Hadoop, Anda harus terlebih dahulu menyambungkan ke headnode menggunakan SSH atau PuTTY.

Setelah tersambung, Anda dapat menggunakan sintaks berikut untuk mengunggah file ke penyimpanan.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

Contohnya, hadoop fs -copyFromLocal data.txt /example/data/data.txt

Karena sistem file default untuk Microsoft Azure HDInsight ada di Azure Storage, /example/data/data.txt sebenarnya ada di Azure Storage. Anda juga dapat merujuk ke file sebagai:

wasbs:///example/data/data.txt

atau

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

Untuk daftar perintah Hadoop lain yang berfungsi dengan file, lihat https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Peringatan

Pada kluster Apache HBase, ukuran blok default yang digunakan saat menulis data adalah 256 KB. Meskipun ini berfungsi dengan baik saat menggunakan API HBase atau API REST, menggunakan perintah hadoop atau hdfs dfs untuk menulis data yang lebih besar dari ~12 GB menghasilkan kesalahan. Untuk informasi selengkapnya, lihat pengecualian penyimpanan untuk menulis di blob.

Klien grafis

Ada juga beberapa aplikasi yang menyediakan antarmuka grafis untuk bekerja dengan Azure Storage. Tabel berikut ini adalah daftar beberapa aplikasi ini:

Klien Linux OS X Windows
Alat Microsoft Visual Studio untuk Microsoft Azure HDInsight
Azure Storage Explorer
Cerulea
CloudXplorer
CloudBerry Explorer untuk Microsoft Azure
Cyberduck

Mount Azure Storage sebagai Drive Lokal

Lihat Mount Azure Storage sebagai Drive Lokal.

Unggah penggunaan layanan

Azure Data Factory

Layanan Azure Data Factory adalah layanan terkelola penuh untuk menyusun data: penyimpanan, pemrosesan, dan layanan pergerakan menjadi alur produksi data yang efisien, dapat beradaptasi, dan andal.

Jenis penyimpanan Dokumentasi
Azure Blob Storage Menyalin data ke atau dari penyimpanan Azure Blob dengan menggunakan Azure Data Factory
Azure Data Lake Storage Gen1 Salin data ke atau dari Azure Data Lake Storage Gen1 menggunakan Azure Data Factory
Azure Data Lake Storage Gen2 Muat data ke Azure Data Lake Storage Gen2 dengan Azure Data Factory

Apache Sqoop

Apache Sqoop adalah alat yang dirancang untuk mentransfer data antara Hadoop dan database hubungan. Gunakan untuk mengimpor data dari sistem manajemen database relasional (RDBMS), seperti SQL Server, MySQL, atau Oracle. Kemudian ke sistem file terdistribusi Hadoop (HDFS). Ubah data di Hadoop dengan MapReduce atau Apache Hive, lalu ekspor data kembali ke RDBMS.

Untuk informasi selengkapnya, lihat Gunakan Sqoop dengan Microsoft Azure HDInsight.

SDK Pengembangan

Azure Storage juga dapat diakses menggunakan Azure SDK dari bahasa pemrograman berikut:

  • .NET
  • Java
  • Node.js
  • PHP
  • Python
  • Ruby

Untuk informasi selengkapnya tentang pemasangan Azure SDK, lihat pengnduhan Azure

Langkah berikutnya

Sekarang Setelah Anda memahami cara mendapatkan data ke Microsoft Azure HDInsight, baca artikel berikut untuk mempelajari analisis: