Menggunakan HDFS CLI dengan Data Lake Storage Gen2
Anda dapat mengakses dan mengelola data di akun penyimpanan Anda dengan menggunakan antarmuka baris perintah seperti yang Anda lakukan dengan Hadoop Distributed File System (HDFS). Artikel ini menyediakan beberapa contoh yang akan membantu Anda memulai.
HDInsight menyediakan akses ke kontainer terdistribusi yang secara lokal melekat pada simpul komputasi. Anda dapat mengakses kontainer ini dengan menggunakan shell yang berinteraksi langsung dengan HDFS dan sistem file lain yang didukung Hadoop.
Untuk informasi selengkapnya tentang HDFS CLI, lihat dokumentasi resmi dan Panduan Izin HDFS
Catatan
Jika menggunakan Azure Databricks alih-alih HDInsight, dan Anda ingin berinteraksi dengan data menggunakan antarmuka baris perintah, Anda dapat menggunakan Databricks CLI untuk berinteraksi dengan sistem file Databricks. Lihat Databricks CLI.
Gunakan HDFS CLI dengan kluster HDInsight Hadoop di Linux
Pertama, bangun akses jarak jauh ke layanan. Jika Anda memilih SSH, sampel kode PowerShell akan terlihat sebagai berikut:
#Connect to the cluster via SSH.
ssh sshuser@clustername-ssh.azurehdinsight.net
#Execute basic HDFS commands. Display the hierarchy.
hdfs dfs -ls /
#Create a sample directory.
hdfs dfs -mkdir /samplefolder
String koneksi dapat ditemukan di bagian "SSH + Cluster login" dari bilah kluster HDInsight di portal Azure. Kredensial SSH ditentukan pada saat pembuatan kluster.
Penting
Penagihan kluster HDInsight dimulai setelah kluster dibuat dan berhenti saat kluster dihapus. Penagihan dihitung pro-rata per menit, sehingga Anda harus selalu menghapus kluster jika tidak digunakan lagi. Untuk mempelajari cara menghapus kluster, lihat artikel kami tentang topik tersebut. Namun, data yang disimpan di akun penyimpanan dengan Data Lake Storage Gen2 diaktifkan tetap ada bahkan setelah kluster HDInsight dihapus.
Buat kontainer
hdfs dfs -D "fs.azure.createRemoteFileSystemDuringInitialization=true" -ls abfs://<container-name>@<storage-account-name>.dfs.core.windows.net/
Ganti placeholder
<container-name>
dengan nama yang ingin Anda berikan kepada kontainer Anda.Ganti placeholder
<storage-account-name>
dengan nama akun penyimpanan.
Dapatkan daftar file atau direktori
hdfs dfs -ls <path>
Ganti placeholder <path>
dengan URI folder kontainer atau kontainer.
Misalnya: hdfs dfs -ls abfs://my-file-system@mystorageaccount.dfs.core.windows.net/my-directory-name
Buat direktori
hdfs dfs -mkdir [-p] <path>
Ganti placeholder <path>
dengan nama kontainer root atau folder di dalam kontainer Anda.
Misalnya: hdfs dfs -mkdir abfs://my-file-system@mystorageaccount.dfs.core.windows.net/
Hapus file atau direktori
hdfs dfs -rm <path>
Ganti placeholder <path>
dengan URI file atau folder yang ingin Anda hapus.
Misalnya: hdfs dfs -rmdir abfs://my-file-system@mystorageaccount.dfs.core.windows.net/my-directory-name/my-file-name
Tampilkan Daftar Kontrol Akses (ACL) file dan direktori
hdfs dfs -getfacl [-R] <path>
Contoh:
hdfs dfs -getfacl -R /dir
Lihat getfacl
Atur ACL file dan direktori
hdfs dfs -setfacl [-R] [-b|-k -m|-x <acl_spec> <path>]|[--set <acl_spec> <path>]
Contoh:
hdfs dfs -setfacl -m user:hadoop:rw- /file
Lihat setfacl
Ubah pemilik file
hdfs dfs -chown [-R] <new_owner>:<users_group> <URI>
Lihat chown
Ubah asosiasi grup file
hdfs dfs -chgrp [-R] <group> <URI>
Lihat chgrp
Ubah izin file
hdfs dfs -chmod [-R] <mode> <URI>
Lihat chmod
Anda dapat melihat daftar lengkap perintah di Situs Web Panduan Shell Sistem File Apache Hadoop 2.4.1.