Bagikan melalui


Menggunakan HDFS CLI dengan Data Lake Storage Gen2

Anda dapat mengakses dan mengelola data di akun penyimpanan Anda dengan menggunakan antarmuka baris perintah seperti yang Anda lakukan dengan Hadoop Distributed File System (HDFS). Artikel ini menyediakan beberapa contoh yang akan membantu Anda memulai.

HDInsight menyediakan akses ke kontainer terdistribusi yang secara lokal melekat pada simpul komputasi. Anda dapat mengakses kontainer ini dengan menggunakan shell yang berinteraksi langsung dengan HDFS dan sistem file lain yang didukung Hadoop.

Untuk informasi selengkapnya tentang HDFS CLI, lihat dokumentasi resmi dan Panduan Izin HDFS

Catatan

Jika menggunakan Azure Databricks alih-alih HDInsight, dan Anda ingin berinteraksi dengan data menggunakan antarmuka baris perintah, Anda dapat menggunakan Databricks CLI untuk berinteraksi dengan sistem file Databricks. Lihat Databricks CLI.

Gunakan HDFS CLI dengan kluster HDInsight Hadoop di Linux

Pertama, bangun akses jarak jauh ke layanan. Jika Anda memilih SSH, sampel kode PowerShell akan terlihat sebagai berikut:

#Connect to the cluster via SSH.
ssh sshuser@clustername-ssh.azurehdinsight.net
#Execute basic HDFS commands. Display the hierarchy.
hdfs dfs -ls /
#Create a sample directory.
hdfs dfs -mkdir /samplefolder

String koneksi dapat ditemukan di bagian "SSH + Cluster login" dari bilah kluster HDInsight di portal Azure. Kredensial SSH ditentukan pada saat pembuatan kluster.

Penting

Penagihan kluster HDInsight dimulai setelah kluster dibuat dan berhenti saat kluster dihapus. Penagihan dihitung pro-rata per menit, sehingga Anda harus selalu menghapus kluster jika tidak digunakan lagi. Untuk mempelajari cara menghapus kluster, lihat artikel kami tentang topik tersebut. Namun, data yang disimpan di akun penyimpanan dengan Data Lake Storage Gen2 diaktifkan tetap ada bahkan setelah kluster HDInsight dihapus.

Buat kontainer

hdfs dfs -D "fs.azure.createRemoteFileSystemDuringInitialization=true" -ls abfs://<container-name>@<storage-account-name>.dfs.core.windows.net/

  • Ganti placeholder <container-name> dengan nama yang ingin Anda berikan kepada kontainer Anda.

  • Ganti placeholder <storage-account-name> dengan nama akun penyimpanan.

Dapatkan daftar file atau direktori

hdfs dfs -ls <path>

Ganti placeholder <path> dengan URI folder kontainer atau kontainer.

Misalnya: hdfs dfs -ls abfs://my-file-system@mystorageaccount.dfs.core.windows.net/my-directory-name

Buat direktori

hdfs dfs -mkdir [-p] <path>

Ganti placeholder <path> dengan nama kontainer root atau folder di dalam kontainer Anda.

Misalnya: hdfs dfs -mkdir abfs://my-file-system@mystorageaccount.dfs.core.windows.net/

Hapus file atau direktori

hdfs dfs -rm <path>

Ganti placeholder <path> dengan URI file atau folder yang ingin Anda hapus.

Misalnya: hdfs dfs -rmdir abfs://my-file-system@mystorageaccount.dfs.core.windows.net/my-directory-name/my-file-name

Tampilkan Daftar Kontrol Akses (ACL) file dan direktori

hdfs dfs -getfacl [-R] <path>

Contoh:

hdfs dfs -getfacl -R /dir

Lihat getfacl

Atur ACL file dan direktori

hdfs dfs -setfacl [-R] [-b|-k -m|-x <acl_spec> <path>]|[--set <acl_spec> <path>]

Contoh:

hdfs dfs -setfacl -m user:hadoop:rw- /file

Lihat setfacl

Ubah pemilik file

hdfs dfs -chown [-R] <new_owner>:<users_group> <URI>

Lihat chown

Ubah asosiasi grup file

hdfs dfs -chgrp [-R] <group> <URI>

Lihat chgrp

Ubah izin file

hdfs dfs -chmod [-R] <mode> <URI>

Lihat chmod

Anda dapat melihat daftar lengkap perintah di Situs Web Panduan Shell Sistem File Apache Hadoop 2.4.1.

Langkah berikutnya