Bekerja di ekosistem Apache Hadoop di HDInsight dari PC Windows
Pelajari tentang opsi pengembangan dan manajemen di PC Windows untuk bekerja di ekosistem Apache Hadoop di HDInsight.
HDInsight didasarkan pada komponen Apache Hadoop dan Hadoop, teknologi sumber terbuka yang dikembangkan di Linux. HDInsight versi 3.4 dan yang lebih tinggi menggunakan distribusi Linux Ubuntu sebagai OS yang mendasari untuk kluster. Namun, Anda dapat bekerja dengan HDInsight dari klien Windows atau lingkungan pengembangan Windows.
Menggunakan PowerShell untuk tugas penggunaan dan manajemen
Azure PowerShell adalah lingkungan pembuatan skrip yang dapat Anda gunakan untuk mengontrol dan mengotomatiskan tugas penyebaran dan manajemen di HDInsight dari Windows.
Contoh tugas yang bisa Anda lakukan dengan PowerShell:
- Buat kluster menggunakan PowerShell.
- Menjalankan kueri Apache Hive menggunakan PowerShell.
- Kelola kluster dengan PowerShell.
Ikuti langkah-langkah untuk memasang dan mengonfigurasi Microsoft Azure PowerShell untuk mendapatkan versi terbaru.
Utilitas yang dapat Anda jalankan di browser
Utilitas berikut memiliki UI web yang berjalan di browser:
Azure Cloud Shell adalah shell baris perintah interaktif yang berjalan di browser Anda dan dari dalam portal Microsoft Azure.
Apache Ambari Web UI adalah utilitas manajemen dan pemantauan yang tersedia di portal Microsoft Azure yang dapat digunakan untuk mengelola berbagai jenis pekerjaan, seperti:
Sebelum Anda masuk ke contoh berikut, pasang dan coba Data Lake Tool untuk Visual Studio.
Visual Studio dan .NET SDK
Anda dapat menggunakan Visual Studio dengan .NET SDK untuk mengelola kluster dan mengembangkan aplikasi big data. Anda bisa menggunakan ID lain untuk tugas berikut, tetapi contoh diperlihatkan di Visual Studio.
Contoh tugas yang bisa Anda lakukan dengan .NET SDK di Visual Studio:
- Azure HDInsight SDK untuk .NET.
- Menjalankan kueri Apache Hive menggunakan .NET SDK.
- Gunakan fungsi yang ditentukan pengguna C# dengan Apache Hive dan Apache Pig streaming pada Apache Hadoop.
Intellij IDEA dan Eclipse IDE untuk kluster Spark
Baik Intellij IDEA dan Eclipse IDE dapat digunakan untuk:
- Mengembangkan dan Mengirim aplikasi Scala Spark pada kluster HDInsight Spark.
- Akses sumber daya kluster Spark.
- Mengembangkan dan menjalankan aplikasi Scala Spark secara lokal.
Artikel-artikel ini menunjukkan cara:
- Intellij IDEA: Membuat aplikasi Apache Spark menggunakan Azure Toolkit untuk plug-in Intellij dan Scala SDK.
- Eclipse IDE atau Scala IDE untuk Eclipse: Buat aplikasi Apache Spark dan Azure Toolkit untuk Eclipse
Notebook di Spark untuk ilmuwan data
Kluster Apache Spark di HDInsight termasuk notebook Apache Zeppelin dan kernel yang dapat digunakan dengan Jupyter Notebooks.
- Pelajari cara menggunakan kernel pada kluster Apache Spark dengan Jupyter Notebook untuk menguji aplikasi Spark
- Pelajari cara menggunakan notebook Apache Zeppelin di kluster Apache Spark untuk menjalankan pekerjaan Spark
Menjalankan alat dan teknologi berbasis Linux di Windows
Jika Anda menemukan situasi di mana Anda harus menggunakan alat atau teknologi yang hanya tersedia di Linux, pertimbangkan opsi berikut:
- Bash on Ubuntu pada Windows 10 menyediakan subsistem Linux pada Windows. Bash memungkinkan Anda untuk secara langsung menjalankan utilitas Linux tanpa harus mempertahankan penginstalan Linux khusus. Lihat Panduan Penginstalan Subsistem Windows untuk Linux untuk Windows 10 sebagai langkah-langkah penginstalan. Shell Unix lainnya juga berfungsi.
- Docker untuk Windows menyediakan akses ke banyak alat berbasis Linux, dan dapat dijalankan langsung dari Windows. Misalnya, Anda dapat menggunakan Docker untuk menjalankan klien Beeline untuk Apache Hive langsung dari Windows. Anda juga dapat menggunakan Docker untuk menjalankan Jupyter Notebook lokal dan terhubung dari jarak jauh ke Spark di HDInsight. Mulai menggunakan Docker untuk Windows
- MobaXTerm memungkinkan Anda untuk secara grafis menelusuri sistem file kluster melalui koneksi SSH.
Alat lintas platform
Antarmuka baris perintah Azure (CLI) adalah pengalaman baris perintah lintas platform Microsoft untuk mengelola sumber daya Azure. Untuk informasi selengkapnya, lihat Azure Command-Line Interface (CLI).
Langkah berikutnya
Jika Anda baru bekerja di kluster berbasis Linux, lihat artikel berikut ini:
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk