從 Windows 電腦在 HDInsight 上的 Apache Hadoop 生態系統中作業

了解 Windows 電腦上的開發和管理選項,以便在 HDInsight 上的 Apache Hadoop 生態系統中作業。

HDInsight 是以 Apache Hadoop 和 Hadoop 元件為基礎,採用在 Linux 上開發的開放原始碼技術。 HDInsight 3.4 版及更新版本會使用 Ubuntu Linux 發行版本作為叢集的基礎作業系統。 不過,您可以從 Windows 用戶端或 Windows 開發環境使用 HDInsight。

使用 PowerShell 進行部署和管理工作

Azure PowerShell 是一種指令碼環境,可讓您從 Windows 在 HDInsight 中用來控制及自動執行部署和管理工作。

您可以使用 PowerShell 執行的工作範例︰

請遵循步驟來安裝和設定 Azure PowerShell 以取得最新的版本。

您可以在瀏覽器中執行的公用程式

下列公用程式具有可在瀏覽器中執行的 Web UI:

在您進行下列範例之前,請安裝並嘗試 Data Lake Tools for Visual Studio

Visual Studio 和 .NET SDK

您可以使用 Visual Studio 搭配 .NET SDK 來管理叢集和開發巨量資料應用程式。 您可以將其他 IDE 用於下列工作,但範例顯示在 Visual Studio 中。

您可以在 Visual Studio 中使用 .NET SDK 執行的工作範例︰

適用於 Spark 叢集的 Intellij IDEA 和 Eclipse IDE

Intellij IDEAEclipse IDE 都可以用來︰

  • 在 HDInsight Spark 叢集上開發並提交 Scala Spark 應用程式。
  • 存取 Spark 叢集資源。
  • 在本機開發並執行 Scala Spark 應用程式。

這些文章顯示如何︰

適用於資料科學家的 Spark Notebook

HDInsight 中的 Apache Spark 叢集包含可與 Jupyter Notebook 搭配使用的 Apache Zeppelin Notebook 和核心。

在 Windows 上執行以 Linux 為基礎的工具和技術

如果您遇到必須使用只適用於 Linux 之工具或技術的情況,請考慮下列選項:

  • 位於 Windows 10 之 Ubuntu 上的 Bash 在 Windows 上提供 Linux 子系統。 Bash 可讓您直接執行 Linux 公用程式,而不必維護專用的 Linux 安裝。 如需安裝步驟,請參閱 Windows 10 適用於 Linux 的 Windows 子系統的安裝指南。 其他 Unix 殼層也可正常運作。
  • Docker for Windows 可供存取許多以 Linux 為基礎的工具,並可以直接從 Windows 執行。 例如,您可以使用 Docker 直接從 Windows 執行 Hive 適用的 Beeline 用戶端。 您也可以使用 Docker 來執行本地 Jupyter Notebook,並從遠端連線到 HDInsight 上的 Spark。 開始使用 Docker for Windows
  • MobaXTerm 可讓您透過 SSH 連線,以圖形方式瀏覽叢集檔案系統。

跨平台工具

Azure 命令列介面 (CLI) 是用來管理 Azure 資源的 Microsoft 跨平台命令列體驗。 如需詳細資訊,請參閱 Azure 命令列介面 (CLI)

下一步

如果您不熟悉使用以 Linux 為基礎的叢集,請參閱下列文章: