什麼是 AKS 上的 HDInsight 中的 Apache Spark™? (預覽)

重要

此功能目前為預覽功能。 適用於 Microsoft Azure 預覽版的補充使用規定包含適用於 Beta 版、預覽版或尚未發行至正式運作之 Azure 功能的更合法條款。 如需此特定預覽的相關信息,請參閱 AKS 預覽資訊的 Azure HDInsight。 如需問題或功能建議,請在 AskHDInsight提交要求,並提供詳細數據,並遵循我們在 Azure HDInsight 社群取得更多更新。

Apache Spark™ 是一種平行處理架構,可支援記憶體內部處理,以提升巨量數據分析應用程式的效能。

Apache Spark™ 提供記憶體內部叢集運算的基本類型。 Spark 作業可將資料載入並快取到記憶體,以便重複查詢。 記憶體內部運算速度比磁碟型應用程式快,例如 Hadoop,其會透過 Hadoop 分散式檔案系統共用數據(HDFS)。 Apache Spark 可讓您與 Scala 和 Python 程式設計語言整合,讓您操作分散式數據集,例如本機集合。 您不需要將一切建構成對應和縮減作業。

顯示 AKS 上 HDInsight 中 Spark 概觀的圖表。

在 AKS 上使用 HDInsight 的 Apache Spark 叢集

Azure HDInsight 是供企業使用的受控、全方位的開放原始碼分析服務。

AKS 上的 Azure HDInsight 中的 Apache Spark™ 是 Microsoft Azure 中的受控 Spark 服務。 透過 AKS 上的 Azure HDInsight 中的 Apache Spark,您可以在 Azure 中儲存及處理所有數據。 HDInsight 中的 Spark 叢集與 或 Azure Data Lake 儲存體 Gen2 相容,可讓您在現有的數據存放區上套用 Spark 處理。

AKS 上的 HDInsight Apache Spark 架構可使用記憶體內部處理來快速數據分析和叢集運算。 Jupyter Notebook 可讓您與數據互動、將程式代碼與 Markdown 文字結合,以及執行簡單的視覺效果。

HDInsight 中的 AKS 上的 Apache Spark,由多個元件組成作為 Pod。

叢集控制器

叢集控制器負責安裝和管理個別服務。 在Spark叢集中安裝及管理各種控制器。

Apache Spark 服務元件

Zookeeper 服務: 三個節點 Zookeeper 叢集,可作為其他服務的分散式協調器或高可用性記憶體。

Yarn 服務: Hadoop Yarn 叢集,Spark 作業會在叢集中排程為 Yarn 應用程式。

用戶端介面: AKS 上的 HDInsight 中的 Apache Spark 叢集提供各種用戶端介面。 Livy Server、Jupyter Notebook、Spark 歷程記錄伺服器,為 AKS 使用者上的 HDInsight 提供 Spark 服務。

參考