比較與 Azure HDInsight 叢集搭配使用的儲存體選項
建立 HDInsight 叢集時,您可選擇幾項不同的 Azure 儲存體服務:
本文提供了這些儲存體類型和其獨特功能的概觀。
儲存體類型和功能
下表摘要說明不同 HDInsight 版本支援的 Azure 儲存體服務:
儲存體服務 | 帳戶類型 | 命名空間類型 | 支援的服務 | 支援的效能層級 | 支援的存取層 | HDInsight 版本 | 叢集類型 |
---|---|---|---|---|---|---|---|
Azure Data Lake Storage Gen2 | 一般用途 V2 | 階層式 (檔案系統) | Blob | 標準 | 經常性存取層、非經常性存取層、封存 | 3.6+ | Spark 2.1 和 2.2 以外的所有項目 |
Azure 儲存體 | 一般用途 V2 | Object | Blob | 標準 | 經常性存取層、非經常性存取層、封存 | 3.6+ | 全部 |
Azure 儲存體 | 一般用途 V1 | Object | Blob | 標準 | N/A | 全部 | 全部 |
Azure 儲存體 | Blob 儲存體** | Object | 區塊 Blob | 標準 | 經常性存取層、非經常性存取層、封存 | 全部 | 全部 |
Azure Data Lake Storage Gen1 | N/A | 階層式 (檔案系統) | N/A | N/A | N/A | 僅限 3.6 | HBase 以外的所有項目 |
Azure 儲存體 | 區塊 Blob | Object | 區塊 Blob | Premium | N/A | 3.6+ | 僅限加速寫入的 HBase |
Azure Data Lake Storage Gen2 | 區塊 Blob | 階層式 (檔案系統) | 區塊 Blob | Premium | N/A | 3.6+ | 僅限加速寫入的 HBase |
**針對 HDInsight 叢集,只有次要儲存體帳戶的類型可為 BlobStorage,且分頁 Blob 不是支援的儲存體選項。
如需 Azure 儲存體帳戶類型的詳細資訊,請參閱 Azure 儲存體帳戶概觀
如需 Azure 儲存體存取層的詳細資訊,請參閱 Azure Blob 儲存體︰進階 (預覽)、經常性儲存層、非經常性儲存層和封存儲存層
您可使用主要儲存體 (及選用次要儲存體) 的服務組合來建立叢集。 下表摘要說明 HDInsight 目前支援的叢集儲存體設定:
HDInsight 版本 | 主要儲存體 | 次要儲存體 | 支援 |
---|---|---|---|
3.6 & 4.0 | 一般用途 V1、一般用途 V2 | 一般用途 V1、一般用途 V2、BlobStorage (區塊 Blob) | Yes |
3.6 & 4.0 | 一般用途 V1、一般用途 V2 | Data Lake Storage Gen2 | No |
3.6 & 4.0 | Data Lake Storage Gen2* | Data Lake Storage Gen2 | Yes |
3.6 & 4.0 | Data Lake Storage Gen2* | 一般用途 V1、一般用途 V2、BlobStorage (區塊 Blob) | Yes |
3.6 & 4.0 | Data Lake Storage Gen2 | Data Lake Storage Gen1 | No |
3.6 | Data Lake Storage Gen1 | Data Lake Storage Gen1 | Yes |
3.6 | Data Lake Storage Gen1 | 一般用途 V1、一般用途 V2、BlobStorage (區塊 Blob) | Yes |
3.6 | Data Lake Storage Gen1 | Data Lake Storage Gen2 | No |
4.0 | Data Lake Storage Gen1 | 任意 | No |
4.0 | 一般用途 V1、一般用途 V2 | Data Lake Storage Gen1 | No |
* = 可為一或多個 Data Lake Storage Gen2,只要皆設定使用相同的受控識別來存取叢集即可。
注意
Spark 2.1 或 2.2 叢集不支援 Data Lake Storage Gen2 主要儲存體。
資料複寫
Azure HDInsight 不會儲存客戶資料。 叢集的主要儲存方式是相關聯的儲存體帳戶。 您可將叢集連結至現有的儲存體帳戶,或在叢集建立流程期間建立新的儲存體帳戶。 若建立新的帳戶,則會建立為本地備援儲存體 (LRS) 帳戶,並滿足區域內的資料落地需求 (包含信任中心中所指定的需求)。
您可驗證 HDInsight 是否已正確設定為將資料儲存於單一區域,方法是確保與 HDInsight 相關聯的儲存體帳戶為 LRS,或信任中心所提及的另一個儲存體選項。
注意
不支援使用 Azure Data Lake Storage Gen2 功能升級執行中叢集的主要或次要儲存體帳戶。 若要將現有 HDInsight 叢集的儲存類型變更為 Data Lake Storage Gen2,您必須重新建立叢集,然後選取已啟用階層式命名空間的儲存體帳戶。