聯結資料

本文描述如何使用 Azure Machine Learning 設計師中的聯結資料元件,利用資料庫形式的聯結作業來合併兩個資料集。

如何設定聯結資料

若要在兩個資料集上執行聯結,資料集必須以索引鍵資料行來形成相關。 也支援使用多個資料行的複合索引鍵。

  1. 新增您想要合併的資料集,然後將聯結資料元件拖曳至您的管線。

    您可以在位於 [操作] 下的 [資料轉換] 類別中找到此元件。

  2. 將資料集連接至聯結資料元件。

  3. 選取 [啟動資料行選取器] 以選擇索引鍵資料行。 請記得左側和右側的輸入皆須選擇資料行。

    針對單一金鑰:

    針對這兩個輸入選取單一索引鍵資料行。

    針對複合索引鍵:

    依相同順序,從左方輸入和右邊的輸入中選取所有索引鍵資料行。 當所有索引鍵資料行相符時,聯結資料元件會聯結資料表。 如果資料行順序與原始資料表不相同,請確認 [允許重複項目,並保留選取的資料行順序] 選項。

    資料行選取器

  4. 如果您想要在文字資料行聯結上保留大小寫區分,請選取 [符合大小寫] 選項。

  5. 您可以使用 [聯結類型] 下拉式清單來指定資料集的組合方式。

    • 內部聯結內部聯結 是最常見的聯結作業。 只有當索引鍵資料行的值符合時,它才會傳回合併的資料列。

    • 左方外部聯結左方外部聯結會從左側資料表中傳回所有資料列的聯結資料列。 當左資料表中的資料列沒有與右資料表中相符的資料列時,傳回的資料列會包含右資料表中所有資料行的遺漏值。 您也能指定遺漏值的取代值。

    • 完整外部聯結完全外部聯結會傳回左側資料表 (table1) 和右邊資料表 (table2) 中的所有資料列。

      針對兩個資料表中沒有相符資料列的各個資料列,其結果會納入包含遺漏值的一個資料列中。

    • 左方半聯結左方半聯結只有在索引鍵資料行的值相符時,才會傳回左側資料表中的值。

  6. 關於 [在聯結的資料表中保留右側索引鍵資料行] 選項:

    • 選取此選項可從這兩個輸入資料表中查看金鑰。
    • 取消選取以只傳回左側輸入中的索引鍵資料行。
  7. 提交管線。

  8. 若要檢視結果,請以滑鼠右鍵按一下 [聯結檔案],然後選取 [視覺化]。

後續步驟

請參閱 Azure Machine Learning 可用的元件集