Azure Machine Learning 設計工具的範例管線和資料集
使用 Azure Machine Learning 設計工具中的內建範例,快速開始建置您自己的機器學習管線。 Azure Machine Learning 設計工具 GitHub 存放庫包含詳細的文件,可協助您了解一些常見的機器學習案例。
必要條件
- Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請建立免費帳戶
- Azure Machine Learning 工作區
重要
如果您看不到這份文件中提及的圖形元素,例如工作室或設計工具中的按鈕,可能是您沒有工作區的正確權限層級。 請洽詢您的 Azure 訂用帳戶管理員,以確認您已獲得授與正確的存取層級。 如需詳細資訊,請參閱管理使用者和角色。
使用範例管線
設計工具會將範例管線的複本儲存至您的工作室工作區。 您可以編輯管線以符合您的需求,並以您自己的方式加以儲存。 使用這些資訊開始進行專案。
以下是使用設計工具範例的方法:
登入 ml.azure.com,並選取您要使用的工作區。
選取 [設計工具]。
在 [新增管線] 區段下,選取範例管線。
如需完整的範例清單,請選取 [顯示更多範例]。
若要執行管線,您必須先設定要在其上執行管線的預設計算目標。
在畫布右側的 [設定] 窗格中,選取 [選取計算目標]。
在出現的對話方塊中,選取現有計算目標或建立新的計算目標。 選取 [儲存]。
選取畫布頂端的 [提交] 以提交管線作業。
視範例管線和計算設定而定,作業可能需要一些時間才能完成。 預設計算設定的最小節點大小為 0,這表示設計工具必須在閒置之後配置資源。 重複的管線作業花費較少的時間,因為已經配置計算資源。 此外,設計工具會針對每個元件使用快取的結果,以進一步提升效率。
在管線完成執行之後,您可以檢閱管線及檢視每個元件的輸出,以便深入了解。 請使用下列步驟來檢視元件輸出:
- 以滑鼠右鍵按一下要在畫布上看到輸出結果的元件。
- 選取 [視覺化]。
針對一些最常見的機器學習案例,使用範例作為起點。
迴歸
探索這些內建的迴歸範例。
範例標題 | 描述 |
---|---|
迴歸 - 汽車價格預測 (基本) | 使用線性回歸來預測汽車價格。 |
迴歸 - 汽車價格預測 (進階) | 使用決策樹系和推進式決策樹迴歸輸入變數來預測汽車價格。 比較這兩個模型找出最佳的演算法。 |
分類
探索這些內建的分類範例。 您可以在設計工具中開啟範例,並檢視元件註解,以深入了解範例。
範例標題 | 描述 |
---|---|
具有特徵選取的二元分類 - 收入預測 | 使用二元推進式決策樹來預測收入的高或低。 使用皮爾森相關來選取功能。 |
具有自訂 Python 指令碼的二元分類 - 信用風險預測 | 將信用應用程式分類為高或低風險。 使用 [執行 Python 指令碼] 元件來為資料加權。 |
二元分類 - 客戶關係預測 | 使用二元推進式決策樹來預測客戶流失。 使用 SMOTE 來取樣偏差資料。 |
文字分類 - 維基百科 SP 500 資料集 | 使用多元羅吉斯迴歸將維基百科文章的公司類型分類。 |
多元分類 - 字母辨識 | 建立完善的二元分類器將寫好的字母分類。 |
電腦視覺
探索這些內建的電腦視覺範例。 您可以在設計工具中開啟範例,並檢視元件註解,以深入了解範例。
範例標題 | 描述 |
---|---|
使用 DenseNet 進行影像分類 | 使用電腦視覺元件來建立以 PyTorch DenseNet 為基礎的影像分類模型。 |
推薦程式
探索這些內建的推薦程式範例。 您可以在設計工具中開啟範例,並檢視元件註解,以深入了解範例。
範例標題 | 描述 |
---|---|
以 Wide & Deep 為基礎的建議 - 餐廳評等預測 | 從餐廳/使用者特徵和評等建立餐廳推薦程式引擎。 |
建議 - 電影分級推文 | 根據電影/使用者特徵和評等建置電影推薦引擎。 |
Utility
深入了解示範機器學習公用程式和功能的範例。 您可以在設計工具中開啟範例,並檢視元件註解,以深入了解範例。
範例標題 | 描述 |
---|---|
使用 Vowpal Wabbit 模型的二元分類 - 成人收入預測 | Vowpal Wabbit 是一個機器學習系統,其會使用像是線上、雜湊,allreduce、簡化、learning2search、主動和互動式學習的技術,來擴展機器學習的應用。 此範例會示範如何使用 Vowpal Wabbit 模型來建立二元分類模型。 |
使用自訂 R 指令碼 - 航班延遲預測 | 使用自訂的 R 指令碼來預測排定的客機是否會誤點超過 15 分鐘。 |
二元分類的交叉驗證 - 成人收入預測 | 使用交叉驗證為成人收入建立二元分類器。 |
排列功能重要性 | 使用排列功能重要性來計算測試資料集的重要性分數。 |
二元分類的參數調整 - 成人收入預測 | 使用調整模型超參數來尋找最佳的超參數,以建置二元分類器。 |
資料集
在 Azure Machine Learning 設計工具中建立新的管線時,預設會包含一些範例資料集。 這些範例資料集是由設計工具首頁中的範例管線所使用。
範例資料集可在資料集-範例類別目錄下取得。 您可以在設計工具的畫布面板左側的元件選擇區中找到此項目。 您可以將資料集拖曳到您的畫布面板上,在自己的管線中使用任一資料集。
資料集名稱 | 資料集說明 |
---|---|
成人收入普查二進位分類資料集 | 1994 年普查資料的子集,使用年齡 16 歲以上的成年工作者,和 > 100 的調整收入指數。 使用方式:使用人口統計來將人口分類,以預測個人年收入是否超過 5 萬元。 相關研究:Kohavi, R.、Becker, B. (1996 年)。 UCI Machine Learning 存放庫。 Irvine, CA: University of California, School of Information and Computer Science |
汽車價格資料 (原始) | 依構造和型號分類的汽車相關資訊,包括價格、性能 (例如汽缸數和油耗),以及保險風險評分。 風險分數一開始與自動價格相關聯。 然後它會在精算師稱為符號化的程序中根據實際風險進行調整。 若值為 +3,表示該汽車屬於高風險,若值為 -3,表示大致而言很安全。 使用方式:使用迴歸或多變量分類,依特性預測風險評分。 相關研究:Schlimmer, J.C.(1987 年)。 UCI Machine Learning 存放庫。 Irvine, CA:University of California, School of Information and Computer Science. |
共用 CRM Appetency 標籤 | KDD Cup 2009 客戶關係預測挑戰 (orange_small_train_appetency.labels) 中的標籤。 |
共用 CRM 流失標籤 | KDD Cup 2009 客戶關係預測挑戰 (orange_small_train_churn.labels) 中的標籤。 |
共用 CRM 資料集 | 此資料來自 KDD Cup 2009 客戶關係預測挑戰 (orange_small_train.data.zip)。 資料集包含來自法國電信公司 Orange 的 50K 個客戶。 每個客戶都有 230 項不具名的特性,其中有 190 項數值特性和 40 項類別特性。 這些特性非常稀疏。 |
共用 CRM 向上銷售標籤 | KDD Cup 2009 客戶關係預測挑戰 (orange_large_train_upselling.labels) 中的標籤 |
航班誤點資料 | 美國交通部收集的 TranStats 資料所包含的客機航班準點率資料(準點)。 此資料集涵蓋的其間為 2013 年 4 月至 10 月。 上傳至設計工具之前,資料集已經過下列處理: - 資料集已經過篩選,僅涵蓋美國大陸 70 個最繁忙的機場 - 取消的航班已標示為誤點達 15 分鐘以上 - 已篩選掉更改路徑的航班 - 已選取下列資料行:Year、Month、DayofMonth、DayOfWeek、Carrier、OriginAirportID、DestAirportID、CRSDepTime、DepDelay、DepDel15、- CRSArrTime、ArrDelay、ArrDel15、Canceled |
德國信用卡 UCI 資料集 | UCI Statlog (德國信用卡) 資料集 (Statlog+German+Credit+Data),使用 german.data 檔案。 此資料集會將申請者 (以一組屬性說明) 分類為低或高信用風險。 每個範例代表一名申請者。 共有 20 項特性 (包括數值和類別) 以及一個二進位標籤 (信用風險值)。 高信用風險項目的標籤 = 2,低信用風險項目的標籤 = 1。 將低風險範例誤判為高風險的成本為 1,而將高風險範例誤判為低風險的成本為 5。 |
IMDB 影片標題 | 資料集包含 X 推文中分級影片的資訊:IMDB 影片識別碼、影片名稱、內容類型、製作年份。 資料集中有 1 萬 7 千部影片。 該資料集在論文 "S. Dooms, T. De Pessemier and L. Martens" 中推出。 MovieTweetings:收集自 Twitter 的影片分級資料集。 Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013." |
電影分級 | 資料集是 Movie Tweetings 資料集的擴充版本。 資料集有 17 萬個電影分級,它們是從 X 上結構良好的推文中擷取出來的。每個執行個體代表推文,並且是 Tuple:使用者識別碼、IMDB 影片識別碼、分級、時間戳記、推文的收藏數,以及這個推文的轉推數。 資料集是由 A. Said、S. Dooms、B. Loni 和 D. Tikk 為 Recommender Systems Challenge 2014 提供。 |
天氣資料集 | NOAA 提供的每小時起降天候觀測值 (將 201304 的資料合併至 201310)。 天氣資料涵蓋從機場天候觀測站進行的觀測,涵蓋期間為 2013 年 4 月至 10 月。 上傳至設計工具之前,資料集已經過下列處理: - 天候觀測站識別碼已對應至相對應的機場識別碼 - 已篩選掉與 70 個最繁忙機場無關聯的天候觀測站 - Date 資料行已分割為個別的 Year、Month 和 Day 資料行 - 已選取下列資料行:AirportID、Year、Month、Day、Time、TimeZone、SkyCondition、Visibility、WeatherType、DryBulbFarenheit、DryBulbCelsius、WetBulbFarenheit、WetBulbCelsius、DewPointFarenheit、DewPointCelsius、RelativeHumidity、WindSpeed、WindDirection、ValueForWindCharacter、StationPressure、PressureTendency、PressureChange、SeaLevelPressure、RecordType、HourlyPrecip、Altimeter |
Wikipedia SP 500 資料集 | 資料是從 Wikipedia (https://www.wikipedia.org/) 上每家 S&P 500 公司的文章衍生而來 (儲存為 XML 資料)。 上傳至設計工具之前,資料集已經過下列處理: - 擷取每家特定公司的文字內容 - 移除 wiki 格式 - 移除非英數字元 - 將所有文字轉換為小寫 - 新增了知名公司類別 請注意,對某些公司而言,找不到某篇文章,所以記錄筆數小於 500 筆。 |
餐廳特色資料 | 一組關於餐廳及其特色的中繼資料,例如食物類型、用餐風格和地點等。 使用方式:將此資料集與其他兩個餐廳資料集搭配使用,以使推薦系統定型並進行測試。 相關研究:Bache, K. 和 Lichman, M.(2013 年)。 UCI Machine Learning 存放庫。 Irvine, CA:University of California, School of Information and Computer Science. |
餐廳評等 | 包含使用者給予餐廳的評等,最低為 0,最高為 2。 使用方式:將此資料集與其他兩個餐廳資料集搭配使用,以使推薦系統定型並進行測試。 相關研究:Bache, K. 和 Lichman, M.(2013 年)。 UCI Machine Learning 存放庫。 Irvine, CA:University of California, School of Information and Computer Science. |
餐廳顧客資料 | 一組關於顧客的中繼資料,包括人口統計和喜好。 使用方式:將此資料集與其他兩個餐廳資料集搭配使用,以使推薦系統定型並進行測試。 相關研究:Bache, K. 和 Lichman, M.(2013 年)。 UCI Machine Learning 存放庫 Irvine, CA: University of California, School of Information and Computer Science。 |
清除資源
重要
您可以使用您所建立的資源,作為其他 Azure Machine Learning 教學課程和操作說明文章的先決條件。
刪除所有內容
如果您不打算使用所建立的任何資源,請刪除整個資源群組,以免產生任何費用。
在 Azure 入口網站中,於視窗左側選取 [資源群組]。
在清單中,選取您所建立的資源群組。
選取 [刪除資源群組]。
刪除資源群組同時會刪除您在設計工具中建立的所有資源。
刪除個別資產
在建立實驗的設計工具中,藉由選取個別資產,再選取 [刪除] 按鈕,即可刪除個別資產。
您在這裡建立的計算目標會在不使用時自動調整為零個節點。 如此可將費用降至最低。 如果您想要刪除計算目標,請採取下列步驟:
您可以選取每個資料集並選取 [取消註冊],從工作區中將資料集取消註冊。
若要刪除資料集,請使用 Azure 入口網站或 Azure 儲存體總管移至儲存體帳戶,並手動刪除這些資產。
下一步
透過以下教學課程,了解預測性分析和機器學習的基礎概念:教學課程:使用設計工具預測汽車價格