Share via



2017 年 10 月

第 32 卷,第 10 期

本文章是由機器翻譯。

人工智慧 - 探索 Azure Machine Learning Studio

Frank La La | 2017 年 10 月

Frank LaVigneLongtime 讀取器的 [我的部落格 (franksworld.com) 已注意到過去的 18 個月資料科學、 人工地智慧 (AI) 和機器學習 (ML) 的內容中標示 shift 鍵。因此,只調整此資料行也會轉移齒輪,並著重於發生我們 revolution:AI Revolution。不久 AI 已科幻小說個人資料。現在我們可以將智慧加入至幾乎任何應用程式或網站。事實上,您最愛的應用程式和網站的許多已採用某種形式的 AI。Cortana 和許多其他語音助理。 AI 的明顯的例子 UI 層中較不明顯,但沒有較不重要,就是智慧型最佳化資源,告知您可能想哪些電影,以及決定社交媒體摘要中看到的內容,建議系統的演算法。

在過去 10 年,許多開發人員和 IT 組織的焦點是擷取和儲存體的巨量資料。在這段時間,概念的了解 「 大 」 資料庫的大小已成長中的數量級從 tb 以 pb 計。現在,在 2017,晚是入尋找 insights、 趨勢及根據埋這些大型資料存放區中的資訊在未來的預測。結合 AI 參考資料、 以雲端為基礎的分析工具和 ML 演算法中最近已大幅提升,這些大型資料存放區可以不只是探索,但 monetized。

與雲端提供合理的運算能力和儲存體,甚至小型企業可以預測未來會預期客戶行為及識別在個別的層級和小數位數的趨勢。可以探索並部署可採取動作的預測模型,才能在競爭的組織會支配其市場區隔。適當地運用,AI 可以對任何企業中將嚴重的值。當 Peter Drucker 放,」 來預測未來的最佳方式是建立它。 」 在該夠用,以下是 AI 和 ML 需深入了解。

取得權限的詞彙

AI 專案之前,務必定義範圍究竟為何"人工地 intelligence 」。 這會是意義的重要,因為未來的資料行需要仰賴一組常用的條款與這個欄位關聯。快速網際網路搜尋詞彙"人工地智慧 」 會將許多不同的結果,產生從 chatbots 和電腦願景系統在本質上爭論意識本身。沒有確實共識,對於一詞時,大部分的專家同意通常所述的基本片語圖 1

通常可接受的人工地智慧片語

圖 1 通常會接受人工地智慧片語

在您的手雲端的強大功能

周圍中間的最後十年,我是早期採用者 proponent Tablet PC 平台。會將展示檔傳遞到不同使用者群組並且演說,一個批評會免不了提起: 缺乏高效能的硬體。嚴重的運算能力,這些裝置上缺少的原因有多個要執行動作的條件約束可確保在平板裝置可行: 也就是加權,電池壽命和成本。許多會物件,而它們 admired tablet PC 衩怮,他們需要的裝置功能更強大的 CPU。向前快轉 10 年和成本限制,電池壽命和網路連線有主要離開運作。範圍的 Wi-fi 和 4g 網路內的任何裝置現在可以連線到無限制的計算服務和雲端中的儲存體資源。

AI 雲端中

身為開發人員,您可以選擇以何種類型的智慧型 services 來取用。如果網站或應用程式需要影像辨識或自然語言處理,然後 Microsoft 已做出數個服務可做為 Microsoft 認知服務的一部分、 一組 Microsoft 的發展 portfolio ML 應用程式開發介面展開應用程式開發介面、 Sdk 和服務.它們可讓您輕鬆地加入智慧型功能,例如情緒和視訊的偵測。臉部、 語音和願景辨識;語音和語言瞭解 — 您的應用程式。Microsoft 的願景是個人運算體驗和增強的產能輔助系統,逐漸可以看到、 聽到、 說話,了解和即使開始原因。

這些服務會公開包含數百萬個範例影像經過訓練的模型。Channel9 的影片介紹,在 Microsoft 的 Anna Roth 簡要說明的程序的定型集與各種不同的範例資料的演算法 (bit.ly/2x7u1D4)。數十個工程師和研究人員所接受許多認知服務 Api 所公開的模型訓練透過年份,而包含數百萬個資料點。這就是為什麼看看它們執行作業很理想。當您的應用程式或網站需要認知的服務應用程式開發介面的其中一個可以解決的解決方案,使用它們。Microsoft 認知服務供應項目的清單,會繼續成長。如需更新清單,請移至bit.ly/2vGWcuN

不過,當您的資料有更小的範圍內特定網域,表示您必須從您自己的資料建立您自己的模型。時,可能會看似令人卻步或不太實用,處理程序與 Microsoft 所提供的另一個雲端服務是很簡單:Azure ML Studio。

Azure ML Studio

Azure ML Studio 是讓 ML 和建置預測模型親近且直接的線上服務。大部分的情況下,沒有程式碼相關。使用者拖曳表示動作和演算法,類似一個框住 Visio 介面中的各種模組。最大的彈性和擴充性,都有模組將 R,並將 Python 程式碼的情況下,內建的模型不敷使用,或使用現有的程式碼插入。

使用者入門studio.azureml.net 透過之間開啟瀏覽器和 head。如果您從未使用過 Azure ML Studio 之前,請按一下 [登入] 按鈕。您可以遵循對話方塊中選擇客體工作區或免費工作區的選項 (請參閱圖 2)。基於本文的目的,建議您使用免費工作區中,因為您必須有機會儲存您的專案,並公開您的模型,透過 Web 服務。

定價層的 Azure Machine Learning Studio

圖 2 定價層的 Azure Machine Learning Studio

如果您已經有 Microsoft 帳戶,按一下 [登入可用的工作區選項底下。如果這是您已登入 Azure ML Studio 中的第一次,您會看到空白清單的實驗。ML 會被視為資料科學的子集,因為此使用詞彙 「 實驗 」。

建立實驗檢查 Azure ML Studio 的強大的最佳方式是從範例實驗開始。幸運的是,有多個 Microsoft 提供的預先建立的範例。首先,按一下瀏覽器視窗的左下角的 [新增] 按鈕。在 [結果] 對話方塊中,輸入班機的文字方塊中。螢幕看起來應該類似圖 3。按一下圖庫連結中的檢視會顯示頁面,詳述實驗的相關資訊 (bit.ly/2i9Q61i)。將滑鼠移磚,然後按一下 [Studio 按鈕中的 [開啟] 以開啟實驗開始使用它。

飛行延遲預測範例實驗

圖 3 飛行延遲預測範例實驗

此實驗執行所謂的二元分類,這表示 ML 演算法會將每一筆記錄在資料集中兩個類別之一。在此情況下,會延遲班機。

一旦載入實驗螢幕看起來應該像圖 4

飛行延遲實驗在 Azure Machine Learning Studio 中開啟

在 Azure Machine Learning Studio 中開啟的圖 4 飛行延遲實驗

雖然這看起來可能會令人卻步一開始,什麼是其實相當簡單。放大使用滾輪滑鼠,或使用縮放控制站上的工作區畫布左下方。

瀏覽工作區畫布Azure ML Studio 提供內建瀏覽控制項,來瀏覽和管理工作區畫布的檢視。會瀏覽控制項從左到右: 畫布的迷你地圖縮放滑桿控制項、 縮放至實際大小] 按鈕、 縮放以符合按鈕和移動瀏覽切換按鈕。您可能已經注意到畫布周圍拖曳選取模組,並不會移動畫布。按一下 [移動] 切換按鈕會切換移動瀏覽至選取的模式。移動瀏覽模式啟動時,會出現藍色按鈕。

模組工作區畫布包含模組連結在一起。每個模組會代表資料集、 操作資料或演算法。若要了解來源資料集的內容,選取飛行延遲資料模組 1,以滑鼠右鍵按一下,內容功能表上,按一下 [視覺化] (請參閱圖 5)。

飛行延遲資料模組內容功能表

圖 5 飛行延遲資料模組內容功能表

在 [結果] 對話方塊中,資料集的內容會出現在方格中。按一下其中一個欄位,然後展開的統計資料和視覺效果的面板。在圖 6、 選擇承運業者欄位和之間統計資料和視覺效果] 面板中,可以探索資料的基本圖案。按一下 [關閉此檢視] 對話方塊的右上角的 X。

將未經處理的資料視覺化

圖 6 視覺化的未經處理資料

重複上述步驟,將結構與內容的天氣資料集視覺化。

管理原始資料集請注意,在資料集中的資料修改的模組數目,而且有兩個分支: 一個用於航班延誤資料集,另一個則用於天氣資料集。中每個資料集的資料需要清除才能進行合併與 ML 演算法分析。請注意,在附加至天氣資料集的步驟中,即使沒有執行 R 程式碼的模組。選取 [執行 R 指令碼模組,並為之前,以滑鼠右鍵滑鼠按一下 1。內容功能表有視覺化選項,但會變成灰色,因為每個其他選項。這表示實驗尚未執行。在螢幕下方,按一下 [執行] 按鈕,選擇 [執行],執行實驗。在幾分鐘後,將會完成實驗。根據伺服器負載,這項實驗可能需要較長時使用免費服務。現在按一下 [執行 R 指令碼,以滑鼠右鍵按一下 1。[視覺效果] 對話方塊隨即出現,顯示模組的輸出。事實上,既然整個實驗執行時,可以視覺化每個模組的資料。探索模組和視覺化的資料在每個步驟,您可以追蹤的程序中的資料轉換。不過,某些模組的視覺效果會出現不同於其他項目。

機器學習如先前所述,這項實驗會分類成兩個類別的其中一個班機: 延遲或不延遲。實驗先清除資料和圖形資料格式和 ML 演算法可以使用的結構。資料科學家通常稱此程序為 「 wrangling 資料 」,它可以代表任何類型的資料科學專案投入時間的大部分。

一般而言,ML 實驗之後已成形及清除資料的程序遵循下列步驟: 分割至測試和資料集定型集,挑選要檢查的資料,演算法及計分結果。此實驗會透過兩種演算法來執行資料:二級促進式的決策樹和二級羅吉斯迴歸。每一個演算法會以不同方式處理的資料。某些演算法會在特定的資料集和問題比其他更好。這是實驗會發揮作用。

當實驗中有一個以上的演算法時,然後模型可針對評估另一個以評估模型模組。選取評估模型模組、 1 上以滑鼠右鍵按一下並選取視覺效果的內容功能表。對話方塊看起來應該像圖 7

評估模型的視覺效果] 對話方塊

圖 7 評估模型的視覺效果] 對話方塊

[評估模型的視覺效果] 對話方塊包含重要的資訊來了解剛才建立的 ML 模型的效能。藍色的線條代表透過二級促進式決策樹演算法建立的模型和紅線表示二級羅吉斯迴歸演算法所建立的模型。藍色的模型中,選取依預設,具有精確度 0.806 的評等,這就表示它已正確 80.6%的時間。按一下圖表圖例中紅色方塊,請參閱二級羅吉斯迴歸模型的結果。其正確性已稍微好 81.7 百分比。也請注意,產生混淆矩陣上的數字這兩個模型。混淆矩陣是品質的量值的分類模型。測量的次數記錄已正確加上旗標正面或造成負面,以及如何通常模型為錯誤 「 誤判 」 與 「 誤否定 」。

在這個畫面上的主要圖形功能是接收器操作特徵或 ROC,曲線。此標準的完整說明需要自己的發行項。可以找到此計量的詳細資訊,在維基百科上bit.ly/2fPKJnf。假設,隨機猜測正確的一半的情況下,ROC 曲線會顯示模型百分之 50 為直線 45 度角度的精確度。假設這兩個模型都大於 80%,此演算法的執行效能明顯優於隨機猜測。也就是說,電腦已學到如何預測結果有相當的精確度。

多個資料操作工作流程的其餘部分牽涉到精簡 31 為六個資料集內的資料行數目。若要讓資料更容易閱讀,OriginAirportID 和 DestAirportID 欄位會加入包含 city、 state 和機場名稱的資料表。這樣一來 12264 會變成華盛頓 Dulles 國際為更容易閱讀。

結論

某些 Azure ML Studio 中使用的詞彙相關統計資料,且通常是外的大部分的開發人員的一般詞彙。事實上,這是其中的學習曲線,Azure ML Studio 中的大量在於,學習資料科學的術語。

我已大略的功能可以使用 Azure ML Studio 中建置。下一個步驟將會進行此預測模型存取網站和 Web 服務使用的內建支援的應用程式。在未來的資料行,我要探索其他的層面 AI 內部和外部 Azure ML Studio。

機器學習,人工地智慧和資料科學一般情況下可能會看起來是令人卻步要平均的開發人員或資料工程師,而此資料行的整體目標是協助您找出非常相反為 true。


Frank La Vigne也無需在 Wintellect 資料科學家共同裝載的 DataDriven 播客。他的部落格定期 FranksWorld.com,而且您可以在他的 YouTube 頻道,"Frank 的世界電視 」 上監看他 (FranksWorld.TV)。

非常感謝下列 Microsoft 技術專家檢閱這篇文章:Rachel Appel 和 Andy Leonard


MSDN Magazine 論壇中的這篇文章的討論