適用於數據科學家的小組 資料科學 程式
本文提供使用 Azure 技術實作完整數據科學解決方案時所設定的目標指引。 您已引導您完成:
- 瞭解分析工作負載。
- 使用 Team 資料科學 Process。
- 使用 Azure 機器學習。
- 了解數據傳輸和記憶體的基礎。
- 提供數據源檔。
- 使用工具來進行分析。
這些訓練教材與 Team 資料科學 Process (TDSP) 和 Microsoft 開放原始碼軟體和工具組相關,有助於構想、執行及傳遞數據科學解決方案。
課程路徑
您可以使用下表中的項目來引導您自己的自學。 閱讀描述以遵循路徑,選取主題以查看研究參考,並使用知識檢定檢查檢查您的技能。
目標 | 主題 | 說明 | 知識檢查 |
---|---|---|---|
了解開發分析專案的程式 | 小組 資料科學 程序的簡介 | 首先,我們將涵蓋 TDSP 的概觀。 此程式會引導您完成分析專案的每個步驟。 閱讀上述各節,以深入了解程式,以及如何實作程式。 | 檢閱並 下載 TDSP 項目結構成品到您的本機計算機 以進行專案。 |
敏捷式開發 | TDSP 適用於許多不同的程序設計方法。 在此學習路徑中,我們使用敏捷式軟體開發。 閱讀「什麼是敏捷式開發」和「建置敏捷式文化」文章,其中涵蓋使用 Agile 的基本概念。 此網站也有其他參考,您可以在此深入瞭解。 | 說明對同事的持續整合和持續傳遞。 | |
適用於數據科學的 DevOps | 開發人員作業 (DevOps) 牽涉到人員、流程和平臺,您可以用來處理專案,並將解決方案整合到組織的標準 IT 中。 這項整合對於採用、安全性和安全性至關重要。 在此在線課程中,您將瞭解DevOps做法,並瞭解您擁有的一些工具鏈選項。 | 準備 30 分鐘的簡報給技術物件,以瞭解 DevOps 對於分析專案而言至關重要。 | |
了解數據儲存和處理的技術 | Microsoft 商務分析和 AI | 我們著重於此學習路徑中的一些技術,您可以用來建立分析解決方案,但 Microsoft 還有更多技術。 若要瞭解您擁有的選項,請務必檢閱 Microsoft Azure、Azure Stack 和內部部署選項中可用的平臺和功能。 檢閱此資源,以瞭解您可用來回答分析問題的各種工具。 | 從此研討會下載並檢閱簡報材料。 |
設定及設定您的訓練、開發和生產環境 | Microsoft Azure | 現在讓我們在 Microsoft Azure 中建立帳戶以進行訓練,並瞭解如何建立開發和測試環境。 這些免費的訓練資源可讓您開始使用。 完成初學者和中繼路徑。 | 如果您沒有 Azure 帳戶,請建立一個帳戶。 登入 Azure 入口網站,並建立一個資源群組以進行訓練。 |
Azure 命令列介面 (CLI) | 使用 Azure 的方式有很多種,從 Visual Studio Code 和 Visual Studio 等圖形化工具,到 web 介面,例如 Azure 入口網站,以及從命令行,例如 Azure PowerShell 命令和函式。 在本文中,我們會討論 CLI,您可以在工作站、Windows 和其他作業系統上,以及 Azure 入口網站 本機使用。 | 使用 Azure CLI 設定您的預設訂用帳戶。 | |
Azure 儲存體 | 您需要儲存資料的位置。 在本文中,您將瞭解 Azure 記憶體選項、如何建立記憶體帳戶,以及如何將數據複製到雲端或將數據移至雲端。 閱讀本簡介以深入瞭解。 | 在您的定型資源群組中建立 儲存體 帳戶、建立 Blob 物件的容器,以及上傳和下載數據。 | |
Microsoft Entra ID | Microsoft Entra ID 會形成保護應用程式的基礎。 在本文中,您將深入了解帳戶、許可權和許可權。 Active Directory 和安全性是複雜的主題,因此請閱讀此資源以瞭解基本概念。 | 將一位使用者新增至 Microsoft Entra ID。 注意:如果您不是訂用帳戶的系統管理員,您可能沒有此動作的許可權。 如果是這種情況, 請檢閱本教學課程以深入瞭解。 | |
適用於 PyTorch 的 Azure 資料科學虛擬機器 | 您可以在多個作業系統上安裝工具,以在本機使用數據科學。 但是 PyTorch 的 資料科學虛擬機器 包含您需要的所有工具,以及要處理的大量項目範例。 在本文中,您將深入瞭解 PyTorch 的 資料科學虛擬機器,以及如何完成其範例。 此資源說明 PyTorch 的 資料科學虛擬機器、如何建立一個,以及一些使用它開發程式代碼的選項。 它也包含完成此學習路徑所需的所有軟體,因此請務必完成本主題的知識路徑。 | 為 PyTorch 建立 資料科學虛擬機器,並至少透過一個實驗室工作。 | |
安裝和瞭解使用數據科學解決方案的工具和技術 | 使用 Git | 若要使用 TDSP 遵循 DevOps 程式,我們需要有版本控制系統。 機器學習 使用 Git,這是熱門的開放原始碼分散式存放庫系統。 在本文中,您將深入瞭解如何安裝、設定及使用 Git 和中央存放庫 GitHub。 | 為您的學習路徑項目結構複製此 GitHub 專案。 |
Visual Studio Code | Visual Studio Code 是一種跨平臺集成開發環境(IDE),您可以搭配多種語言和 Azure 工具使用。 您可以使用這個單一環境來建立整個解決方案。 觀看這些簡介影片以開始使用。 | 安裝 Visual Studio Code,並在 互動式編輯器遊樂場中處理 Visual Studio Code 功能。 | |
使用 Python 進行程序設計 | 在此解決方案中,我們使用 Python,這是數據科學中最受歡迎的語言之一。 本文涵蓋使用 Python 撰寫分析程式代碼的基本概念,以及深入了解的資源。 請完成本參考第 1-9 節,然後檢查您的知識。 | 使用 Python 將一個實體新增至 Azure 數據表。 | |
使用 Jupyter Notebook | 筆記本是在同一份檔中介紹文字和程式代碼的一種方式。 機器學習 與筆記本搭配使用,因此瞭解如何使用筆記本很有説明。 閱讀本教學課程,並在知識檢定一節中試試看。 | 開啟 Jupyter 網頁,然後選取 [歡迎使用 Python.ipynb]。 請瀏覽該頁面上的範例。 | |
機器學習 | 建立進階分析解決方案牽涉到使用機器學習來處理數據,這也構成了使用 AI 和深度學習的基礎。 本課程會教導您更多關於機器學習的資訊。 如需數據科學的完整課程,請參閱此認證。 | 在機器學習演算法上找出資源。 (提示:搜尋“azure 機器學習演算法速查表”) | |
scikit-learn | scikit-learn 工具組可讓您在 Python 中執行數據科學工作。 我們會在解決方案中使用這個架構。 本文涵蓋基本概念,並說明您可以在何處深入瞭解。 | 使用鳶尾花數據集,使用Pickle保存SVM模型。 | |
使用 Docker | Docker 是一種分散式平臺,可用來建置、運送及執行應用程式,而且經常在機器學習中使用。 本文涵蓋這項技術的基本概念,並說明您可以前往何處深入瞭解。 | 開啟 Visual Studio Code,並 安裝 Docker 擴充功能。 建立簡單的 Node Docker 容器。 | |
Azure HDInsight | HDInsight 是 Hadoop 開放原始碼基礎結構,可在 Azure 中作為服務使用。 您的機器學習演算法可能牽涉到大量數據集,而且您可以使用 HDInsight 來儲存、傳輸及處理大規模數據。 本文涵蓋使用 HDInsight。 | 建立小型 HDInsight 叢集。 使用HiveQL語句 將數據行投影到 /example/data/sample.log 檔案上。 或者, 您可以在本機系統上完成此知識檢定。 | |
從商務需求建立數據處理流程 | 在 TDSP 之後判斷問題 | 安裝並設定開發環境,並了解技術與程式,是時候使用 TDSP 來執行分析。 我們必須先定義問題、選取數據源,以及 TDSP 中的其餘步驟。 請記住DevOps程式,因為我們正在處理此程式。 在本文中,您將瞭解如何從組織取得需求,並透過您的應用程式建立數據流對應,以使用 TDSP 定義您的解決方案。 | 找出「5 個數據科學問題」的資源,並描述貴組織在這些領域可能有的問題。 您應該針對這個問題專注於哪一個演算法? |
使用 機器學習 建立預測性解決方案 | Machine Learning | 機器學習 使用 AI 進行數據整頓和特徵工程、管理實驗,以及追蹤模型執行。 它會使用單一環境,而且大部分的函式可以在本機或 Azure 中執行。 您可以使用 PyTorch 架構、TensorFlow 架構或其他架構來建立實驗。 在本文中,我們著重於此程式的完整範例,使用到目前為止所學到的所有內容。 | |
使用 Power BI 將結果可視化 | Power BI | Power BI 是數據視覺效果工具。 其可在多個平臺上使用,例如 Web 裝置、行動裝置和桌面電腦。 在本文中,您會瞭解如何使用Power BI存取來自 Azure 儲存體 的結果,以及使用Power BI 建立視覺效果,來處理您所建立解決方案的輸出。 | 在 Power BI 上完成本教學課程。 然後將Power BI連線到實驗執行中建立的 Blob CSV。 |
監視您的解決方案 | Application Insights | 您可以使用多個工具來監視您的端解決方案。 Application Insights 可讓您輕鬆地將內建監視整合到您的解決方案中。 | 設定 Application Insights 以監視應用程式。 |
Azure 監視器記錄 | 監視應用程式的另一種方法是將其整合到您的DevOps程式中。 Azure 監視器記錄提供一組豐富的功能,可協助您在部署分析解決方案之後加以監視。 | 完成本教學課程 ,以使用 Azure 監視器記錄。 | |
完成此學習路徑 | 恭喜! 您已完成此學習路徑。 |
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主體作者:
- 標記 Tabladillo |資深雲端解決方案架構師
若要查看非公用LinkedIn配置檔,請登入LinkedIn。
下一步
在 AI 學習中 樞繼續您的 AI 旅程。
相關資源
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應