Python 教學課程:使用二元分類預測紐約市計程車車資

適用于:SQL Server 2017 (14.x) 和更新版本 Azure SQL 受控執行個體

在 SQL 程式設計人員的這個五部分教學課程系列中,您將了解 SQL Server 機器學習服務中或巨量資料叢集上的 Python 整合。

在 SQL 程式設計人員的這個五部分教學課程系列中,您將了解 SQL Server 機器學習服務中的 Python 整合。

在 SQL 程式設計人員的這個五部分教學課程系列中,您將了解 Azure SQL 受控執行個體中機器學習服務中的 Python 整合。

您將使用 SQL Server 上的範例資料庫,建置和部署以 Python 為基礎的機器學習解決方案。 您將使用 T-SQL、Azure Data Studio 或 SQL Server Management Studio,以及具有 SQL 機器學習和 Python 語言支援的資料庫執行個體。

本教學課程系列將為您介紹資料模型化工作流程中所使用的 Python 函式。 其中包括資料探索、建置和定型二元分類模型,以及模型部署。 您將使用紐約市計程車和禮車委員會的範例資料。 您將建置的模型會根據當天時間、行駛距離及上車地點,預測車程是否會產生小費。

在此系列課程的第一部分中,您將安裝必要條件和還原範例資料庫。 在第二部分和第三部分中,您將開發一些 Python 指令碼來準備您的資料,並將機器學習模型定型。 接著,在第四和第五部分中,您將使用 T-SQL 預存程序執行資料庫中的這些 Python 指令碼。

在本文中,您將:

  • 安裝先決條件
  • 還原範例資料庫

第二部分中,您將探索範例資料並產生繪圖。

第三部分中,您將了解如何使用 Transact-SQL 函式,從未經處理的資料建立特徵。 接著您將從預存程序呼叫該函數,以建立包含特徵值的資料表。

第四部分中,您將載入模組,並呼叫所需的函式,以使用 SQL Server 預存程序來建立和定型模型。

第五部分中,您將了解如何運作您在第四部分中定型並儲存的模型。

注意

這個教學課程適用於 R 和 Python。 針對 R 版本,請參閱 R 教學課程:使用二元分類預測紐約市計程車車資

必要條件

所有工作都可以使用 Azure Data Studio 或 Management Studio 中的 Transact-SQL 預存程式來完成。

本教學課程系列假設您已熟悉基本的資料庫作業,例如建立資料庫和資料表、匯入資料,以及撰寫 SQL 查詢。 但不會假設您了解 Python,而會提供所有 Python 程式碼。

適用於 SQL 開發人員的背景

建置機器學習解決方案的程序很複雜,其中可能牽涉到多項工具,而且需協調數個階段的主題專家:

  • 取得和清除資料
  • 探索資料及建立模型化適用的功能
  • 定型和調整模型
  • 部署到實際執行環境

最好使用專用的開發環境來執行實際程式碼的開發和測試工作。 不過,在腳本經過完整測試之後,您可以在熟悉的 Azure Data Studio 或 Management Studio 環境中使用 Transact-SQL 預存程式,輕鬆地將其部署至SQL Server。 將外部程式碼包裝在預存程序裡,是運用 SQL Server 中程式碼的主要機制。

將模型儲存至資料庫之後,您可以使用預存程式呼叫模型,以從 Transact-SQL 進行預測。

無論您是剛接觸 Python 的 SQL 程式設計人員,還是剛接觸 SQL 的 Python 開發人員,這個涵蓋多部分的教學課程系列所介紹的一般工作流程,都可引導您了解如何使用 Python 和 SQL Server 執行資料庫內分析。

後續步驟

在本文章中,您將:

  • 已安裝必要條件
  • 已還原範例資料庫