SynapseML (先前稱為 MMLSpark) 是一個開放原始碼程式庫,可簡化建置可大規模調整的機器學習 (ML) 管線。 SynapseML 提供簡單、可組合和分散式 API,用於機器學習工作,例如文字分析、電腦視覺和異常偵測。 SynapseML 是以 Apache Spark 分散式運算架構 為基礎,並使用與 Spark MLlib 程式庫相同的 API。 此一致性可讓您將 SynapseML 模型內嵌在現有的 Apache Spark 工作流程中。
使用 SynapseML,建置可調整的智慧型系統,以解決異常偵測、電腦視覺、深度學習和文字分析等領域的挑戰。 SynapseML 會在單一節點、多節點和彈性調整大小的叢集上定型和評估模型。 這種方法可讓您在不浪費資源的情況下擴展工作。 SynapseML 可與 Python、R、Scala、Java 和 .NET 搭配使用。 其 API 可與許多資料庫、檔案系統和雲端資料儲存搭配使用,以簡化實驗,無論資料位於何處。
安裝
在 安裝頁面上選擇一種方法,然後按照步驟操作。
移至 快速入門:您的第一個模型 ,以建立您的第一個管線。
SynapseML 的主要功能
SynapseML 提供簡單的整合和預先定型的資源,以協助您更深入瞭解資料並將其套用至商務需求。 SynapseML 將數個現有的 ML 架構和新 Microsoft 演算法統一為單一、可調整的 API,此 API 可跨 Python、R、Scala 和 JAVA 使用。 SynapseML 還引進新的工具,顯示模型進行特定預測的原因,以及如何改善訓練資料集來消除偏差,藉以協助開發人員了解模型預測。
用於建立、訓練和評分模型的統一 API
SynapseML 提供統一 API,可簡化開發容錯分散式程式。 特別是,SynapseML 會在單一 API 下公開許多不同的機器學習架構,這些 API 可調整、與資料和語言無關,而且適用於批次、串流和服務應用程式。
統一的 API 標準化了許多工具、框架和演算法,並簡化了分散式機器學習體驗。 它使開發人員能夠快速組合不同的機器學習框架,保持程式碼乾淨,並支援需要多個框架的工作流程。 例如,Web 監督學習或搜尋引擎建立等工作流程需要多種服務和框架。 SynapseML 可保護使用者免於這種額外複雜度。
使用預先建置的智慧型模型
SynapseML 中的許多工具不需要大型標示的訓練資料集。 相反地,SynapseML 會為預先建置的智慧型服務提供簡單的 API,例如 Azure AI 服務,以快速解決與商務和研究相關的大規模 AI 挑戰。 SynapseML 可讓開發人員直接將超過 50 個不同的最新 ML 服務內嵌至其系統和資料庫。 這些即用型演算法可以解析各種文檔,即時轉錄多說話者對話,並將文字翻譯成 100 多種語言。 如需更多範例以了解如何使用預先建置的 AI 來快速解決工作,請參閱 SynapseML 「認知」範例。
為了讓 SynapseML 與 Azure AI 服務的整合快速且有效率,SynapseML 引進了許多服務導向工作流程的最佳化。 特別的是,SynapseML 會自動剖析常見的節流回應,以確保工作不會讓後端服務超載。 此外,它還使用指數退避來處理不可靠的網路連線和失敗的回應。 最後,Spark 背景工作機器會忙於新的非同步平行處理原則基本類型。 非同步平行處理可讓背景工作機器在等待伺服器回應時傳送要求,並可將輸送量增加十倍。
與 ONNX 的廣泛生態系統相容性
SynapseML 可讓開發人員透過 Open Neural Network Exchange (ONNX) 架構,使用來自許多不同 ML 生態系統的模型。 使用這項整合,您只需要幾行程式碼,即可大規模執行各種傳統和深度學習模型。 SynapseML 會自動處理將 ONNX 模型散發至背景工作角色節點、批次處理和緩衝處理輸入資料以獲得高輸送量,以及排程對硬體加速器的工作。
將 ONNX 引入 Spark 不僅可以幫助開發人員擴展深度學習模型,還可以實現跨各種 ML 生態系統的分散式推理。 特別的是,ONNXMLTools 會將模型從 TensorFlow、scikit-learn、Core ML、LightGBM、XGBoost、H2O 和 PyTorch 轉換為 ONNX,以使用 SynapseML 進行加速和分散式推斷。
建置負責任 AI 系統
建置模型之後,研究人員和工程師必須在部署之前了解其限制和行為。 SynapseML 引進新的工具來協助開發人員和研究人員建置負責任 AI 系統,而這些工具顯示模型進行特定預測的原因,以及如何改善訓練資料集以消除偏差。 SynapseML 可讓開發人員將計算散發到數百部機器,以大幅加快了解使用者已訓練模型的程序。 更具體來說,SynapseML 包括 Shapley 加法說明 (SHAP) 和本機可解譯模型無關說明 (LIME) 的分散式實作,以說明視覺、文字和表格式模型的預測。 它還包括個人條件期望(ICE)和部分依賴分析等工具,用於識別有偏差的資料集。
Azure Synapse Analytics 的企業支援
SynapseML 已在具有企業支援的 Azure Synapse Analytics 上正式推出。 使用 Azure AI 服務、LightGBM、ONNX 和其他 選取的 SynapseML 功能來建置大規模機器學習管線。 使用範本快速建立分散式機器學習系統的原型,例如視覺搜尋引擎、預測性維護管道和文件翻譯。