這很重要
這項功能位於 測試版 (Beta) 中。
本頁介紹資料科學代理程式,這是 AI 資料代理程式,可在 Databricks Assistant 中選取 [代理程式模式]。 它專為 Databricks 筆記本和 SQL 編輯器所設計,可探索資料、產生和執行程式碼,以及修正錯誤,所有這些都來自單一提示。
什麼是資料科學代理程式?
資料科學代理程式是 Databricks 助理代理程式模式中的強大功能,可將助理轉換成智慧型小幫手,可將 Databricks 筆記本和 SQL 編輯器中的整個多步驟資料科學工作流程自動化。
與助理聊天模式相比,代理模式擴展了功能:規劃解決方案、檢索相關資產、運行代碼、使用單元格輸出改進結果、自動修復錯誤等等。
Data Science Agent 可以規劃和產生要在筆記本中執行的程式碼,或在 SQL 編輯器中執行的查詢。 代理程式會與您合作,核准其計劃,並在繼續之前確認其後續步驟。 經您核准後,資料科學代理程式可以使用工具來執行搜尋表格、編輯筆記本、執行儲存格和讀取儲存格輸出等工作。
Data Science Agent的存取權和動作是由使用者的許可權控管。 它只能存取您有權存取的資料,並執行您有權存取的作業。
需求
若要使用資料科學代理程式,您的工作區需要下列專案:
- 為帳戶和工作區啟用合作夥伴支援的 AI 功能。 請參閱 合作夥伴支援的 AI 功能。
- Data Science Agent預覽已啟用。 請參閱 管理 Azure Databricks 預覽。
使用資料科學代理程式
若要使用資料科學代理程式:
從 Databricks 筆記本或 SQL 編輯器中,開啟 [小幫手] 側邊面板。
在右下角,選取 [代理]。 這會開啟助理的代理程式模式,可讓您與資料科學代理程式互動。
輸入代理程式的提示。 例如,「從 samples.bakehouse 進行分析
@sales_transactions以確定最暢銷的產品」。小提示
使用
@table_name參照特定表格。 代理程式將使用該資料表和任何相關聯的中繼資料來策劃其回應。 代理程式會遵守使用者的 Unity 目錄許可權,因此它只能存取您有權存取的資料。當代理程式產生回應時,它通常會暫停以取得您的輸入:
對於更複雜的任務,客服人員可能會制定逐步計劃並提出澄清問題。 回答特工的澄清問題,以幫助其完善計劃。
當代理程式需要執行程式碼時,它會在繼續之前要求您的核准。 允許 或 拒絕 其請求。 您也可以選取 [在此執行緒中允許 ] (參考助理交談執行緒) 或 [一律允許]。
這很重要
Data Science Agent 可以在您的筆記本中產生和執行程式碼。 雖然它有防止危險行為的護欄,但仍然存在風險。 您應該只將其與您信任的程式碼和資料一起使用
當客服專員繼續其工作時,系統可能會提示您選取繼續或拒絕。檢閱客服專員的現有工作,然後選取「繼續」以允許客服專員繼續執行其後續步驟,或選取「拒絕」以告訴它嘗試其他動作。
若要在代理程式運作時停止代理程式,請按一下紅色的
代理程式可以建立新的筆記本儲存格 (或查詢)、產生文字和程式碼、執行筆記本儲存格,以及存取儲存格輸出以解譯結果。
備註
為了讓資料科學代理程式繼續其工作並採取後續步驟,您需要停留在代理程式正在使用的目前索引標籤上。
使用案例
在代理模式下,助理擴展了功能,例如尋找資料、解釋輸出和執行單元格操作。
資料科學代理程式可協助處理複雜的資料科學任務,包括探索性資料分析、預測和機器學習。 您甚至可以使用資料科學代理程式從頭開始建立新的資料分析筆記本。 為了獲得更好的結果,請使用 @<resource_name>參考資料表和管線,為代理程式提供內容。 您也可以按一下 以手動選擇要提供的參考資源。
請嘗試下列提示以開始使用:
-
資料發現:
- 「哪個資料表包含麵包店交易資料?」
- “我想查看加利福尼亞州洛杉磯市 2025-01-01 的天氣數據。”
- 「找到一個包含紐約市計程車資料的表格,並向我顯示前 10 行。」
-
探索性數據分析:
- 「幫我解析 A 欄中的 JSON 字串。」
- 「從此表格建立資料的視覺效果。」
- “解釋這個條形圖。”
- “描述
@sales_transactions數據集。 執行一些 EDA 來幫助我了解欄統計並可視化值的分佈。 像數據科學家一樣思考。 - “
@workload_insights分析以查找上週按收入計算的 Databricks SQL 工作負載的前 5 名客戶。 然後繪製這些客戶在過去 6 週內每週有多少 Databricks SQL 使用者。」
-
預測:
- “使用數據
@incidents集,對未來 2 週的每日事件數量進行預測。 完成後,給我一個數據表和一個交互式圖表來顯示結果。 - “使用數據
@website_traffic集,預測下個月的每日訪客人數。 突出任何季節性模式。 - “從數據集生成
@inventory未來 6 個月的產品需求預測,包括置信區間。”
- “使用數據
-
機器學習:
- “進行一些數據準備和特徵工程,為模型訓練準備這個數據集。”
- “在數據集上
@customer_data訓練分類模型以預測客戶流失。 使用準確性和 AUC 指標評估模型。 - “使用數據集對
@housing_prices回歸模型進行超參數調整,以改善預測誤差。” - “在數據集上
@sales_leads構建聚類模型,以識別客戶群並提供每個集群特徵的摘要。”
-
筆記本組織:
- “創建一個新單元格來總結此筆記本的結果。”
- 「給這本筆記本起個相關的名字。」
探索性數據分析
使用Data Science Agent對資料集執行探索性資料分析。 例如,嘗試使用代理程式來協助您建立分析資料集的新 samples.bakehouse.sales_transactions 筆記本。
在空白的筆記本索引標籤中,開啟 [助理] 面板,選取 [代理程式模式] ,然後輸入下列提示:「描述資料集, @sales_transactions 來自 samples.bakehouse。 我想做一些 EDA,以便我可以理解列統計資料並視覺化值的分佈。 像數據科學家一樣思考。
客服專員會建立一個計劃來回答您的提示,並可能提出澄清問題。 經您核准後,它會產生新的筆記本儲存格,其中包含用於探索資料的程式碼,以及解釋其程序和發現結果的文字。