已不再支援此瀏覽器。
請升級至 Microsoft Edge,以利用最新功能、安全性更新和技術支援。
AI 客服產生的行程計畫卻忽略了顧客的體能程度、經驗、預算和天氣條件之間的互動。 哪種微調方法最適合解決這個問題?
監督式微調(SFT)
強化微調(RFT)
直接偏好優化(DPO)
哪種微調技術需要偏好配對結構化的訓練資料,每個資料包含一個提示詞,並且包含偏好的和非偏好的回應?
在提交微調工作前,評估基礎模型的目的為何?
建立基準,讓你能衡量微調是否提升了表現。
自動從基礎模型的輸出產生標籤訓練範例。
以決定訓練時應使用多少紀元。
您必須先回答所有問題,才能檢查進度。
此頁面對您有幫助嗎?
需要本主題的協助嗎?
想要嘗試使用 Ask Learn 來釐清或引導您完成本主題嗎?