劇集
學習神奇:直覺物理的體驗學習
取代為 Pulkit Agrawal
我們調查體驗式學習範例,以取得直覺物理的內部模型。 我們的模型會根據真實世界的機器人操作工作進行評估,該工作需要藉由戳將物件移轉至目標位置。 機器人通過對不同物體執行超過5萬個戳,收集了400多個小時的體驗。 我們建議一種以深度神經網路為基礎的新方法,透過共同估計動態和反向模型,將機器人互動的動態模型從影像中模型化。 反向模型目標提供監督來建構資訊視覺特徵,然後向前模型可以預測並反過來將反向模型的特徵空間正規化。 這兩個目標之間的互動會建立有用的精確模型,然後可用於進行多步驟決策。 此公式具有額外的優點,即可以在抽象特徵空間中學習正向模型,從而減輕預測圖元的需求。 我們的實驗顯示,這種聯合模型化方法優於替代方法。 我們也示範使用學習模型的作用中數據收集可進一步改善效能。
我們調查體驗式學習範例,以取得直覺物理的內部模型。 我們的模型會根據真實世界的機器人操作工作進行評估,該工作需要藉由戳將物件移轉至目標位置。 機器人通過對不同物體執行超過5萬個戳,收集了400多個小時的體驗。 我們建議一種以深度神經網路為基礎的新方法,透過共同估計動態和反向模型,將機器人互動的動態模型從影像中模型化。 反向模型目標提供監督來建構資訊視覺特徵,然後向前模型可以預測並反過來將反向模型的特徵空間正規化。 這兩個目標之間的互動會建立有用的精確模型,然後可用於進行多步驟決策。 此公式具有額外的優點,即可以在抽象特徵空間中學習正向模型,從而減輕預測圖元的需求。 我們的實驗顯示,這種聯合模型化方法優於替代方法。 我們也示範使用學習模型的作用中數據收集可進一步改善效能。
有任何意見嗎? 請在此提交問題。