性欧美牲交xxxxx视频欧美,无码人妻精品丰满熟妇区,少妇久久久久久被弄到高潮,无码一区二区三区亚洲人妻

最新要聞

廣告

5G

首例5g乳腺手術(shù)價(jià)格是多少錢?首例5g乳腺手術(shù)成功率是多少?

首例5g乳腺手術(shù)價(jià)格是多少錢?首例5g乳腺手術(shù)成功率是多少?

電信光纖多少錢一年?電信光纖價(jià)格表

電信光纖多少錢一年?電信光纖價(jià)格表

科技

用ChatGPT和強(qiáng)化學(xué)習(xí)玩轉(zhuǎn)《我的世界》,Plan4MC攻克24個(gè)復(fù)雜任務(wù) 環(huán)球看熱訊

來源:機(jī)器之心


(資料圖)

機(jī)器之心發(fā)布

機(jī)器之心編輯部
Plan4MC 目前可以完成 24 個(gè)復(fù)雜多樣任務(wù),成功率相比所有的基線方法有巨大提升。
在開放式的環(huán)境中學(xué)習(xí)多種任務(wù)是通用智能體的重要能力。 《我的世界》(Minecraft)作為一款受歡迎的開放世界游戲,具有無限生成的復(fù)雜世界和大量開放的任務(wù),成為近幾年開放式學(xué)習(xí)研究的重要測(cè)試環(huán)境。 學(xué)習(xí) Minecraft 中的復(fù)雜任務(wù)對(duì)當(dāng)前的強(qiáng)化學(xué)習(xí)算法是巨大的挑戰(zhàn)。一方面,智能體在無限大的世界中通過局部的觀測(cè)尋找資源,面臨探索的困難。另一方面,復(fù)雜的任務(wù)通常需要很長(zhǎng)的執(zhí)行時(shí)間,要求完成許多隱含的子任務(wù)。例如,制作一把石鎬涉及砍樹、制作木鎬、挖原石等十余個(gè)子任務(wù),需要智能體執(zhí)行數(shù)千步才能完成。智能體只有在任務(wù)完成時(shí)能夠獲得獎(jiǎng)勵(lì),難以通過稀疏獎(jiǎng)勵(lì)學(xué)會(huì)任務(wù)。 圖:Minecraft 中制作石鎬的過程。目前圍繞 MineRL 挖鉆石競(jìng)賽的研究普遍使用專家演示的數(shù)據(jù)集,而 VPT 等研究使用大量帶標(biāo)簽的數(shù)據(jù)學(xué)習(xí)策略。在缺少額外數(shù)據(jù)集的情況下,用強(qiáng)化學(xué)習(xí)訓(xùn)練 Minecraft 的任務(wù)是非常低效的。MineAgent 使用 PPO 算法僅能完成若干個(gè)簡(jiǎn)單任務(wù);基于模型的 SOTA 方法 Dreamer-v3 在簡(jiǎn)化環(huán)境模擬器的情況下,也需要采樣 1000 萬步學(xué)會(huì)獲得原石。 北京大學(xué)和北京智源人工智能研究院的團(tuán)隊(duì)提出了在無專家數(shù)據(jù)的情況下高效解決 Minecraft 多任務(wù)的方法 Plan4MC。作者結(jié)合強(qiáng)化學(xué)習(xí)和規(guī)劃的方法,將解決復(fù)雜任務(wù)分解為學(xué)習(xí)基本技能和技能規(guī)劃兩個(gè)部分。作者使用內(nèi)在獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法訓(xùn)練三類細(xì)粒度的基本技能。智能體使用大型語言模型構(gòu)建技能關(guān)系圖,通過圖上的搜索得到任務(wù)規(guī)劃。實(shí)驗(yàn)部分,Plan4MC 目前可以完成 24 個(gè)復(fù)雜多樣任務(wù),成功率相比所有的基線方法有巨大提升。 論文鏈接:https://arxiv.org/abs/2303.16563 代碼鏈接:https://github.com/PKU-RL/Plan4MC 項(xiàng)目主頁(yè):https://sites.google.com/view/plan4mc ?1、Minecraft 多任務(wù)Minecraft 中玩家通過探索能夠獲得數(shù)百種物品。任務(wù)定義為初始條件和目標(biāo)物品的組合,例如,“初始化 工作臺(tái),獲得熟牛肉”。解決這個(gè)任務(wù)包含 “獲得牛肉”、“用工作臺(tái)和原石制作熔爐” 等步驟,這些細(xì)分的步驟稱為技能。人類在世界中掌握和組合此類技能來完成各種任務(wù),而不是獨(dú)立地學(xué)習(xí)每個(gè)任務(wù)。Plan4MC 的目標(biāo)是學(xué)習(xí)策略掌握大量的技能,再通過規(guī)劃將技能組合成任務(wù)。 作者在 MineDojo 模擬器上構(gòu)建了 24 個(gè)測(cè)試任務(wù),它們涵蓋了多種行為(砍樹、挖原石、與動(dòng)物交互)、多種地形,涉及 37 個(gè)基本技能。需要數(shù)十步的技能組合和數(shù)千步的環(huán)境交互來完成各個(gè)任務(wù)。 圖:24 個(gè)任務(wù)的設(shè)置2、Plan4MC 方法學(xué)習(xí)技能由于強(qiáng)化學(xué)習(xí)在訓(xùn)練中難以讓玩家大范圍跑動(dòng)探索世界,許多技能仍不能被掌握。作者提出將探索和尋找的步驟分離出來,將 “砍樹” 技能進(jìn)一步細(xì)化為 “找樹” 和 “獲得木頭”。Minecraft 中的所有技能被分為三類細(xì)粒度的基本技能: 尋找:給定目標(biāo)物品,玩家要在世界中探索,找到和接近該物品。 操作:利用現(xiàn)有的工具在附近完成一些任務(wù),如放置工作臺(tái)、與動(dòng)物交互、挖方塊。 合成:用低級(jí)物品合成高級(jí)物品。 針對(duì)每一類技能,作者設(shè)計(jì)了強(qiáng)化學(xué)習(xí)模型和內(nèi)在獎(jiǎng)勵(lì)進(jìn)行高效的學(xué)習(xí)。尋找類技能使用分層的策略,其中上層策略負(fù)責(zé)給出目標(biāo)位置、增大探索范圍,下層策略負(fù)責(zé)到達(dá)目標(biāo)位置。操作類技能使用 PPO 算法結(jié)合 MineCLIP 模型的內(nèi)在獎(jiǎng)勵(lì)訓(xùn)練。合成類技能僅使用一個(gè)動(dòng)作完成。在未修改難度的 MineDojo 模擬器上,學(xué)習(xí)全部技能僅需與環(huán)境交互 6.5M 步。 規(guī)劃算法Plan4MC 利用技能之間的依賴關(guān)系進(jìn)行規(guī)劃,例如獲得石鎬與獲得原石、木棍、放置的工作臺(tái)等技能間存在如下關(guān)系。 作者通過與大語言模型 ChatGPT 進(jìn)行交互的方式生成出所有技能之間的關(guān)系,構(gòu)建了技能的有向無環(huán)圖。規(guī)劃算法是技能圖上的深度優(yōu)先搜索,如下圖所示。 相比 Inner Monologue、DEPS 等與大語言模型交互式規(guī)劃的方法,Plan4MC 能夠有效避免大語言模型規(guī)劃過程中的錯(cuò)誤。 3、實(shí)驗(yàn)結(jié)果在關(guān)于學(xué)習(xí)技能的研究中,作者引入了不做任務(wù)分解的 MineAgent,以及不細(xì)分出尋找類技能的消融實(shí)驗(yàn) Plan4MC w/o Find-skill。表 2 表明,Plan4MC 在三組任務(wù)上均顯著超過基線方法。MineAgent 在擠牛奶、剪羊毛等簡(jiǎn)單任務(wù)上性能接近 Plan4MC,但無法完成探索困難的砍樹、挖原石等任務(wù)。不做技能細(xì)分的方法在所有任務(wù)上成功率均低于 Plan4MC。 圖 3 顯示了在完成任務(wù)的過程中,各方法在尋找目標(biāo)的階段均有較大的失敗概率、導(dǎo)致成功率曲線下降。而不做技能細(xì)分的方法在這些階段的失敗概率明顯高于 Plan4MC 的概率。 在關(guān)于規(guī)劃的研究中,作者引入了利用ChatGPT做交互式規(guī)劃的基線方法Interactive LLM,以及兩個(gè)消融實(shí)驗(yàn):技能執(zhí)行失敗時(shí)不再重新規(guī)劃的Zero-shot方法和使用一半最大交互步數(shù)的1/2-steps方法。表2表明Interactive LLM在與動(dòng)物交互的任務(wù)集上表現(xiàn)接近Plan4MC,而在另兩個(gè)需要更多規(guī)劃步驟的任務(wù)集上表現(xiàn)不佳。Zero-shot的方法在所有任務(wù)上均表現(xiàn)較差。使用一半步數(shù)的方法相比Plan4MC成功率下降不多,表面Plan4MC能用較少的步數(shù)高效完成任務(wù)。 4、總結(jié)作者提出了 Plan4MC,使用強(qiáng)化學(xué)習(xí)和規(guī)劃解決 Minecraft 中的多任務(wù)。為解決探索困難和樣本效率的問題,作者使用內(nèi)在獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)訓(xùn)練基本技能,利用大語言模型構(gòu)建技能圖進(jìn)行任務(wù)規(guī)劃。作者在大量困難 Minecraft 任務(wù)上驗(yàn)證了 Plan4MC 相較包括 ChatGPT 等的各種基線方法的優(yōu)勢(shì)。 結(jié)束語:強(qiáng)化學(xué)習(xí)技能 + 大語言模型 + 任務(wù)規(guī)劃有可能實(shí)現(xiàn) Daniel Kahneman 所描述的 System1/2 人類決策模型。

?THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道:content@jiqizhixin.com

關(guān)鍵詞: