《星際爭霸2》將成人工智能學習研究對象

年初,Google的阿爾法狗(AlphaGo)震驚瞭全世界, 關於人工智能的討論也來到瞭頂峰,“擊敗最優秀的人類棋手”,這個充滿瞭傳奇色彩的事件其實讓很多人高估瞭人工智能的威力。在那之後,就有很多消息稱,阿爾法狗接下來要挑戰《星際爭霸2》,人工智能戰勝職業選手指日可待。

今年3月,很多中國媒體更是報道,在WCS中國站決賽上,暴雪娛樂制作總監Tim Morten親自確認,AlphaGo確認將挑戰《星際爭霸2》。

這個新聞有兩個疑點:第一,幾乎沒有國外媒體以“AlphaGo挑戰《星際爭霸2》”為標題進行報道;第二,AlphaGo的名字也顯示瞭,這隻是DeepMind為圍棋項目(英文:Go)專門訓練的人工智能項目,如果挑戰星際,應該不會是這個名字。更準確的是當時《財富》的報道:DeepMind的CEO,Demis Hassabis表示,《星際爭霸》是一個考慮中的有趣的挑戰。

9

現在,DeepMind和星際的“緋聞”終於可以落實瞭。DeepMind的工程師Oriol Vinyals在公司博客宣佈,暴雪將和DeepMind展開合作,讓《星際爭霸2》成為人工智能和機器學習的研究環境,並在明年第一季度將這個環境開放給所有的人工智能研究者。也就是說,即使是DeepMind的人工智能,也剛開始學習《星際爭霸2》。

Oriol Vinyals少年時期曾是西班牙的頂級《星際爭霸》玩傢,他坦誠,“要打敗人類職業選手,我們還有很長的路要走。”

和回合制的圍棋不同,《星際爭霸》是即時戰略類遊戲,遊戲中,玩傢需要從三個種族之中選擇一個進行遊戲,而每個種族都有不同的優缺點。針對不同的情況快速反應,同時有對戰局的長期規劃,這對人工智能程序來說是個非常艱巨的挑戰。

在和李世石對弈時,AlphaGo借鑒瞭蒙特卡洛樹搜索算法,評估下一步的可能最優解(可以排除一些對自己不那麼有利的可能),以減少搜索深度。即便如此,擁有超強計算能力的AlphaGo落子前,還是需要很長的思考時間。

另外,和圍棋不同,在《星際爭霸》中,人工智能能獲取的對手的信息是有限的(比如遊戲中未探索地區的戰爭迷霧,其中的情況對手是看不到的)。

你可能想到瞭《星際爭霸》中自帶的AI,也就是電腦玩傢。它的工作機制其實和現在的人工智能完全不同,因為遊戲裡的AI 是直接從遊戲代碼中獲取信息的,而且,它可以同時對所有單位下達指令,即使有些單位不在屏幕中。和人類玩傢相比,它其實是在作弊。

DeepMind和暴雪的目標是訓練出遵守規則,同時可以和人類玩傢一較高下的AI系統。

所以,DeepMind將和暴雪合作改進遊戲環境,新的遊戲界面將《星際爭霸2》的遊戲畫面簡化成基本的視覺圖形(如下圖),以供機器學習系統更好地學習,當然,這也就意味著,人工智能系統是以視覺而不是直接讀取遊戲數據為基礎進行決策的,這和人類玩傢完全一樣。

10

另外,暴雪還會提供遊戲回放,以供人工智能系統學習。

暴雪和DeepMind 都明白,讓人工智能擊敗頂級的職業電競玩傢還非常遙遠,不過就像AlphaGo 在很多人都不看好的情況下完勝李世石,這一天很可能會比大傢想象中的早來一些。當然,DeepMind的終極目標是解決現實生活中的問題,而相比圍棋,《星際爭霸2》是一個和現實世界更接近的環境。

from:PingWest中文網

Comments are closed.