人工智能一直是人類從進入資訊時代后最熱門的討論題,兩年前在谷歌旗下人工智能研究企業Deepmind研發的圍棋AI,在陸續戰勝李世石和柯潔兩位頂級職業圍棋選手后,帶起了一輪圍棋AI的研究熱潮,騰訊等科技企業也陸續折騰了不少人機或機器對戰賽事,那么象棋之類的AI出現只是時間問題了。
1月24日,Deepmind在官網了Youtube發表了旗下最新科技AlphaStar,并且在知名電競游戲《星際爭霸2》中以兩個5:0戰勝了兩位世界排名前50的職業選手——液體[Team Liquid]的MaNa和TLO,但在隨后的網上直播中人類扳回一城,而AlphaStar將在2月15日挑戰WSC去年的總冠軍Serral。
對于人類來說,是游戲復雜還是下棋復雜?這兩者看起來完全不是一個時代的休閑娛樂競技項目。眾所周知星際玩家不需要視力,由于游戲存在戰爭迷霧,無法完全看到對方的爆兵和行動,而且存在多變的規則、地形等因素,還需要實時操作和隨機應變,而棋盤戰局則是透明公開的回合制,允許思考。主要挑戰有博弈、不完整資訊、長期規劃、實時和巨大的行動空間,如果比類為棋盤,那么《星際爭霸2》的可行動數為10的26次方級別。
對于打電動的AI,不少院校已經在雅達利、超級馬里奧、雷神之錘3、Dota2等游戲上有研究成果,但多數還處于bot級別,和普通玩家斗智斗勇的階段。AlphaStar建立的目標就和AlphaGo類似,采用神經網路和深度學習技術使AI最終能挑戰職業選手,其深度學習模式采用原始游戲數據輸入,采用監督學習和強化學習模式。
另一方面要解決的是命令輸入,畢竟游戲的實時性無法像圍棋那樣通過下命令進行行動,而在機器觀察和行動上,Deepmind采用的是和暴雪聯合開發的開源機器操作接口PySC2,而觀察、思考和行動被分為多個助手[Agent]模塊。通過初步的監督學習,AlphaStar就戰勝了游戲中的精英AI,達到玩家天梯中的黃金級別。
而在往后的深度學習中,Deepmind采用了谷歌最新的人工智能處理器TPU v3,每個Agent單元配備了16個TPU單元,在14天的深度學習中,每個Agent都灌輸了200年時長的游戲回放進行訓練。而最終會把有效的策略通過Nash分配技術集中在一臺電腦上,也就意味著最終一個桌面PC級別的GPU就能和人類進行對抗。
當然,從競技角度來看,這次人機對戰AI贏下的10局也并不是完全公平,因為AI獲得的“圖像”是整個游戲界面的原始輸入[Raw Input]而不是顯示器輸出,AlphaStar不需要自己切換小地圖進行戰術分析和行動。雖然公平平等之類不是AI要解決的課題,不過AlphaStar相應也進行了圖像識別的深度學習訓練,其被稱為Camera Agent,而直播的那一局正是因為AI第一次使用圖像識別的原始版本而且未經過詳細測試,因為視力不佳輸給了職業選手,當然即使使用原始輸入,也比星際2自帶的開圖AI公平不少,而且經過訓練后,圖像識別和原始界面兩種方式的競技強度相差不大。
由于電競在傳統媒體上不一定會有圍棋的熱度,但作為Deepmind的技術成果展示,AlphaStar確實相較于AlphaGo又有了進步,無論是TPU硬體、深度學習時間等方面,它使用的硬體更少,學習速度也有了很大提升,對于推進人工智能技術和產業的進步也提供了指引。Deepmind團隊同期還有兩個大項目:AlphaZero[國際象棋和日本將棋AI]以及通過基因序列預測蛋白質3D結構的人工智能AlphaFold。
當然,這些東西或許離多數人的現實生活還比較遙遠。在去年的12月5日,谷歌旗下的WayMo無人駕駛計程車開始在美國的鳳凰城投入運營,給無人駕駛的商用和民用領域開啟了新的篇章,對于某些不想買車的居民來說毫無疑問是非常期待的。
那是不是時候研討AI取代人類這種杞人憂天了呢?從Deepmind的發展路線規劃圖來看,AlphaGo能像人類一樣讀懂棋譜至少也要10年以后,而有能力勝任人類所有機械智力工作的AI,至少也要40年后才能出現,而完全勝任人類工作的AI則是一個世紀之后,那么取代的問題就不用現在活著的人擔心了,而如果有幸活到那個時候,還能有球型關節女仆給養老伺候,豈不美哉。