國際象棋和圍棋曾是孩子的游戲。現(xiàn)在AI正在贏得奪旗游戲。這些技能最終會轉(zhuǎn)化到現(xiàn)實世界嗎?
孩子們會在夏季營地開放空間玩奪旗這個游戲;同時,爭奪旗子這個游戲畫面也是Quake III和Overwatch等熱門游戲的一部分。
無論是哪種情況,這都是一項團(tuán)隊運動。每一方都守衛(wèi)一面旗幟,同時還要計劃如何抓住對方的旗幟并將其帶回到自己的大本營。贏得比賽需要良好的老式團(tuán)隊合作以及協(xié)調(diào)防守和攻擊之間的平衡。
換句話說,奪得旗幟需要一套看起來似乎只有人工才能操作的技能。但倫敦一家人工智能實驗室的研究人員表明,機(jī)器也可以攻克這項游戲,至少在虛擬世界中是可以的。
在五月三十日發(fā)表在《科學(xué)》雜志上的一篇論文中,研究人員稱他們在Quake III游戲的奪旗環(huán)節(jié)中設(shè)計了自動“代理人”,這些“代理人”表現(xiàn)的就跟人類在操作一樣。這些代理人能夠自行組隊來對抗人類玩家,也可以與他們并肩作戰(zhàn),根據(jù)情況相應(yīng)地調(diào)整自己的行為。
隸屬于Alphabet的DeepMind實驗室的研究員Wojciech Czarnecki表示:“這些代理人可以適應(yīng)具有任意技能的隊友。”
通過數(shù)千小時的游戲,代理人學(xué)會了非常特殊的技能,比如在隊友即將獲得旗幟的情況下極速跑去攻擊對手的大本營。正如人類玩家所知,當(dāng)對方旗幟被奪得并帶到自己的大本營時,對家的大本營中會出現(xiàn)一面可以搶奪的新旗。
DeepMind的項目是努力構(gòu)建人工智能應(yīng)用于復(fù)雜三維動畫游戲的一部分,這些三維動畫游戲包括Quake III、Dota 2和星際爭霸II。許多研究人員認(rèn)為:虛擬領(lǐng)域的成功最終將提升現(xiàn)實世界中人工智能的應(yīng)用能力。
例如,這些技能可以使倉庫機(jī)器人受益——當(dāng)他們分組工作將貨物從一個地方移動到另一個地方時,或者幫助自動駕駛汽車在交通擁堵時集中導(dǎo)航。位于舊金山的OpenAI實驗室有著類似研究項目,項目負(fù)責(zé)人Greg Brockman說道:“游戲一直是AI的基準(zhǔn)。如果不能攻克游戲難題,就不能指望AI解決其他問題。”
直到最近,在像Quake III這樣的游戲中構(gòu)建一個可以匹配人類玩家的系統(tǒng)才成為可能,以前看來似乎是不可能的。但是在過去的幾年里,DeepMind、OpenAI以及其他實驗室取得了重大進(jìn)展,這要歸功于一種稱為“強(qiáng)化學(xué)習(xí)”的數(shù)學(xué)技術(shù),這種技術(shù)使得機(jī)器能通過極端的反復(fù)試驗和試錯來學(xué)習(xí)。
通過一遍又一遍地玩游戲,這些自動代理人可以了解哪些策略能成功,哪些策略不成功。如果代理人在隊友即將奪旗的情況下通過向?qū)κ值拇蟊緺I移動而不斷贏得更多積分,則會將這種策略添加到他的游戲策略中。
在2016年,同樣使用這項基礎(chǔ)技術(shù),DeepMind研究人員構(gòu)建了使得AlphaGo在東方圍棋游戲中擊敗世界頂級玩家的系統(tǒng)。鑒于圍棋游戲的巨大復(fù)雜性,許多專家曾認(rèn)為這種突破不會這么早實現(xiàn),而是起碼將在未來十年內(nèi)完成。
尤其是當(dāng)涉及到隊友之間的協(xié)調(diào)時,第一人稱視頻游戲的復(fù)雜程度是呈指數(shù)級的增長的。DeepMind的代理人通過大約45萬輪游戲來學(xué)習(xí)如何奪得旗幟,在數(shù)周的訓(xùn)練中便積累了需要大約4年的游戲經(jīng)驗。起初,代理人慘遭失敗。但通過學(xué)習(xí)突襲對手大本營時應(yīng)該如何追隨隊友,他們逐漸了解到了這個游戲的精髓。
在完成這個項目以后,DeepMind的研究人員還設(shè)計了一個可以擊敗星際爭霸II專業(yè)玩家的系統(tǒng)。在OpenAI實驗室,研究人員構(gòu)建了一個掌握Dota 2的系統(tǒng),Dota 2這個游戲就像奪得旗幟的加強(qiáng)版本。今年四月,由五名代理人組成的團(tuán)隊擊敗了由五名世界上最優(yōu)秀的人類玩家組成的玩家團(tuán)隊。
去年,人稱Blitz的專業(yè)Dota 2玩家兼評論員William Lee與代理人進(jìn)行過一對一比賽,當(dāng)時的版本不允許團(tuán)隊?wèi)?zhàn);在當(dāng)時,William對此表示興趣平平。但是當(dāng)代理人繼續(xù)學(xué)習(xí)比賽并且參加團(tuán)隊?wèi)?zhàn)時,他對代理人的技巧感到震驚。
他說:“我曾經(jīng)以為機(jī)器不可能打五對五的,更不用說贏了。我絕對被征服了。”
這種技術(shù)在游戲中的應(yīng)用令人印象深刻,但許多人工智能專家質(zhì)疑它是否最終能轉(zhuǎn)化為解決現(xiàn)實問題。專注于人工智能的喬治亞理工學(xué)院計算機(jī)教授Mark Riedl質(zhì)疑到:DeepMind的代理人事實上并沒有真正在合作。他們只是回應(yīng)游戲中發(fā)生的事情,而不是像人類玩家那樣互相交換信息。(甚至渺小如螞蟻也可以通過交換化學(xué)信號進(jìn)行協(xié)作。)
雖然結(jié)果看起來像是協(xié)作,但這是因為代理人作為個體本身是可以完全理解游戲中發(fā)生的事情。
負(fù)責(zé)該項目的另一位DeepMind研究員Max Jaderberg則表示:“如何定義團(tuán)隊合作并不是我想要解決的問題。但是一名代理人在對手的大本營坐等旗子出現(xiàn)這種情況,只有在依靠隊友時才有可能出現(xiàn)。”
像這樣的游戲并不像現(xiàn)實世界那么復(fù)雜。Riedl博士說到:“3D環(huán)境旨在使導(dǎo)航變得容易。Quake的戰(zhàn)略與協(xié)調(diào)很簡單。”
強(qiáng)化學(xué)習(xí)非常適合這類游戲。在視頻游戲中,很容易識別成功的指標(biāo):獲得更多的得分。但在現(xiàn)實世界中,沒有人能保持得分。研究人員必須以其他方式定義成功。
這一點是可以實現(xiàn)的,至少在簡單的任務(wù)中。OpenAI的研究人員訓(xùn)練了一個機(jī)器人手像孩子一樣來操縱字母塊——告訴它給你看字母A,它就會拿字母A給你看。
在谷歌機(jī)器人實驗室,研究人員已經(jīng)證明機(jī)器可以學(xué)習(xí)拾取隨機(jī)物品,例如乒乓球、塑料香蕉,并將它們?nèi)拥綆子⒊咄獾睦淅铩_@種技術(shù)或許在將來可以應(yīng)用到亞馬遜、聯(lián)邦快遞和其他公司運營的大型倉庫和配送中心。目前,這些工作還是由人類工作者來完成的。
如DeepMind和OpenAI這樣的實驗室要想解決更大的問題,他們可能開始需要大量的計算能力。因為OpenAI的系統(tǒng)在幾個月內(nèi)通過完成需要多年時間才能完成的45萬多輪游戲?qū)W會了玩Dota,這依賴于成千上萬的計算機(jī)芯片。Brockman表示光買這些芯片就讓實驗室花費了數(shù)百萬美元。
卡內(nèi)基梅隆大學(xué)研究員Devendra Chaplot表示,由各種硅谷大拿,其中包括Khosla Ventures和科技億萬富翁Reid Hoffman在內(nèi)資助的DeepMind和OpenAI可以負(fù)擔(dān)得起這些計算能力。但是,學(xué)術(shù)實驗室和其他小型企業(yè)不能。對某些人來說,他們擔(dān)心的是那些資金充足的實驗室將主宰人工智能的未來。
但即使是大型實驗室也可能沒有將這些技術(shù)轉(zhuǎn)移到現(xiàn)實世界的復(fù)雜性所需的計算能力,因為這可能需要更厲害的人工智能形式——人工智能需要學(xué)得更快。雖然機(jī)器現(xiàn)在可以在虛擬世界中贏得奪旗游戲,但讓他們在夏令營中開放的場地上贏得游戲仍然無望,并且這將持續(xù)相當(dāng)長一段時間。
關(guān)鍵詞: