「AlphaGo Zero」自學能力強 完勝前輩「AlphaGo」

谷歌(Google)旗下的公司DeepMind,打造出人工智慧軟體「AlphaGo」,在學習了人類經驗以後,稱霸了人類圍棋界。而新一代「AlphaGo Zero」的能力更是驚人!可以徹底擺脫人類知識,在沒有任何的「人類經驗」下迅速自學,同時還以100比零的超優秀戰績,擊敗了曾在人類圍棋界打遍無敵手的前輩──「AlphaGo」。

據外媒報導,「AlphaGo」是在大量學習人類棋譜後,才慢慢成了圍棋界的「霸主」!然而,DeepMind在最新一期的國際學術期刊「自然」(Nature)上發表研究論文指出,新一代「AlphaGo Zero」可以從完全「空白」的情況下學習,同時還能在毫無任何人類知識、經驗輸入的條件下,迅速自學圍棋,並以100比零的戰績擊敗前輩「AlphaGo」。

研究論文顯示,「AlphaGo Zero」以數百萬局自我對弈的訓練之後,「自己」發現到人類花了數千年以上的時間所得到的圍棋規則經驗;「AlphaGo Zero」還因此建立了新的對戰策略,在無需人類指導的情況下,為這東方古老遊戲,找到了新的思維及見解。據了解,「AlphaGo Zero」不僅可以自己成為自己的「老師」,同時,自我學習及訓練的時間更為縮短,其關鍵是因為使用了強化學習(reinforcement learning)的演算方法。

一直以來,想成為頂尖的圍棋高手,可是要歷經數十年的努力學習及訓練。然而,該論文卻顯示了「AlphaGo Zero」僅僅利用3天的時間「自我學習」及訓練,3天後,「空白」的「AlphaGo Zero」就能在100局的比賽中,以100:0完勝的成績擊敗轟動一時的「AlphaGo」。而在40天「自修」後,「AlphaGo Zero」同樣完勝擊敗世界棋王柯潔的「AlphaGo Master」版本。

就有電腦科學專家表示,以圍棋盤面上的各種變化來看,人類若是觸及其中百萬分之一,「AlphaGo Zero」可能已經觸及了其中百萬分之五。論文作者也認為,若是類似的技術可以應用在其他方面的問題,這樣的「突破」將有可能為這個社會帶來更積極的影響。【記者  鄒弘整理報導】