AlphaZero“通用棋类AI”问世:8小时学习完爆AlphaGo

  • 时间:
  • 浏览:4
  • 来源:湖北快3_湖北快3网投平台_湖北快3投注平台_湖北快3娱乐平台

日前,DeepMind团队发表了最新论文,提出了全新的强化学习算法AlphaZero,它是有一种还不用 从零时候开始 英语 ,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法,堪称“通用棋类AI”。

据了解,AlphaZero算法还不用 8个小时训练击败李世石版本AlphaGo;12小时训练击败世界顶级的国际象棋线程池Stockfish;14小时训练击败世界顶级将棋线程池Elmo。这是DeepMind团队继AlphaGo Zero的研究问世前一天,带给大家的又一全新算法,它是“更通用的版本”。

此外,大家看完这次的AlphaZero与AlphaGo Zero有几点不同,首先AlphaGo Zero是在假设结果为赢/输二元的状态下,对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果纳入考虑,对结果进行估计和优化。其次,AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强,而AlphaZero不用。第三,AlphaZero只维护单一的有有另2个 神经网络,你这个 神经网络不断更新,而全部全部都是停留迭代,四,AlphaZero中,所有对弈都重复使用相同的超参数,以后不用进行针对特定有一种游戏的调整。

论文地址:https://arxiv.org/pdf/1712.01815.pdf