Google DeepMind抛弃传统的搜索方法,使用Transformer模型,训练了一个AI模型来下象棋

Google DeepMind抛弃传统的搜索方法,使用Transformer模型,训练了一个AI模型来下象棋

该模型能够达到国际象棋大师级别的水平。甚至表现超过了AlphaZero。

这说明Transformer模型,不仅能处理语言任务,还能够在复杂的决策和策略游戏中学习和模拟高级人类智能。

该方法同时显著减少了计算需求。

研究背景:

在国际象棋AI的发展历史中,传统的方法通常依赖于搜索算法(比如alpha-beta剪枝)来预测和评估可能的移动,从而选择最佳的一步。——即考虑棋盘上所有可能的走法和结果——来决定下一步怎么走。

这种方法虽然可以工作,但需要大量的计算资源。

AlphaZero是由DeepMind开发的一种高级AI,它通过自我对弈学习棋类游戏的策略,并在国际象棋、围棋和日本将棋中取得了超越人类的表现。AlphaZero使用了一种叫做蒙特卡洛树搜索(MCTS)的算法来预测和评估可能的走法。

研究方法:

他们首先从网上搜集了1000万局棋赛的数据,然后用一个非常强大的国际象棋程序(Stockfish 16)来分析这些棋局,为每一个棋盘的每一步棋提供一个评分。这样就得到了大约150亿个数据点,用来训练他们的AI模型。

通过使用大型的Transformer模型和大量的国际象棋游戏数据进行训练,AI能够直接学习棋局中的模式和策略,而无需进行复杂的棋局搜索。

结果非常令人印象深刻:这个AI模型能够达到接近国际象棋大师级别的水平,而且在不使用任何搜索算法的情况下,还能解决复杂的棋局问题。

该模型在性能上甚至超越了AlphaZero的策略和价值网络(无MCTS)以及GPT-3.5-turbo-instruct。

(在国际象棋AI中,策略和价值判断密切配合,共同指导AI做出最佳决策。策略告诉AI它可以做什么,而价值判断则告诉AI哪些行动可能导致胜利。通过这两个组件,AI能够在没有人类直接指导的情况下,自主学习和提高自己的棋艺。)

这意味着AI可以仅通过观察当前棋盘的状态就做出高水平的决策,从而在与人类玩家的对弈中达到大师级别的表现。

这不仅是国际象棋AI领域的一个重大进步,也为使用AI解决其他复杂任务提供了新的可能性。

这项研究的意义:

1、技术创新:通过使用深度学习技术而不是传统的搜索算法来达到国际象棋大师级水平,这项研究展示了人工智能领域的一种重要技术进步。它证明了深度学习模型,特别是Transformer模型,能够在复杂的决策和策略游戏中学习和模拟高级人类智能。

2、计算效率:传统的国际象棋AI依赖于大规模的搜索树和复杂的启发式评估,这在计算上非常昂贵。这项研究通过直接从大量数据中学习决策过程,显著减少了计算需求,展示了一种更高效的方式来构建高水平的游戏AI。

3、AI泛化能力:这项研究不仅仅是关于国际象棋,它还展示了深度学习模型在没有专门设计的规则或搜索算法支持下,通过学习大量示例来泛化和解决复杂任务的能力。这为其他类型的游戏和决策制定任务提供了新的思路。

4、开拓新的应用领域:这项研究表明,类似的方法可以应用于其他需要复杂策略和决策的领域,比如自动驾驶、金融市场分析、复杂系统管理等。通过学习大量的历史数据,AI可以在这些领域内做出更加精准和高效的决策。

5、提升AI的理解和创造能力:通过在没有预定义搜索策略的情况下训练AI达到高水平的表现,这项研究为AI的自主学习和理解复杂系统提供了新的范例,同时也推动了AI在创造性任务上的应用,如生成艺术、音乐、文学作品等。

下棋体验地址:https://lichess.org

论文地址:

https://arxiv.org/pdf/2402.04494.pdf

本文地址:https://www.163264.com/6512

(0)
上一篇 2024年2月5日
下一篇 2024年2月10日