第74章 训练开始(第2页)

 江铭接过纸条,礼貌感谢了一下文森特教授。

 他还真有点缺计算资源,昨天的训练让他意识到,围棋程序的训练的确需要大量计算资源。

 尤其他这次设计的算法框架,江铭直接命名为行动者-评论家框架,虽然提高了训练效率,但是对计算资源的需求可一点不少。

 甚至由于两个网络中的数值传递,涉及了更多的地址移动操作,对cpu的性能要求更高。

 “围棋么...”,钱峰思索片刻,道:“最近樱花国好像就有一个围棋的世界大赛吧,我去联系一下,也许能安排一个人机大战也说不定。”

 他作为nips的主编,还是在社会各界人脉广泛,自作主张地帮江铭的围棋程序找起了对手。

 几个信息学顶尖教授的能量可想而知,很快便安排好了这一切。

 他们简直比江铭还要对这个算法有信心,都迫不及待地想在这次的开会的短短一周内就能看到结果。

 江铭无奈,一番操作连上了麻省的计算服务器,开始了训练...

 ...

 接下的半天里,江铭穿梭于主会场和几个研讨会分会场。

 时间表上但凡他感兴趣的工作,都会去会场听一听报告,许多研究员的创新点子让江铭感到很受启发。

 当然,即使是听报告,江铭也会每隔一个小时就打开笔记本,查看一下围棋程序的训练情况。

 在他加入了全新的算法框架之后,仅仅训练了三个小时,就看到指标有了变化!

 虽然由于使用的是自我对弈方式的原因,胜率仍然在50%上下浮动,但是他注意到评论家网络的方差正在逐渐降低,而行动者网络的动作分布也开始区域集中。

 这是一个非常好的趋势!

 评论家网络的方差变低,意味着它对于每一步棋的判断正变得越来越准,而行动者网络动作分布的集中,则说明这个模型在下棋时不

再是随机乱下了。

 它现在至少是在几个可能的,比较好的落子位置中纠结。

 江铭调出程序自我对弈的棋谱,仔细检查。