第72章 生成式对抗网络(求追读)(第3页)

 他们都对江铭的研究很感兴趣,短短两个月内解决了机器翻译问题,又提出策略梯度的研究天才,竟然也会有被难住的时候?

 两位教授眼中闪过一丝兴奋,他们最喜欢有挑战性的话题了。

 “好吧,哎,其实也没什么,是我想训练出一个超越人类的围棋程序。”,江铭叹了口气:“就还是用策略梯度算法来让围棋自我对弈,不过,我昨天试了一下,这个训练实在太难收敛了。”

 众人眼睛一亮,这个课题有意思!

 围棋一直被誉为人类智力的最高峰,其复杂程度远远超过其他智力游戏的总和,如果真能挑战成功,将是一个里程碑式的大事件。

 “嗯...这的确难以收敛。”,那位男教授率先道:“我研究过你的策略梯度算法,这个通过试错和探索来收集数据实际上是一种蒙特卡洛法,也就是需要完整下完一整局才算作收集一次有效数据。”

 “但是围棋的每一步,都有可能让最终的胜负翻转。这样上百步叠加在一起,方差几乎是个天文数字,当然难以收敛了。”,他咋舌感叹,这个难题的确棘手。

 “那有没有可能,先学习人类的下法啊,或者让人类来指导训练?”,瑞秋问道。

 “感觉似乎也不太走得通,人类还是太渺小了,人类的下法可能是误导也说不定呢?况且让人类指导,人类也判断不出一步棋的好坏吧。”,另一位女教师反驳道。

 江铭眉头微皱,听着面前三人的对话,突然感觉有了一点点的灵感。

 人类指导不了,那机器呢?

 江铭冥冥之中有了一点知觉,但灵感就像在空气浮动的杨絮,想要抓却又扰动了气流,怎么都抓不住。

 就差一点点了!

 不行,他感到灵感快要消失了,于是立刻在心中默念:“系统,我要使用顿悟因子。”

 呼!一股热流涌入了他的大脑,江铭终于在最后一刻把灵感化成了领悟。

 “我...我好像明白了!”