第145章 赌上一切的训练(第2页)

 只要他在蓝星学术委员会成员上班之前这十个小时之内完成训练,同时提交申请,到时候到底谁先谁后又哪里说得清呢? 

 况且,江铭的算法很可能是做了简化操作甚至削减了参数量的,到时候同一时间做测试效果谁优谁劣一试便知。 

 米切尔的脸上再次浮现出希望的神情。 

 “江铭,真正的竞争现在才刚刚开始!” 

 众研究员只得听从米切尔的指示,开始了操作。 

 调出芯片统一管理程序,关闭最大频率限制,同时把水冷系统也调到了最大功率。 

 嗡!整栋建筑的电力都在超负荷运转着,芯片温度快速升温,有部分位置已经突破了100度! 

 抽水机被调到最高档位,大量的湖水被抽进水冷系统,仅一个循环就快速排出,甚至在冷却的过程中有来不及排出的冷却水直接在管道内蒸发。 

 水冷管道的安全阀门中不断喷出蒸汽以减轻内部压力,米切尔紧盯着屏幕中的各项指标,攥紧的拳头里全是汗水。 

 大屏幕里左侧是数据训练进度,正中间位置实时画出了标志着模型能力的loss曲线。 

 由于全部芯片超频运作的关系,训练进度以肉眼可见的速度进行着,仅仅不到十分钟的时间,就训练完成了1%。 

 按理说,中间的loss曲线早应该有下降的苗头出现了。 

 米切尔死死盯着屏幕,每一个循环结束后,这个曲线都会往前画一点点,然而他所期待的下降却迟迟没有出现。 

 曲线一上一下地不断震荡,似乎根本找不到方向。 

 这不可能!米切尔瞳孔微缩,这又不是那种需要探索的策略梯度算法,就是一个监督学习,怎么可能loss不下降! 

 这相当于给训练提前划好了路线,顺着走就好了,即使是最最简单的全连接神经网络,都是能保证loss下降到收敛的。 

 他们所训练的这个模型结构,不但是江铭提出来的,而且米切尔还自己亲自确认过全部的代码逻辑,根本不可能出现问题。 

 那问题到底出在哪里!他狠狠抓了抓自己的头发,怎么都想不明白。