第145章 赌上一切的训练(第2页)
只要他在蓝星学术委员会成员上班之前这十个小时之内完成训练,同时提交申请,到时候到底谁先谁后又哪里说得清呢?
况且,江铭的算法很可能是做了简化操作甚至削减了参数量的,到时候同一时间做测试效果谁优谁劣一试便知。
米切尔的脸上再次浮现出希望的神情。
“江铭,真正的竞争现在才刚刚开始!”
众研究员只得听从米切尔的指示,开始了操作。
调出芯片统一管理程序,关闭最大频率限制,同时把水冷系统也调到了最大功率。
嗡!整栋建筑的电力都在超负荷运转着,芯片温度快速升温,有部分位置已经突破了100度!
抽水机被调到最高档位,大量的湖水被抽进水冷系统,仅一个循环就快速排出,甚至在冷却的过程中有来不及排出的冷却水直接在管道内蒸发。
水冷管道的安全阀门中不断喷出蒸汽以减轻内部压力,米切尔紧盯着屏幕中的各项指标,攥紧的拳头里全是汗水。
大屏幕里左侧是数据训练进度,正中间位置实时画出了标志着模型能力的loss曲线。
由于全部芯片超频运作的关系,训练进度以肉眼可见的速度进行着,仅仅不到十分钟的时间,就训练完成了1%。
按理说,中间的loss曲线早应该有下降的苗头出现了。
米切尔死死盯着屏幕,每一个循环结束后,这个曲线都会往前画一点点,然而他所期待的下降却迟迟没有出现。
曲线一上一下地不断震荡,似乎根本找不到方向。
这不可能!米切尔瞳孔微缩,这又不是那种需要探索的策略梯度算法,就是一个监督学习,怎么可能loss不下降!
这相当于给训练提前划好了路线,顺着走就好了,即使是最最简单的全连接神经网络,都是能保证loss下降到收敛的。
他们所训练的这个模型结构,不但是江铭提出来的,而且米切尔还自己亲自确认过全部的代码逻辑,根本不可能出现问题。
那问题到底出在哪里!他狠狠抓了抓自己的头发,怎么都想不明白。