第48章这策划也是恶鬼么（求追读）(第2页)

 

而每种模式，又分别有两到三种可选的后续走位和攻击方式。

这么一组合，Boss的攻击就显得变幻莫测了起来，只有像朱宇一样死上几百次，才能把Boss的行动盘的清清楚楚。

“哈哈，终于被我打过啦！小小嗜血领主不过如此啊！”，没想到朱宇一边解说一边打，反而思路更为清晰，一举通过了这个关卡。

江铭还在旁边思考着，默不作声。

他好像搞明白Boss行为策略的问题在哪里了！

问题的关键就在于，无论怎么设计，机器的策略是固定的。

虽然可以根据不同的情况，组合出不同的行为，但归根结底，还是固定的策略。

而玩家是可以不断学习总结的！

就像朱宇，他不断试错，总能摸清一些Boss的规律，甚至还能提炼出一些诸如躲过远程攻击后喝药，闪避后普攻的笼统策略来。

打得越多就会越了解，了解越多就会找到一些反制策略。

而如果Boss也和玩家一样能学习呢？

江铭再一次用略带愧疚的眼神看了一眼朱宇。

他想了一下，假如朱宇能学会躲过Boss一发穿云箭之后原地嗑血瓶，那Boss能不能学会射出一发穿云箭之后再接一发呢？

这样的话，就彻底把游戏打进未知领域了吧，人和神在战场上互相比拼谁最先破解对方的策略，想想就令人激动。

江铭马上回到自己桌前研究了起来。

如果要让Boss都能不断学习进步，其实还是策略梯度算法那一套，不过有一些要修改的部分。

首先不能像汽车巡航的时候那样，从零开始学习。

需要先得有一个基础的策略，然后再在和玩家的对战中学习。

其次是Boss的动作是从多个攻击方式和走位选择中选择一个来做，这意味着动作选择是离散的，而不像自适应控制算法那样输出一个连续值。

江铭仔细想了想，略微修改了一下智能体的神经网络。

在自适应控制中，为了探索不同的动作，真实的动作是从一个以神经网络的输出为均值的正态分布中采样得到的。

第48章 这策划也是恶鬼么（求追读）(第2页)