教授虚拟龙特技飞行

如今，计算机图形出现在所有流行类型的视觉内容中，从 YouTube 视频到故事片。但计算 3D 模型的复杂运动通常需要大量的时间和精力。在这种情况下，神经网络可以为视觉效果创作者提供帮助。我们谈论首尔国立大学科学家的工作，他们能够使用自我调节机器学习模型来教授飞行的虚拟龙特技飞行。

在电影和动画电影中，飞行生物经常表演高度动态的空中特技。它们可以让您吸引观众并让他们保持悬念 – 只需记住卡通片《驯龙高手》即可。基本特技飞行技能包括绕三个主轴（俯仰、偏航、滚转）快速旋转以及各种序列的机动。

以四轴飞行器为例的俯仰（pitch）、偏航（yaw）和滚动（roll）

基于直接物理方法对此类机动进行建模非常困难，并且需要极其熟练的控制。通常，特技是使用参考动作创建的，例如现场演员或真实物体的动作。在计算机处理阶段，它们的动作被转换成新生物的行为——例如龙。而且，如果所需的对象与真实的有很大差异，结果可能不会很好。此外，无论是龙还是鸟，这种生物在飞行的大部分时间里都保持着不稳定的平衡。要打破一切，一个很小的干扰就足够了。连续进行的演习尤其困难。

不久前，强化学习（RL）显示出创建基于物理的动画的良好潜力。强化学习会考虑角色的当前状态，并确定应达到最大奖励量的动作顺序。对执行某些操作给予奖励是用户影响飞行控制、模型效率和训练进度的主要方式（这里的奖励是指对所需目标的简要描述）。同时，神经网络对运动的本质没有预先存在的理解，需要很长时间从头开始学习来控制其“身体”，最终给出更真实的结果。

当飞行路径涉及很少的技巧时，强化学习可以做得很好。但如果虚拟模型有铰接机翼，那么机动必须更加极端。这给强化学习带来了问题。因此，首尔国立大学的研究团队引入了自我调节学习（SRL）与深度强化学习（DRL）相结合的新概念来解决特技飞行控制问题。

SRL的主要思想是让模型通过额外的自我调节来控制其学习。这显着提高了复杂的空中机动序列的效率，例如转弯、循环、急速起飞和下降的组合。

环境与学习

飞行生物的空气动力学取决于其翅膀和骨骼之间复杂的相互作用。在他们的研究中，科学家们使用了一个龙模型，该模型具有由硬骨制成的铰接框架和覆盖它们的薄“皮肤”。骨架由身体、两个翅膀和尾巴组装而成。躯干包括由关节连接的四个脊柱节段。翼由肱骨、尺骨和手掌组成，它们之间有铰链。机翼的形状具有空气动力学轮廓，可让您产生升力以确保飞行。

为了模拟该过程，创建了一个简单的图形用户界面，您可以在其中指定所需的飞行路径和特技飞行。龙在训练过程中跟踪这条轨迹，并试图达到最接近它的结果。视频中直观地展示了这个过程：

自我调节学习

自我调节学习允许模型通过自我监控来实现目标，这是一个生成、评估和学习的递归过程。在生成步骤中，模型创建多个替代路径。评估——将这些路径分为“好”和“坏”。在最后阶段，模型观察目标的实现程度并确认所选替代方案的成功或失败。

一个例子是不同身体能力的运动员试图掌握相同的技能。他们首先根据自己目前的能力制定个性化的锻炼计划，然后进行自我训练和评估。然而，每个运动员的计划和评估都会有所不同。 SRL 的一个关键概念是能够调整学习计划以实现最终目标，而无需教师或预先设计的课程的帮助。

美国消费者保护法。合乎道德地获取数据不仅可以保护企业免受法律后果，还可以培养潜在购买手机号码列表客户之间的信任和尊重。总之，购买手机号码列表代表了企业旨在加强营销举措的战略举措。通过实现直接、有针对性的沟通。

这个概念也适用于飞龙——如果它能够自我调节学习呢？这意味着该模型将能够在任何时间点控制轨迹的所有单独部分（子任务）以及与之相关的奖励，并评估其行为。添加强化学习将优化流程，并且模型将能够创建自己的训练周期。

自调节深度强化学习 (SR DRL)

在训练过程中，模型将最终目标分解为多个子任务，并为每个子任务分配奖励。如果模型绝对准确地完成所有子任务，没有任何偏差，则可以获得最高奖励金额。但是，如果用户指定的轨迹在物理上无法实现，或者技巧超出了龙的能力，则无法实现这些结果。在这种情况下，具有自我调节的模型将尝试通过生成新的子任务来在其能力范围内找到折衷方案，而没有自我调节的模型将继续毫无意义地尝试执行原始操作。这对于复杂的特技飞行非常重要。

模型装置

作者用 Python 实现了他们的算法。Dart（2012版）用于模拟刚体动力学， Tensorflow库（2015版）用于训练和评估深度神经网络。所有计算均在 Intel Xeon E5-2687W-v4 CPU 而不是 GPU 上执行，因为重点是动态模拟而不是神经网络加速。

下图显示了实验中使用的深度神经网络的架构。所有内部层均采用全连接 (FC)，维度为 32，采用指数线性单元 (ELU)。最终的全连接层的维度为 64，激活函数为线性（线性）。

这里 s = (s d , σ , s s )是深层自我调手机号码列表节系统的状态，由动态状态s d、进度参数 σ 和感觉状态s s组成。动态状态负责生成模拟龙的坐标q和速度q。感觉状态是遍历轨迹的一部分（子任务之一）。

动作a=(â,ã)由动态动作â和自我调节ã组成。动态动作产生扭矩来模拟移动飞行。自我调节修改子任务以控制进度、方向、位置和容差。

进度参数在学习中起着重要作用，因此它被赋予与动态和感觉状态相同的权重。动态行动和自我调节也是如此。

结果特技飞行

自调节 DRL 模型接受了不同复杂程度的特技飞行训练：从易于学习到复杂的极限特技（如图所示）。根据难度，任务分为初级、中级和专家级，每个级别都研究了行为控制。

空间轨迹。绿线是翅膀扑动的方向，灰色区域是偏差阈值。 (a) — 直线飞行，(b) — X 转弯（聋循环），(c) — Y 转弯（倾斜），(d) — XY 转弯，(e) — 双循环，(f ) – 图八，(g) – Z 形转弯（桶），(h) – 之字形，(i) – 无限循环，(j) – 组合转弯。
初始关卡（直线飞行、循环护理危机的解决方案：社会企业和影响力投资如何改变护理经济飞行、转弯）包括围绕一个轴的一次（或无）快速转弯。中等水平（XY 旋转、双环、八字形）- 在垂直轴上快速旋转一或两次。专家级（滚动、之字形、无限循环、组合转弯）-围绕所有轴进行多次转弯、悬停、俯冲和滚动的组合。初级、中级和专家级别的培训过程分别需要 3 至 7 小时、10 至 24 小时和 24 至 48 小时。

SRL可视化

该图的上半部分显示了自我调节的工作原理。给出沿轨迹的向量以供比较。绿色对应于理想的指定值，红色对应于训练结果获得的值。在直线上，自调整向量几乎与用户指定的向量相同（图中的前两对）。在弯曲区域中，您可以看到红色矢量向一侧倾斜 – 模型能够调整滚动角度以执行给定的操作。该图的下半部分显示了之字形技巧的自我调节。

互动飞行路径

用户可以独立设置轨迹，将它们从各个零件（动作）组装起来。下图显示了一个示例。颜色表示轨迹类型：橙色 – 左转，紫色 – 右转，红色 – 循环，蓝色 – 桶滚。

与其他型号的比较

为了评估其有效性，研究人员将他们的方法与没有自我调节学习的同一算法的两个版本进行了比较。第一个版本（基本）使用固定的旋转和平移值。默认设置迭代成功后进度参数增加的次数。在第二个版本（最接近）中，更新了进度参数，以便在每个时间点将轨迹上距离龙最近的点用作子任务。