Paper List

期刊: ArXiv Preprint
发布日期: 2018-02-09
Bio-inspired RoboticsReinforcement Learning

通过虚拟鱼强化学习控制鱼群

Faculty of Engineering, Kyoto University | Graduate School of Information Science, University of Hyogo

Yusuke Nishii, Hiroaki Kawashima
Figure
Figure
Figure
Figure
Figure

30秒速读

IN SHORT: 证明了无模型强化学习可以利用虚拟视觉刺激有效引导鱼群,克服了缺乏精确行为模型的问题。

核心创新

  • Methodology First application of model-free Q-learning to control collective animal behavior via virtual agents, bypassing the need for complex fish school models.
  • Methodology Introduces a practical camera-display interaction system with coordinate mapping, enabling real-time state observation and virtual stimulus presentation.
  • Biology Leverages fundamental biological reactions (attraction, alignment, optomotor response) for control, validated with Rummy-nose tetra (Hemigrammus bleheri).

主要结论

  • 模拟结果证实,即使鱼有50%的概率忽略虚拟刺激,强化学习也能学习到有效的策略(奖励接近+1),证明了其对间歇性反应的鲁棒性。
  • 现实世界实验表明,学习到的策略显著优于无刺激基线(p < 0.01)和启发式“停留在边缘”策略,成功将鱼群质心引导至目标边缘。
  • 该研究成功将模拟训练的Q函数迁移到真实环境,减少了所需学习时间,并验证了强化学习方法的可迁移性。
研究空白: 现有影响鱼群的方法依赖于物理机器人(存在耐久性/控制问题)或需要精确的集体行为预测模型,而后者目前尚不可用。这在理论模型与实用、自适应控制之间造成了空白。

摘要: 本研究探索了一种利用强化学习训练的虚拟鱼来引导和控制鱼群的方法。我们使用屏幕上显示的2D虚拟鱼来克服物理机器人代理固有的耐久性和运动限制等技术挑战。为了解决缺乏真实鱼详细行为模型的问题,我们采用了无模型强化学习方法。首先,模拟结果表明,即使模拟的真实鱼经常忽略虚拟刺激,强化学习也能获得有效的运动策略。其次,活鱼的现实世界实验证实,学习到的策略成功地将鱼群引导至指定的目标方向。统计分析表明,所提出的方法显著优于基线条件,包括无刺激和启发式“停留在边缘”策略。这项研究为如何通过人工代理利用强化学习影响集体动物行为提供了早期示范。