近日,bwin必赢杨晓飞副教授“自主智能无人系统”团队在未来混合交通体系下的无人艇智能航行和安全避碰研究方向取得新进展。团队研究成果“A Balanced Collision Avoidance Algorithm for USVs in Complex Environment: A Deep Reinforcement Learning Approach”和“Design and Field Test of Collision Avoidance Method With Prediction for USVs: A Deep Deterministic Policy Gradient Approach”接连被人工智能和智能交通领域的国际顶级期刊《IEEE Internet of Things Journal》和《IEEE Transactions on Intelligent Transportation Systems》发表,均为中科院一区期刊。两篇论文的第一作者均为bwin必赢2022级硕士研究生娄猛猛同学,杨晓飞副教授为论文唯一通讯作者,bwin必赢均为第一完成单位,bwin必赢2022级硕士研究生胡家宝同学,bwin必赢朱志宇教授、安徽工业大学沈浩教授、南京理工大学向峥嵘教授和美国南卡罗来纳大学张斌教授为论文的共同作者。
随着智能技术的发展,未来有人和无人船舶将长期共存、形成混合交通体系。在该体系下,无人船舶如何与有人船舶和谐共存和按照人类的航行规则进行安全航行是值得研究和探讨的问题,因此,实时安全避碰对于复杂环境中的水面无人艇(USV)至关重要。针对传统方法难以保证控制决策安全性和实用性的平衡问题,团队提出了一种基于互补原理的两级激励奖励机制,并构建了基于深度强化学习的安全避碰算法框架。同时为了解决深度确定性策略梯度(DDPG)的稀疏奖励问题,参考动态窗口算法(DWA)的轨迹评价函数来构建主要奖励策略,并基于速度障碍(VO)构建次级激励奖励,以筛除潜在的碰撞风险。在提高训练效率方面,团队利用电子海图(EC)和Unity3D构建了一个沉浸式仿真平台,并利用其开展算法仿真和验证工作。此外,通过现场实验测试了算法在多种遭遇场景的有效性。
此外,针对当前基于DRL的无人艇避碰研究大多依赖固定数量障碍物假设和忽略了碰撞预测重要性的问题,团队提出了一种基于DDPG的新型“预测-决策”避碰模型。首先,设计和构造了一个辐射形状态空间,使得DDPG方法可用于具有随机障碍物的时变场景,然后将VO与状态空间相结合以实现碰撞预测,同时使用奖励塑形技术设计奖励函数,以提高安全性和训练效率。虚拟仿真实验和现场测试验证了算法的有效性,显示了团队所提方法不仅使无人艇在未知环境中能够采取安全避碰行动,而且具有较强的泛化能力。
《IEEE Transactions on Intelligent Transportation Systems》是智能交通领域国际顶级期刊(影响因子7.9),《IEEE Internet of Things Journal》是人工智能与物联网领域国际顶级期刊(影响因子8.2),两者均属于中科院SCI一区TOP期刊。
论文链接:
① https://ieeexplore.ieee.org/document/10715732
② https://ieeexplore.ieee.org/document/10733753