研究人员打造大模型加持的强化学习新方法，实现更安全的自动驾驶

公众号新闻

2024-08-16 09:08

据了解，自动驾驶技术的发展主要依赖于传统的强化学习和深度学习方法。传统的强化学习方法一般通过让自动驾驶车辆在模拟环境中不断试错，来学习最优的驾驶策略。

这些方法虽然在一定程度上能够模拟人类驾驶行为，但在复杂的实际道路环境中，仍然面临着许多挑战。

具体来说：

首先，传统的强化学习方法在处理多变的道路状况和多样的驾驶行为时，往往需要大量的训练数据和计算资源。

此外，这些方法通常缺乏对人类驾驶员行为的全面理解，导致在实际应用中表现出不够智能和不够安全的缺点。

例如，在面对紧急情况时，自动驾驶系统可能无法像人类驾驶员一样迅速做出反应，以至于会增加事故风险。

其次，现有的自动驾驶模型大多依赖于预先定义的规则和参数，这使得它们在应对复杂和动态的道路环境时，存在灵活性不足和适应性不足的问题。

尤其是在多车互动和行人复杂的城市环境中，传统方法很难保证安全性和驾驶体验的一致性。

尽管深度学习在感知和决策方面取得了一定进展，但其“黑盒”特性导致模型的决策过程变得难以解释，着进一步限制了其在自动驾驶领域的应用。

同时，现有方法在训练过程中主要依靠模拟数据，缺乏足够的现实环境中的人类反馈，这使得模型在实际应用中的表现不尽如人意。

总的来说，虽然传统的强化学习和深度学习方法在自动驾驶技术发展中发挥了重要作用，但是仍然面临着模型复杂度高、解释性差、训练数据需求量大、以及难以应对实际道路复杂情况等问题。

为此，美国罗格斯大学博士生孙媛和所在团队，于近日提出一种新型自动驾驶优化方法。

研究中，他们首次将人类反馈机制用于自动驾驶模型的优化中，通过将强化学习与大模型相结合，不仅提升了模型的性能，还提高了自动驾驶的安全性和可靠性。

（来源：arXiv）

据介绍，课题组通过多角度、多层次的改进，克服了现有方法的诸多瓶颈。

研究人员表示，传统自动驾驶技术很少使用人类反馈机制，这是因为在实际驾驶中人类无法逐帧提供反馈，这样的方式既不现实也不高效。

然而，该研究通过多模态传感器，实时地收集人类驾驶员的生理和心理数据，例如通过虚拟现实头盔、腕带、智能眼镜等设备，获取心率数据、眼动数据和身体反应数据。

这些数据被用于模拟和反映人类的驾驶偏好，从而能将人类反馈有效地融入到模型训练过程中。

同时，该团队设计了一种多代理互动环境，以便模拟真实的道路状况和人类驾驶行为。

在这种环境中，人类驾驶员通过物理控制器（如方向盘和踏板）与模拟系统互动，能够提供实时的反馈数据。

这些数据不仅包括物理控制输入，还涵盖了生理反馈和心理反馈，比如心率变化、眼动轨迹和情绪反应等。

通过将这些丰富的反馈数据融入强化学习流程，模型可以更好地理解和适应人类的驾驶偏好。

此外，该研究通过大模型显著增强了系统的交互能力和决策能力。由于大模型在处理和解释复杂的多模态数据方面具有强大的能力，因此可以模拟人类行为并与自动驾驶模型进行互动。

当没有人类参与时，大模型代理可以扮演其他车辆或行人，增加系统训练的复杂性和真实性。

这种多代理互动环境，使模型在训练过程中能够全面地学习和适应多变的驾驶场景，提高了模型的鲁棒性和安全性。

另外，课题组还利用预训练模型作为基础，减少了从零开始训练模型所需的时间和资源。

通过引入预训练的自动驾驶模型，就能在已有知识的基础上进行优化，而不必依赖大量的初始数据。这种方法不仅提高了训练效率，还保证了模型的基础性能。

多模态数据融合技术，也是本次研究的一大亮点。通过整合来自不同传感器（如激光雷达、摄像头和生理传感器）的数据，模型对于环境的理解能力和响应能力得以提升。

这让大模型可以根据上下文动态调整和优化决策过程，确保了复杂环境下的安全性和鲁棒性。

最后，该团队通过在美国新泽西和美国纽约市的实际道路测试中验证了模型的性能，确保了其在现实世界中的可靠性和有效性。

这些测试不仅展示了模型在复杂真实环境中的表现，还为后续技术改进提供了宝贵的数据和经验。

本次方法不仅能够解决传统自动驾驶技术的诸多问题，还展示了人类反馈机制在自动驾驶领域的巨大潜力，在应用前景上：

其一，本次方法在自动驾驶技术的全面推广中具有重要意义。

通过引入人类反馈机制，自动驾驶系统能够更好地理解和适应人类驾驶员的行为和偏好，从而提升用户体验和安全性。

这种人性化的优化方法将使得自动驾驶车辆在复杂多变的道路环境中表现得更加可靠，减少事故发生的概率。

尤其是在城市交通环境中，这种技术可以帮助自动驾驶车辆更好地处理行人、非机动车和其他车辆的复杂互动，确保安全高效的通行。

其二，本次方法在自动驾驶车辆的训练和测试中具有广泛应用。

传统的自动驾驶模型训练主要依赖于模拟环境，而引入真实的人类反馈数据，可以大大提升模拟训练的现实性和有效性。

未来，汽车制造商和科技厂商可以在训练阶段采用这一方法，通过模拟真实驾驶场景中的人类反馈，不断优化自动驾驶算法，使其在产品上线前达到更高的性能标准。

其三，本次方法在智能交通系统的构建中具有重要作用。

随着城市交通系统的智能化发展，如何实现车辆与基础设施之间的智能互联成为关键课题。

通过结合人类反馈强化学习和大模型，智能交通系统可以更好地预测和管理交通流量，优化信号灯控制、减少拥堵，并能提高整体交通效率。

例如，在紧急情况下，系统可以根据实时数据和历史驾驶行为，快速调整交通信号和车辆路径，以确保道路安全和畅通。

其四，自动驾驶技术的发展还可以应用于物流和配送领域。

自动驾驶货车和无人配送车辆的应用前景广阔，通过引入人类反馈机制，这些自动驾驶系统能够更灵活地应对复杂的配送环境，提高配送效率和服务质量。

特别是在最后一公里配送中，它能更好地面对多样化的客户需求和复杂的城市环境。

日前，相关论文以《为安全而优化的自动驾驶：基于大模型增强的人类反馈强化学习的以人为中心的方法》（Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHF）为题发在 arXiv[1]。