DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架
目标检测是计算机视觉中的一个重要领域,它主要研究的是如何从输入的图像或者点云中定位出感兴趣物体的位置,在视觉 AI 的应用落地中发挥着基石的作用。现在市面上已经涌现了许多优秀易用的目标检测框架,但是在目标检测应用领域,仍然有以下几个重点问题没有解决:一是模型尺度单一,难以充分发挥用户的芯片算力。二是模型的多尺度检测能力弱,难以覆盖复杂多变的检测场景。三是模型的速度-精度曲线不够理想,在针对速度限制取舍模型时,会发现精度损失难以接受。
针对上述几个问题,结合阿里达摩院的技术积累,DAMO-YOLO 提出了自己的解法。DAMO-YOLO 中引入了 TinyNAS 技术,使得用户可以根据硬件算力进行低成本的检测模型定制,提高硬件使用效率并获得更高的精度。DAMO-YOLO 中还对检测模型的 neck、head 结构进行重新设计,创新性提出了 Heavy-Neck 模型设计范式,显著提升了模型的多尺度检测能力。最后,DAMO-YOLO 还提供了一套支持全尺度模型、异构鲁棒的蒸馏方案,实现无痛涨点,充分发挥模型潜力。此外,为了方便用户使用 DAMO-YOLO 解决自己的问题,还开源了多个工业应用模型。
机器之心最新一期线上分享邀请到了阿里巴巴达摩院算法工程师许贤哲,为大家解读他们近期的工作 DAMO-YOLO。
分享主题:DAMO-YOLO:兼顾速度与精度的高效目标检测框架
分享嘉宾:许贤哲,阿里巴巴达摩院算法工程师,天津大学通信与信息系统硕士,先后研究行人重识别、无监督学习、目标检测等方向,多次夺得 ICCV、CVPR 竞赛冠军,并担任 ECCV、CVPR 等会议审稿人。
分享摘要:DAMO-YOLO 是一个面向工业落地的目标检测框架,兼顾模型速度与精度,其训练的模型效果超越了目前的一众 YOLO 系列方法,并且仍然保持极高的推理速度。DAMO-YOLO 引入 TinyNAS 技术,使得用户可以根据硬件算力进行低成本的检测模型定制,提高硬件利用效率并且获得更高精度。DAMO-YOLO 还对检测模型中的 neck、head 结构设计,以及训练时的标签分配、数据增广等关键因素进行了优化,取得了精度和速度的全面提升。最后,DAMO-YOLO 提出了一套全尺度蒸馏方案,进一步实现全尺度模型的无痛涨点。具体细节可以参考我们的开源代码和技术报告。另外,为了方便用户使用 DAMO-YOLO 解决自己的问题,还开源了多个工业应用模型。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/damo-yolo
2)论文链接:
https://arxiv.org/pdf/2211.15444v2.pdf
3)代码仓库:
https://github.com/tinyvision/damo-yolo
微信扫码关注该文公众号作者