Redian新闻
>
DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架

DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架

公众号新闻

目标检测是计算机视觉中的一个重要领域,它主要研究的是如何从输入的图像或者点云中定位出感兴趣物体的位置,在视觉 AI 的应用落地中发挥着基石的作用。现在市面上已经涌现了许多优秀易用的目标检测框架,但是在目标检测应用领域,仍然有以下几个重点问题没有解决:一是模型尺度单一,难以充分发挥用户的芯片算力。二是模型的多尺度检测能力弱,难以覆盖复杂多变的检测场景。三是模型的速度-精度曲线不够理想,在针对速度限制取舍模型时,会发现精度损失难以接受。

针对上述几个问题,结合阿里达摩院的技术积累,DAMO-YOLO 提出了自己的解法。DAMO-YOLO 中引入了 TinyNAS 技术,使得用户可以根据硬件算力进行低成本的检测模型定制,提高硬件使用效率并获得更高的精度。DAMO-YOLO 中还对检测模型的 neck、head 结构进行重新设计,创新性提出了 Heavy-Neck 模型设计范式,显著提升了模型的多尺度检测能力。最后,DAMO-YOLO 还提供了一套支持全尺度模型、异构鲁棒的蒸馏方案,实现无痛涨点,充分发挥模型潜力。此外,为了方便用户使用 DAMO-YOLO 解决自己的问题,还开源了多个工业应用模型。

机器之心最新一期线上分享邀请到了阿里巴巴达摩院算法工程师许贤哲,为大家解读他们近期的工作 DAMO-YOLO。

分享主题:DAMO-YOLO:兼顾速度与精度的高效目标检测框架

分享嘉宾:许贤哲,阿里巴巴达摩院算法工程师,天津大学通信与信息系统硕士,先后研究行人重识别、无监督学习、目标检测等方向,多次夺得 ICCV、CVPR 竞赛冠军,并担任 ECCV、CVPR 等会议审稿人。

分享摘要:DAMO-YOLO 是一个面向工业落地的目标检测框架,兼顾模型速度与精度,其训练的模型效果超越了目前的一众 YOLO 系列方法,并且仍然保持极高的推理速度。DAMO-YOLO 引入 TinyNAS 技术,使得用户可以根据硬件算力进行低成本的检测模型定制,提高硬件利用效率并且获得更高精度。DAMO-YOLO 还对检测模型中的 neck、head 结构设计,以及训练时的标签分配、数据增广等关键因素进行了优化,取得了精度和速度的全面提升。最后,DAMO-YOLO 提出了一套全尺度蒸馏方案,进一步实现全尺度模型的无痛涨点。具体细节可以参考我们的开源代码和技术报告。另外,为了方便用户使用 DAMO-YOLO 解决自己的问题,还开源了多个工业应用模型。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/damo-yolo

2)论文链接:

https://arxiv.org/pdf/2211.15444v2.pdf

3)代码仓库:

https://github.com/tinyvision/damo-yolo


加群看直播
直播间关注机器之心机动组视频号,北京时间 1 月 30 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「DAMO-YOLO」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置CVPR 2023 | Uni3D: 首个多数据集3D目标检测框架年終碎想UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务R-CNN、SPP-Net、Fast R-CNN…你都掌握了吗?一文总结目标检测必备经典模型(一)在赫拉克利特的河里江泽民去世,一个时代的结束RRC detection、CornerNet、M2Det、FOCS…你都掌握了吗?一文总结目标检测必备经典模型(三)【记忆】建筑可阅读:兼具时尚潮流与烟火气的武夷路,你走过吗?UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型NeurIPS 2022 | PointTAD: 基于稀疏点表示的多类别时序动作检测框架MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索正是这样一个模模糊糊的画面,才可以让人看到高精度的事实手机导航精度小于1米,北斗高精度定位技术想象力不止于此YOLOv8来了!YOLOv5官方出品!CVPR 2023 | 即插即用!SQR:对于训练DETR-family目标检测的探索和思考MOAT项目原作解读:强大的可扩展视觉骨干网络超越YOLOv8!YOLOv6 v3.0实时目标检测重磅升级!CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTAGalvatron项目原作解读:大模型分布式训练神器,一键实现高效自动并行ELITE项目原作解读:基于扩散模型的快速定制化图像生成YOLOv8来啦 | 详细解读YOLOv8的改进模块!YOLOv5官方出品YOLOv8,必卷!噢!卡撒布兰卡!AudioLDM一作解读:文本生成高质量音频,单GPU即可SparK项目原作解读:卷积模型的首个BERT预训练赴华行前检测大松绑有望即将到来!抗原检测取代核酸检测,取消航司行前查验检测报告NeurIPS 2022 | FCOS-LiDAR:全卷积单阶段3D目标检测ICLR 2023 | 高分论文!上海交大提出H2RBox:旋转目标检测新网络ICLR 2023 | H2RBox: 旋转目标检测方法名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTAYOLOv8已至,精度大涨!教你如何在自定义数据集上训练它如何高效设定绩效目标?我”阳“了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。