普通人CV领域论文创新常见思路与方向总结

公众号新闻

2022-12-29 16:12

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 极市平台

作者 | 何杰文@知乎

来源 | https://zhuanlan.zhihu.com/p/423273070

『做CV的论文创新的一些思路与方向』

1.无事生非

在原始的数据集上加一些噪声，例如随机遮挡，或者调整饱和度亮度什么的，主要是根据具体的任务来增加噪声或扰动，不可乱来。如果它的精度下降的厉害，那你的思路就来了，如何在有遮挡或有噪声或其他什么情况下，保证模型的精度。
用它的模型去尝试一个新场景的数据集，因为它原来的模型很可能是过拟合的。如果在新场景下精度下降的厉害，思路又有了，如何提升模型的泛化能力，实现在新场景下的高精度。

2.后浪推前浪

思考一下它存在的问题，例如模型太大，推理速度太慢，训练时间太长，收敛速度慢等。一般来说这存在一个问题，其他问题也是连带着的。如果存在以上的问题，你就可以思考如何去提高推理速度，或者在尽可能不降低精度的情况下，大幅度减少参数量或者计算量，或者加快收敛速度。
考虑一下模型是否太复杂，例如：人工设计的地方太多，后处理太多，需要调参的地方太多。基于这些情况，你可以考虑如何设计一个end-to-end模型，在设计过程中，肯定会出现训练效果不好的情况，这时候需要自己去设计一些新的处理方法，这个方法就是你的创新。

3.推陈出新

替换一些新的结构，引入一些其它方向的技术，例如transformer，特征金字塔技术等。这方面主要是要多关注一些相关技术，前沿技术，各个方向的内容建议多关注一些。

4. 出奇制胜

尝试去做一些特定的检测或者识别。通用的模型往往为了保证泛化能力，检测识别多个类，而导致每个类的识别精度都不会很高。因此你可以考虑只去检测或识别某一个特定的类。以行为识别为例，一些通用的模型可以识别几十个动作，**但你可以专门做跌倒检测。在这种情况下你可以加很多先验知识在模型中，例如多任务学习。换句话来说，你的模型就是专门针对跌倒设计的，因此往往精度可以更高。**这种特定类的检测最好是有些应用前途，让人觉得现实中可以有。

『创新思路形成的学习方法总结』

以上都是一些针对性的思路，最原始的做法应该是看完方向上比较重要的论文后自己写一个综述，写的过程中往往会发现一些问题，不一定就是要去跟sota模型比精度，而是解决这个方向上还存在的问题。解决还存在的问题才是关键，才是论文的核心价值所在，否则就只是十几页的废纸。

例如前面提到的实现轻量化，提高推理速度，实现实时检测，设计end to end模型，都属于解决这个方向上存在的问题，进一步提高精度也是解决问题，此外还包括一些其他的问题，这个得根据具体任务才能分析。

如果说写完综述后还是没思路，一来是建议尝试以上思路，二来建议找一些跟你方向相关的经典论文看一看，边看边想，这四个字最重要。当然，边看边想要想发挥作用，还需要有个最重要的前提，知识面足够广，否则再怎么想也没用。

很多情况下在模型上加入一些别的方向的模块，例如使用即插即用的模块、注意力机制等，可以使模型有一定的提升，这是算创新的。但需要一个合理的解释为何这么做可以起作用，解决了什么问题。有时候对原模型做一些小的改进，却有较大的提升，这也属于创新。前提是，这种提升是稳定的，是在多个数据集下都有的提升，而不是一次偶然事件。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章