Redian新闻
>
科研和落地之间的差别

科研和落地之间的差别

公众号新闻

每天给你送来NLP技术干货!



来自:CS的陋室

对我们领域比较熟悉的朋友多少都会发现,科研和技术落地之间,是存在很大gap的,很多科研里面聊的红红火火的东西,到了现实应用的时候,就会有各种各样的问题,甚至最近在知乎里也有类似“你是什么时候对深度学习失去兴趣的”之类的问题,适逢国庆假期,就来聊一些轻松的,来探索这种差别背后的逻辑以及我们应对的办法。

叠个甲,这里会指出论文中可能存在的缺点,有点扎心,求大家轻喷。

科研和论文的特点

首先,科研,从论文角度,有一个很难避开的槛,就是创新,如果一个研究不够“新”,是没有发表意义的,所以很多研究者,包括学生时代的我们,为了发论文,会绞尽脑汁的去思考创新点,方案思路要创新,最后的预测效果也要有提升,这个思路其实没什么毛病,毕竟科研就是要探索,有尝试性的创新才会推动整个领域发展。

其次,科研是更关注优点的,一个是优,一个是点。所谓的优,强调的是,需要比原来的方案优秀,这就是所谓创新所需要围绕的关键,而隐含的另一点,却是个问题,那就是这个“点”字,科研并不要求全面领先,而只要求在某个方面优于原有的方案,例如现在我们领域里非常关注的一些效果指标,准确率、AUC、相关系数等,这会导致,为了某个方面的提升,而牺牲了其他方面,例如预训练模型需要牺牲性能等其他问题,这是论文很难避免的局限性;另一个角度,有些问题,可能已经被发现并且已经解决,但是因为这些指标不高,很可能就发表不了,毕竟指标没有提升,这个没有提升不见得是因为方法不够好,而是这个数据集或者指标不能体现这方面的优势,又受限于这些所谓的标准数据集,其实就很尴尬。

第三,这是人群导致的问题,科研人绝大部分来自在校的老师,甚至是学生(帮老师审过文章的都懂),这一批人有一个比较尴尬的局限性,就是很少有经过特定领域的实践经验,这导致他们很难发现一些落地场景下遇到的问题,取而代之的,更多是关注指标的提升,于是开始千方百计尝试各种方式来提升这些指标,当然这种方式的优势是有的,毕竟能进一步探索模型在某个方向上的极致,但缺点同样明显。

科研在落地上存在局限性

因为上面的问题,科研成果在落地的尝试中,是存在一定的局限性的,这些问题最直接的,是可能会导致这个方案无法落地到现实场景的。

就以我现在关注的比较多的NLP领域而言,大部分的研究,尤其是比较成熟的领域,都非常关注开源数据集及其对应的和准确相关的指标,如果开放数据集下的指标没有提升,注意只是没提升而已,根本无法发表。但是在现实的技术中,一方面,我们不会遇到很标准的数据集,数据里面被下了一堆毒,需要清洗和优化,另一方面,我们并不只是关注最终的准确与否,还有很多落地的限制,这是论文里所没有体现的。

先来聊聊数据,之前其实我有在一篇文章里面聊过(心法利器[68] | 数据指导技术优化与提升),数据集其实是在牵引技术发展的,在现在大部分人其实都在追分,追分的同时大家其实会研究各种数据内存在的问题,如果数据内存在迫切需要解决的问题,则指标的提升其实非常有效,然而如果是只追这些分,就会忽略很多其他的问题,用我们算法的说法,其实就是“过拟合”,只关注眼前的数据集了,甚至数据集里面一些标错的样本,也会被模型学到,从而使得指标提升,这就不健康了。另外,所谓的分,如果没有关心到一些现实场景其实很重要的东西,就会出现梦想很丰满,现实很骨感的情况。

再者,科研的创新往往是比较细小的一个点,追求某一个方面的极致,而现实的落地,需要关注的东西会更多,在保证综合可行性是最根本的,耗时、内存不达标,那就是上不了,这点是无法考虑的。

算法工程师该怎么看论文

科研上因为一些客观因素,确实会存在一些问题,但是,我们借助论文进行学习,是非常有效的,主要是这几个原因:

  • 科研所代表的是最前沿的东西,好坏是需要多次试验验证的,但是新的想法总归会和我们产生碰撞,产生新的想法。
  • 论文前面的文献综述和介绍,能把目前相关领域的情况给解释清楚,我们通过学习,其实能了解到更多方案。
  • 最终的实验,其实仔细看里面的数据,能了解各个方案的差异,也可以为自己进行方案选择提供参考。
  • 那些经常被用来当靶子的方案,很可能是非常靠谱的。

因此,我们还是需要进行论文阅读。那么,论文的过程,我们需要注意些什么:

  • 有关论文的核心亮点:
    • 明确该篇论文的创新点以及创新点的来源和思路历程。
    • 该方案可能的优点和缺点。
  • 对应领域的研究现状,看哪些论文工作会被提到最高,后续有机会也读一读。
  • 关心一下现在的科研现状,大家所在的领域都在关心什么问题。
  • 实验结果,看和现在主流方案的优化程度。

如果能吸收这些东西,其实一篇论文我们就算啃的比较干净了。

如何从论文到落地

如果我们开始有想把论文的一些方案用在现实场景中,因为实验是场景和应用场景终究存在一些差距,我的建议是考虑以下几个问题:

  • 明确目前的方案的短板在哪里,是否明确。而论文方案是否对症。
  • 论文方案的缺点是什么,这个方案的缺点是否会影响到自己的最终实施。
    • 例如耗时、内存之类的要求,最好提前试试,这个类型的缺点,很可能不会提及。
  • 仔细分析论文中使用的数据和方案,和自己的数据是否有差距,是否很大,越大,用起来没什么用的风险更高。
  • 确认好自己的数据,一些类似数据质量之类的问题没解决之前,最好不要考虑太前沿的方案了。

然后就是自己尝试重现并利用了,一般地自己都会有一个比较标准的pipeline进行训练和效果评估,一般会比较快速有一个结论,然后就可以开始考虑部署上线了,这个流程反而是比较快速的,难的是前期的预判,后续的效果和上线前的评估。

我的想法

我的个人想法吧,现实应用本身不是一个炫技的舞台,考验的更多应该是我们解决问题,最终提升效果的能力。论文中能够提炼出很多对我们有现实应用意义的想法,不应不由分说地接受或者拒绝,应该从实际出发来判断是否合适:

  • 现在的主要问题就是模型方面的问题吗,数据质量和数量是否有问题。
    • 如果质量和数量都有问题,那其实换谁来差距都不大。
    • 甚至,换了更复杂的模型,有些错误被模型学了去,指标上看不出来,后患无穷。
  • 大模型的性能问题,真的不得不防,已经看了不少人在这踩坑了,可依旧前赴后继。
  • KPI导向和晋升导向,能理解,但是优先还是要解决关键的指标问题后再来考虑炫技,否则只能是花拳绣腿了。

但是使用和了解又是需要分开来看的。平时的学习,是需要我们了解更多的方案,以便我们在真正解决问题的时候能多点选择,但是在使用的时候,实事求是,从简单和实用出发,才是最扎实的。



📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章
为什么回归问题不能用Dropout?
Bert/Transformer 被忽视的细节
中文小样本NER模型方法总结和实战
一文详解Transformers的性能优化的8种方法
DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习
苏州大学NLP团队文本生成&预训练方向招收研究生/博士生(含直博生)
NIPS'22 | 重新审视区域视觉特征在基于知识的视觉问答中的作用
武汉大学提出:用于基于统一Aspect的情感分析的关系感知协作学习
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
新闻第36期 | 游走于侵权与创作之间的 “Prince Series”作品军人家属随军和落户,最新政策意见来了陈吉宁:平庸与卓越的差别,不在于天赋,而在于长期的坚持!陈吉宁经典演讲:平庸与卓越的差别(强烈推荐)男女之间的纯友谊,是懂得不越界Pancake的光学密码:一场技术突围与商业落地之间的博弈人与人的差别,就在于遇事的状态!外乡人 - 突如其来的强吻下班后的4小时,决定了人与人之间的差距高分和落榜的作品集,到底都差才哪里?带你一探究竟!刺激!红圈Target school大洗牌!高校之间的鄙视链藏不住了…陈吉宁清华演讲:平庸与卓越的差别俄乌之间的事情本来是清清楚楚攀登高峰你和大厂员工之间的差距可能就在这里...陈吉宁经典演讲:平庸与卓越的差别小女孩之间的友谊:girls hurt girls真不少!山海之间的波动 ▶ 大连三十七相 | UUA建筑师事务所人与人之间最大的差距,在于学习模式的不同巨子生物:靠科研和微商起家,撑起一张超300亿的面膜学术交流:让科研和SCI论文成为临床工作的副产品。【夏日风情】05,葛底斯堡的硝烟与战争是达成统一的最后手段急在分秒之间,救在生死边缘,他们是穿梭城市之间的“蓝精灵”美国和加拿大的区别,这32个方面让你了解这两个国家之间的区别孩子之间的相处之道:父母除了教孩子要维护自我,孩子学会原谅对方也同样重要。聪明和傻之间的状态叫做生活的智慧《鸢》: 东亚父子之间的拧巴与苦痛不同新冠疫苗之间“保护力差别很大”的关键原因被揭开未来属于无气轮胎(ZT )陈吉宁演讲:平庸与卓越的差别人与人之间真正的差距:认知水平今天的商业,是系统之间的竞争上海市委书记陈吉宁:平庸与卓越的差别(强烈推荐)过于规律也是不健康的,健康是一种介于有序和无序之间的状态|崔兴然 一席第930位讲者电影'音乐之声'插曲
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。