Redian新闻
>
科研和落地之间的差别

科研和落地之间的差别

公众号新闻

每天给你送来NLP技术干货!



来自:CS的陋室

对我们领域比较熟悉的朋友多少都会发现,科研和技术落地之间,是存在很大gap的,很多科研里面聊的红红火火的东西,到了现实应用的时候,就会有各种各样的问题,甚至最近在知乎里也有类似“你是什么时候对深度学习失去兴趣的”之类的问题,适逢国庆假期,就来聊一些轻松的,来探索这种差别背后的逻辑以及我们应对的办法。

叠个甲,这里会指出论文中可能存在的缺点,有点扎心,求大家轻喷。

科研和论文的特点

首先,科研,从论文角度,有一个很难避开的槛,就是创新,如果一个研究不够“新”,是没有发表意义的,所以很多研究者,包括学生时代的我们,为了发论文,会绞尽脑汁的去思考创新点,方案思路要创新,最后的预测效果也要有提升,这个思路其实没什么毛病,毕竟科研就是要探索,有尝试性的创新才会推动整个领域发展。

其次,科研是更关注优点的,一个是优,一个是点。所谓的优,强调的是,需要比原来的方案优秀,这就是所谓创新所需要围绕的关键,而隐含的另一点,却是个问题,那就是这个“点”字,科研并不要求全面领先,而只要求在某个方面优于原有的方案,例如现在我们领域里非常关注的一些效果指标,准确率、AUC、相关系数等,这会导致,为了某个方面的提升,而牺牲了其他方面,例如预训练模型需要牺牲性能等其他问题,这是论文很难避免的局限性;另一个角度,有些问题,可能已经被发现并且已经解决,但是因为这些指标不高,很可能就发表不了,毕竟指标没有提升,这个没有提升不见得是因为方法不够好,而是这个数据集或者指标不能体现这方面的优势,又受限于这些所谓的标准数据集,其实就很尴尬。

第三,这是人群导致的问题,科研人绝大部分来自在校的老师,甚至是学生(帮老师审过文章的都懂),这一批人有一个比较尴尬的局限性,就是很少有经过特定领域的实践经验,这导致他们很难发现一些落地场景下遇到的问题,取而代之的,更多是关注指标的提升,于是开始千方百计尝试各种方式来提升这些指标,当然这种方式的优势是有的,毕竟能进一步探索模型在某个方向上的极致,但缺点同样明显。

科研在落地上存在局限性

因为上面的问题,科研成果在落地的尝试中,是存在一定的局限性的,这些问题最直接的,是可能会导致这个方案无法落地到现实场景的。

就以我现在关注的比较多的NLP领域而言,大部分的研究,尤其是比较成熟的领域,都非常关注开源数据集及其对应的和准确相关的指标,如果开放数据集下的指标没有提升,注意只是没提升而已,根本无法发表。但是在现实的技术中,一方面,我们不会遇到很标准的数据集,数据里面被下了一堆毒,需要清洗和优化,另一方面,我们并不只是关注最终的准确与否,还有很多落地的限制,这是论文里所没有体现的。

先来聊聊数据,之前其实我有在一篇文章里面聊过(心法利器[68] | 数据指导技术优化与提升),数据集其实是在牵引技术发展的,在现在大部分人其实都在追分,追分的同时大家其实会研究各种数据内存在的问题,如果数据内存在迫切需要解决的问题,则指标的提升其实非常有效,然而如果是只追这些分,就会忽略很多其他的问题,用我们算法的说法,其实就是“过拟合”,只关注眼前的数据集了,甚至数据集里面一些标错的样本,也会被模型学到,从而使得指标提升,这就不健康了。另外,所谓的分,如果没有关心到一些现实场景其实很重要的东西,就会出现梦想很丰满,现实很骨感的情况。

再者,科研的创新往往是比较细小的一个点,追求某一个方面的极致,而现实的落地,需要关注的东西会更多,在保证综合可行性是最根本的,耗时、内存不达标,那就是上不了,这点是无法考虑的。

算法工程师该怎么看论文

科研上因为一些客观因素,确实会存在一些问题,但是,我们借助论文进行学习,是非常有效的,主要是这几个原因:

  • 科研所代表的是最前沿的东西,好坏是需要多次试验验证的,但是新的想法总归会和我们产生碰撞,产生新的想法。
  • 论文前面的文献综述和介绍,能把目前相关领域的情况给解释清楚,我们通过学习,其实能了解到更多方案。
  • 最终的实验,其实仔细看里面的数据,能了解各个方案的差异,也可以为自己进行方案选择提供参考。
  • 那些经常被用来当靶子的方案,很可能是非常靠谱的。

因此,我们还是需要进行论文阅读。那么,论文的过程,我们需要注意些什么:

  • 有关论文的核心亮点:
    • 明确该篇论文的创新点以及创新点的来源和思路历程。
    • 该方案可能的优点和缺点。
  • 对应领域的研究现状,看哪些论文工作会被提到最高,后续有机会也读一读。
  • 关心一下现在的科研现状,大家所在的领域都在关心什么问题。
  • 实验结果,看和现在主流方案的优化程度。

如果能吸收这些东西,其实一篇论文我们就算啃的比较干净了。

如何从论文到落地

如果我们开始有想把论文的一些方案用在现实场景中,因为实验是场景和应用场景终究存在一些差距,我的建议是考虑以下几个问题:

  • 明确目前的方案的短板在哪里,是否明确。而论文方案是否对症。
  • 论文方案的缺点是什么,这个方案的缺点是否会影响到自己的最终实施。
    • 例如耗时、内存之类的要求,最好提前试试,这个类型的缺点,很可能不会提及。
  • 仔细分析论文中使用的数据和方案,和自己的数据是否有差距,是否很大,越大,用起来没什么用的风险更高。
  • 确认好自己的数据,一些类似数据质量之类的问题没解决之前,最好不要考虑太前沿的方案了。

然后就是自己尝试重现并利用了,一般地自己都会有一个比较标准的pipeline进行训练和效果评估,一般会比较快速有一个结论,然后就可以开始考虑部署上线了,这个流程反而是比较快速的,难的是前期的预判,后续的效果和上线前的评估。

我的想法

我的个人想法吧,现实应用本身不是一个炫技的舞台,考验的更多应该是我们解决问题,最终提升效果的能力。论文中能够提炼出很多对我们有现实应用意义的想法,不应不由分说地接受或者拒绝,应该从实际出发来判断是否合适:

  • 现在的主要问题就是模型方面的问题吗,数据质量和数量是否有问题。
    • 如果质量和数量都有问题,那其实换谁来差距都不大。
    • 甚至,换了更复杂的模型,有些错误被模型学了去,指标上看不出来,后患无穷。
  • 大模型的性能问题,真的不得不防,已经看了不少人在这踩坑了,可依旧前赴后继。
  • KPI导向和晋升导向,能理解,但是优先还是要解决关键的指标问题后再来考虑炫技,否则只能是花拳绣腿了。

但是使用和了解又是需要分开来看的。平时的学习,是需要我们了解更多的方案,以便我们在真正解决问题的时候能多点选择,但是在使用的时候,实事求是,从简单和实用出发,才是最扎实的。



📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章
为什么回归问题不能用Dropout?
Bert/Transformer 被忽视的细节
中文小样本NER模型方法总结和实战
一文详解Transformers的性能优化的8种方法
DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习
苏州大学NLP团队文本生成&预训练方向招收研究生/博士生(含直博生)
NIPS'22 | 重新审视区域视觉特征在基于知识的视觉问答中的作用
武汉大学提出:用于基于统一Aspect的情感分析的关系感知协作学习
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
急在分秒之间,救在生死边缘,他们是穿梭城市之间的“蓝精灵”人与人之间最大的差距,在于学习模式的不同未来属于无气轮胎(ZT )高分和落榜的作品集,到底都差才哪里?带你一探究竟!人与人之间真正的差距:认知水平陈吉宁经典演讲:平庸与卓越的差别过于规律也是不健康的,健康是一种介于有序和无序之间的状态|崔兴然 一席第930位讲者男女之间的纯友谊,是懂得不越界小女孩之间的友谊:girls hurt girls真不少!新闻第36期 | 游走于侵权与创作之间的 “Prince Series”作品巨子生物:靠科研和微商起家,撑起一张超300亿的面膜军人家属随军和落户,最新政策意见来了上海市委书记陈吉宁:平庸与卓越的差别(强烈推荐)下班后的4小时,决定了人与人之间的差距陈吉宁经典演讲:平庸与卓越的差别(强烈推荐)电影'音乐之声'插曲外乡人 - 突如其来的强吻今天的商业,是系统之间的竞争孩子之间的相处之道:父母除了教孩子要维护自我,孩子学会原谅对方也同样重要。人与人的差别,就在于遇事的状态!你和大厂员工之间的差距可能就在这里...陈吉宁清华演讲:平庸与卓越的差别《鸢》: 东亚父子之间的拧巴与苦痛美国和加拿大的区别,这32个方面让你了解这两个国家之间的区别不同新冠疫苗之间“保护力差别很大”的关键原因被揭开陈吉宁:平庸与卓越的差别,不在于天赋,而在于长期的坚持!刺激!红圈Target school大洗牌!高校之间的鄙视链藏不住了…聪明和傻之间的状态叫做生活的智慧【夏日风情】05,葛底斯堡的硝烟与战争是达成统一的最后手段山海之间的波动 ▶ 大连三十七相 | UUA建筑师事务所攀登高峰俄乌之间的事情本来是清清楚楚学术交流:让科研和SCI论文成为临床工作的副产品。Pancake的光学密码:一场技术突围与商业落地之间的博弈陈吉宁演讲:平庸与卓越的差别
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。