Redian新闻
>
被大V推荐的AI论文,被引量会翻倍?两位推特博主5年推文背后影响揭秘

被大V推荐的AI论文,被引量会翻倍?两位推特博主5年推文背后影响揭秘

公众号新闻
机器之心报道
编辑:张倩、小舟

在 AI 领域,推特博主的影响力可能比想象中要大


经常在 X 平台(推特)上浏览 AI 论文的研究者应该都很熟悉两位博主:AK (@_akhaliq) 和 Aran Komatsuzaki (@arankomatsuzaki)。他们每天都会精选一些论文进行展示,方便大家重点阅读。数据显示,AK 在 X 平台上的粉丝数已经接近 28 万,Aran Komatsuzaki 也超过了 8 万。



一般来说,能够得到这两位博主推荐的论文通常质量都相对有保证,后续也能得到更多研究者的关注。但是,二人的影响力到底有多大,被推荐和不被推荐的论文在后续的影响力上是否会拉开差距一直很难说清。


为了研究这些问题,来自加州大学圣芭芭拉分校的几位研究者专门写了一篇论文。结果显示,被两位博主推荐的论文在被引量上是不被推荐的论文的 2 到 3 倍。



  • 论文标题:Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility

  • 论文链接:https://arxiv.org/pdf/2401.13782.pdf


具体来说,他们编制了一个包含 8000 多篇论文的综合数据集。这些论文涵盖了两位博主从 2018 年 12 月到 2023 年 10 月期间的推文,并伴有基于发表年份、发表地点和摘要主题的 1:1 匹配对照组。分析结果显示,得到二人推荐的论文,其引用次数显著增加,中位数引用次数是对照组的 2 到 3 倍。这样的结果引发了社区的一些担忧,有人认为这代表学术界正在 TikTok 化。


不过,很多人怀疑,这个数据的因果逻辑可能是反的,因为质量更高的论文往往更容易得到这两位博主的推荐,后续被引量自然更高。


对此,论文里其实给出了解决办法。他们通过精确匹配来选择对照样本,使用发表细节和文本嵌入作为论文质量的标记。作者表示,他们验证了他们的方法能够成功地控制论文质量,这一点从会议审稿得分的分布相似性中得到了证明。


被两位博主推荐的论文与未被推荐的论文 OpenReview 平均得分,来自 6 个主要的机器学习会议。图中结果表明两组论文的质量大致相当。


对于这个结果,也有人心态比较乐观,表示数学领域也有类似现象,比如陶哲轩等数学家偶尔也会在网上推荐一些研究。


但有人反驳说,AI 和数学领域的情况完全不同。一方面,AI 领域涉及大量资金投入和经济利益,这可能影响到博主推荐内容的客观性和公正性。另一方面,博主在挑选论文时可能更容易关注到大实验室的论文,这对一些小实验室来说可能不太公平。


在观察到这些潜在影响后,论文作者呼吁研究社区构建更加负责任的论文传播方式,这些方式应该尽量展示多样化的研究主题、作者和机构,营造一种更公平的环境。


以下是论文细节。


数据收集


该研究将具有相同基础协变量的实验组和对照组进行比较,以确定平均效果,并假设论文的被引量受时间、质量和主题的影响最大。虽然所用时间很容易测量,但论文质量和主题却很难量化。


该研究使用论文标题和摘要的文本嵌入来近似化论文主题,整个数据收集过程由三个部分组成:


(1)收集目标集,即推特博主 @_akhaliq 和 @arankomatsuzaki 在推特上分享的论文;

(2)收集要匹配的潜在论文的大型数据集;

(3)通过将 (1) 中的论文与 (2) 中的论文在发表年份、发表地点以及标题和摘要的文本嵌入方面进行匹配来设置控制集。


分析


该研究将推特博主 AK 和 Komatsuzaki 分享的论文与控制集的影响进行了比较,然后根据所选论文的地理分布和作者属性进行多变量分析。


该研究采用对比分析方法测试了以下假设:


博主分享的论文与同一领域的其他论文具有相同的被引量。 

博主分享的论文比同一领域的其他论文具有更高的被引量。


该研究比较了配对的目标集和控制集,发现 AK 分享的论文的被引量中位数为 24 (95% CI: 23, 25),而对照组为 14(95% CI: 13, 15);Komatsuzaki 分享的论文被引量中位数为 31 次(95% CI:27、34),而对照组为 12 次(95% CI:10.5、13.5)。与相应的控制集相比,两个实验集分布都偏向于更高的被引量,如下图 3 所示。


如图 3 (c)(d) 所示,与对照组相比,博主分享论文分布中的三个四分位数和最大值均较高。


在 2 - 样本 Q-Q 图(图 4)中,我们可以看到测试分布的归一化分位数始终较高。每个成对样本的 Cliff’s Delta 值进一步强化了 Q-Q 结果,如表 3 所示。




表 3 的数据说明博主分享论文实际上对改变结果变量(即论文的被引量)具有重要意义。


最后,该研究通过三个测试建立统计显著性,将实验数据的分布与控制集 Epps-Singleton (ES)、Kolmogorov-Smirnov (KS) 和 Mann-Whitney U (MWU) 的分布进行比较。如表 3 所示,所有结果的 p 值都远低于 α = 0.001。由此,该研究可以有力推翻原假设:博主分享的论文和对照组的引用分布相同。


总体而言,有影响力的推文和被引量之间的相关性表明机器学习社区查找和阅读论文的方式发生了变化。传统上,顶级会议接受度(即评审分数)一直是未来被引量的主要指标,但该研究表明,影响力大的博主分享论文已成为影响被引量的重要指标。


感兴趣的读者可以阅读论文原文,了解更多研究内容。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
泰國水燈節瑞·达利欧(Ray Dalio)推荐的25本最佳非虚构类书籍苹果龙年推“天价”手机壳,被网友吐槽“指蟒为龙”?不吼不骂让娃的学习效率翻倍?原本觉得很难,直到拥有它……史诗级学术欺诈!骨科教授狂编 300 篇论文,被揭发后自杀,造假论文还有人在引用…多名留学生澳洲失踪, 长达1个月! 最后影像曝光! 手机关机社交账号注销中领馆发声! 遭绑架中国留学生失踪前最后影像曝光!警方:可能是场骗局!千万不要随便跟人发生亲密关系,能量会被盗尽!职位推荐|UBS开启研究生人才计划,学士/硕士学位均可申请!书读了古文背了,还学不好语文?请来人大附老师、高考语文阅卷人教大家怎么破~新加坡PR获批后有新规?两个月内通过考试、参加活动...或影响正式手续Arxiv最热论文推荐:揭秘Transformer新身份、谷歌VLM蒸馏、复旦LEGO模型比尔·盖茨新年推荐:书籍、音乐和经济学课程书籍推荐 | 火了700年,被封,被禁,依旧挡不住无数大牛推荐!首席AI教育者Sebastian Raschka博士推荐的2023年最具影响力的 10 篇AI论文原来,这才是 JDK 推荐的线程关闭方式6058 血壮山河之随枣会战 第三章 12家政阿姨盛情推荐的4款清洁好物,助你旧貌大换新!211大学教授、博导SCI期刊发论文,被质疑忘删掉ChatGPT提示词…重要!麻省理工官方推荐的26个竞赛和29个夏校,看看有没有适合你的...我体验了GPT Store 推荐的首批 GPTs,发现 app 们还失不了业阿宝强烈推荐的「十肽霜」,30天内不满意不要钱!个人感慨之三十六 乌纱帽2023年阅读量最高的推文,原来你们最关心这些问题!想增加自己论文的被引用次数,有哪些方法?(2024)突发!USICS官宣:H1B“一人一抽”正式落地,留学生中签率或翻倍?早报 | 传Shein去年收入超过300亿美元追上Zara;始祖鸟龙年冲锋衣被炒至1.2万;LV推出首个男士高级珠宝系列为什么选对玻璃,你的房子价值会翻倍?个人感慨之三十五 经济状况中领馆紧急发声 遭绑架中国留学生失踪前最后影像曝光!警方:可能是场骗局!最新!遭绑架的中国留学生,最后影像曝光!美国警方:有两种可能...字节跳动将员工迁至海外!新加坡有400多个职位在招聘,薪资翻倍?个人感慨之三十七 反人类历史研究表明:论文被大V宣传后,引用次数暴涨2~3倍!超6亿元影视投资诈骗震惊全国,单身妈妈120万元打水漂!揭开这名90后影人用“行业惯例”骗钱真相
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。