2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马
新智元报道
新智元报道
【新智元导读】谷歌仍然全球领先,OpenAI每两篇论文就有一篇进百大!
美国仍然领先,中国第二
美国仍然领先,中国第二
中国排行第二,数据相比去年略有上涨;第三位是英国,DeepMind去年产出占英国总数的69%,超过了前几年的60%;新加坡和澳大利亚在AI领域的影响力也超出分析师的预期。
按照组织来划分的话,可以看到谷歌始终是AI领域的最强者,紧随其后的是 Meta、微软、加州大学伯克利分校、DeepMind和斯坦福大学,国内排行第一的是清华大学。
作为Meta AI的带头人,Yann LeCun也自豪地宣布Meta在行业内的影响力,并表示Meta AI更重视出版质量,而不是出版数量。
至于同属于Alphabet的谷歌和DeepMind在列表中单独计算的问题,LeCun表示DeepMind一直坚称它们独立于谷歌运营,这很奇怪,谷歌员工无法访问 DeepMind的代码库。
尽管如今人工智能研究大多由工业界引领,单个学术机构产生的影响不大,但由于长尾效应,学术界整体来说还是和工业界持平的,当按照组织类型对数据进行聚合时,可以看到二者的影响力大体是相等的。
如果回顾过去三年,统计各个机构总的研究成果数量,可以看到谷歌仍处于领先地位,但与其他机构相比差距要小得多,值得一提的是,清华大学紧随谷歌排行第二。
论文收集方法
首先在Zeta Alpha平台上收集每年被引用最多的论文,然后手动检查第一个发表日期(通常是arXiv预印本) 归类到对应的年份中。
通过挖掘Semantic Scholar上高引的人工智能论文来补充这个列表,其覆盖面更广,而且能够按引用次数进行排序,主要是从影响力很大的封闭来源出版商(例如《自然》、《爱思唯尔》、《施普林格》和其他杂志)那里获得额外的论文。
然后将每篇论文在 Google Scholar 上的引用次数作为代表性指标,并根据这个数字对论文进行排序,得出一年内排名前100位的论文。
对于这些论文,使用GPT-3提取作者、他们的附属机构和国家,并手动检查这些结果(如果国家在出版物中没有体现的话,采用该组织总部所在的国家)。
拥有多个机构的作者的论文对每个附属机构各计数一次。
2022年五强论文
2022年五强论文
论文链接:https://academic.oup.com/nar/article/50/D1/D439/6430488
发表机构:欧洲分子生物学实验室,DeepMind
AlphaFold DB:https://alphafold.ebi.ac.uk
3. A ConvNet for the 2020s
论文链接:https://arxiv.org/pdf/2201.03545.pdf
引用量:835
逐步将一个标准的ResNet「现代化」成ViT的设计,并在这一过程中发现了几个促成性能差异的关键组件,探索后发现了一个称为ConvNeXt的纯ConvNet模型系列。
ConvNeXt完全由标准的ConvNet模块构成,在准确性和可扩展性方面与Transformer不相上下,在COCO检测和ADE20K分割方面取得了87.8%的ImageNet top-1准确性,并超过了Swin Transformers,同时保持了标准ConvNets的简单性和效率。
4. Hierarchical Text-Conditional Image Generation with CLIP Latents
实验证明可以显式地生成图像表征能够提高图像的多样性,在逼真度和标题的相似性方面损失最小,并且以图像表征为条件的解码器也能产生图像的变化,保留其语义和风格,同时改变图像表征中不存在的非必要细节。
此外,CLIP的联合embedding空间使language-guided下的图像操作能够以zero-shot的方式进行。
对解码器使用扩散模型,并对先验的自回归和扩散模型进行实验,发现后者在计算上更有效率,能够生成质量更高的样本。
5. PaLM: Scaling Language Modeling with Pathways
引用量:426
大型语言模型已被证明在各种自然语言任务中使用few-shot学习即可达到更高的性能,极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。
为了进一步了解scale对few-shot学习的影响,研究人员训练了一个5400亿参数、密集激活的Transformer语言模型Pathways Language Model(PaLM)。
使用Pathways(一个新的ML系统,能够在多个TPU Pods上进行高效的训练)在6144个TPU v4芯片上训练得到PaLM,通过在数百个语言理解和生成基准上取得最先进的few-shot学习结果证明了scaling的好处。
在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了微调的最先进水平,并在最近发布的BIG-bench基准上超过了人类的平均性能。
大量的BIG-bench任务显示了模型规模的不连续改进,也意味着当规模扩大到最大的模型时,性能陡然提高。
PaLM在多语言任务和源代码生成方面也有很强的能力,这一点也在一系列基准测试中得到了证明。
2022年国内五强论文
2022年国内五强论文
论文共同一作为来自宁波工程学院的安鹏教授和同济大学的Zhiyuan Wang。
安鹏教授目前是宁波工程学院电子与信息工程学院副院长,2000年至2009年就读于清华大学工程物理系,获工学学士学位、工学博士学位;欧洲核子研究中心、意大利国家帕多瓦大学、德国海德堡大学访问学者,中国自动化学会认知计算与系统专业委员会委员、中国人工智能学会认知系统与信息处理专业委员会委员、中国指挥与控制学会青年工作委员会委员;主持并参与国家重点基础研究发展计划(973计划)、国家自然科学基金、国家星火计划项目等多项科研项目。
3. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
引用量:110
文中提出了TensoRF,一种对辐射场(radiance fields)进行建模和重构的新方法。
与纯粹使用MLP的NeRF不同,研究人员将场景的辐射场建模为一个4D张量,代表了一个具有每体素多通道特征(per-voxel multi-channel features)的三维体素网格,其中心思想是将4D场景张量分解为多个紧凑的低秩张量成分。
证明了在该框架中应用传统的CP分解,将张量分解为具有紧凑向量的rank-one components会获得比普通的NeRF更好的性能。
引用量:100
为了在相对较小的数据集上实现更高的性能,通常需要在额外的大规模数据集上预训练视频Transformer。
这篇论文表明视频掩码自动编码器(VideoMAE)是用于自监督视频预训练(SSVP)的数据高效学习器。
受到最近的ImageMAE的启发,研究人员提出了具有极高掩码比例的定制视频管(video tube),这种简单的设计使视频重建成为一项更具挑战性的自监督任务,从而鼓励在这个预训练过程中提取更有效的视频表征。
完整百强论文列表
微信扫码关注该文公众号作者