Redian新闻
>
SparK项目原作解读:卷积模型的首个BERT预训练

SparK项目原作解读:卷积模型的首个BERT预训练

公众号新闻

「大规模预训练」是 AI 各领域愈发浮出水面的宏图愿景。BERT 预训练与 GPT 齐名,分别被证明在语言理解和语言生成下游任务上取得了卓越性能,是 NLP 表征学习的利器。「卷积模型」则是视觉领域的中流砥柱。得益于高度并行化和局部化,CNN 长期积累的硬件优化使其成为现实工业界中不可代替的骨干。「强大的预训练的卷积模型」则是视觉研究者的长期追求,然而,卷积模型的 SOTA 预训练仍停滞在对比学习,将 BERT 的成功从 Transformer 迁移到卷积是一个吸引人但未实现的愿景。

SparK 工作初步进行了一些探索:该工作归纳 BERT 算法和 CNN 模型的关键不适配在于两点:(1) 是规整的 CNN 天生无法处理随机的、不规则的 BERT 随机掩码的输入,(2) 是视觉领域中长期以来的 “多尺度” 设计,与天然单尺度的 BERT 存在不一致。其解决方案是:(1) 使用子流形稀疏卷积以适应随机孔洞输入,(2) 设计 UNet 风格结构以允许多尺度信息的流通。

作为卷积模型上的首个 BERT 式预训练,SparK 可被使用在任何模型上,并以 ResNet 系列和 ConvNeXt 为例测试,性能远超有监督预训练、对比学习,甚至超过 MIM+Swin-Transformer. 目前代码、模型均开源,作者希望能够为真实场景下的卷积模型助力,并帮助探索更广阔的视觉预训练领域。

机器之心最新一期线上分享邀请到了北京大学在读硕士田柯宇,为大家分享他们近期工作 SparK。

分享主题:SparK:卷积模型的首个BERT预训练

分享嘉宾:田柯宇,北京大学研一学生,导师为王立威老师,研究方向为深度学习算法,包括超参数优化/强化学习/自监督的新型算法,在 NeurIPS 等会议发表多篇论文并担任 NeurIPS/ICML/ICLR/CVPR 等审稿人。

分享摘要:SparK 由北大与字节跳动合作,是卷积模型上的首个通用的 BERT 式预训练,可被运用在任何卷积网络上(如 ResNet-50/ConvNeXt)。在分类 / 检测 / 分割的标准下游场景,SparK 大幅超过了有监督预训练和对比学习(最高涨幅达 3.5),超越 MIM+Swin-Transformer,并展现出可扩放性质(scalable):大模型收益更多。希望 SparK 的开源,以及其利用稀疏卷积和多尺度结构的两个关键设计,可以助力使用卷积网络的各个真实场景、贡献社区。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/spark

2)论文链接:

https://arxiv.org/abs/2301.03580

3)代码仓库:

https://github.com/keyu-tian/SparK

4)Demo视频:

http://www.youtube.com/watch?v=-IWyQ2hAoBw


加群看直播
直播间关注机器之心机动组视频号,北京时间 2 月 27 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「SparK」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练热点解读:大模型的突现能力和ChatGPT引爆的范式转变MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型顶刊TPAMI 2022!清华刘玉身团队提出SPD:雪花反卷积网络ChatGPT预测申论考点被老师点赞/ LOFTER的AI绘画遭质疑/ Meta被曝本周再裁数千人...今日更多新鲜事在此EMNLP 2022 | ELMER: 高效强大的非自回归预训练文本生成模型SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型MOAT项目原作解读:强大的可扩展视觉骨干网络ELITE项目原作解读:基于扩散模型的快速定制化图像生成从BERT到ChatGPT!97页全面综述:那些年一起追过的预训练基础模型Alpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台老妈家人全阳,布洛芬生产大国为何缺药?三起三落之邓实为奸佞小人之徒JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架全球首个B2B品牌营销交易平台Breef获得Greycroft领投1600万美元A轮融资|硅兔星项目UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型Chinese Boss’ Call to Work Weekends Sparks Debate on OvertimeCVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型Lancet预印版:“神药”二甲双胍续写神奇,把新冠长期后遗症发生率降低了42%。成为首个被证明能够预防新冠后遗症的药物!FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(三)从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索从BERT到ChatGPT,百页综述梳理预训练大模型演变史登顶对话式语义解析国际权威榜单SParC和CoSQL,全新多轮对话表格知识预训练模型STAR解读日本啊,日本(十五)中国茶道,日本茶道Hadoop/Spark 太重,esProc SPL 很轻CogBERT:脑认知指导的预训练语言模型中国出现新冠高烧、白肺和死亡的可能原因AudioLDM一作解读:文本生成高质量音频,单GPU即可"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战谣言和死亡, 谁先来临Galvatron项目原作解读:大模型分布式训练神器,一键实现高效自动并行
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。