Redian新闻
>
PyTorch 创始人:Transformer 太火很不好,AI 易撞墙

PyTorch 创始人:Transformer 太火很不好,AI 易撞墙

公众号新闻

推荐关注↓

转自:机器之心

Souminth Chintala 担心 Transformer 可能导致人工智能碰壁。

2017 年 Transformer 首次亮相,便迅速在 AI 领域扩散开来,CV、NLP 等任务都有其身影,越来越多的研究人员投入其中。


要说 Transformer 有多厉害,比如 OpenAI 重磅推出的 GPT-3,就是基于 Transformer 实现的。至于传播速度方面,短短 5 年,Transformer 便在 TensorFlow 、PyTorch 等主流深度学习框架支持的 AI 程序中占据一席之地。


可别小看这 5 年,假如我们把机器学习比作一个世界,毫不夸张地说,它们的 5 年相当于我们的半个世纪。


不过与高调宣传 Transformer 的学者不同,这次 PyTorch 创始人、Meta 杰出工程师 Soumith Chintala 却唱起了反调,并警告说,Transformer 如此流行,可能是一把双刃剑


他认为,到今天为止, Transformer 已经 5 年了,这期间还没有可替代的研究出现。他表示,对占主导地位的 AI 方法(此处指 Transformer)的强烈认可,可能会产生意想不到的后果,越来越多的 Transformer 专用硬件可能会使新策略更难以流行。


Soumith Chintala


至于 Soumith Chintala 为何会有上述结论,他首先从硬件进行举例。


专用 AI 硬件不断出现,其他技术将很难出头


Transformer 自从在论文《 Attention Is All You Need 》中被首次提出,之后便在很多地方都能看到它的身影。


相应地,为 AI 定制专门的硬件开始流行起来。在 GPU 方面,英伟达一直占据重要地位,他们还发布了一个名为 Hopper 的架构,其名称来自于计算机科学先驱 Grace Hopper,该架构专门用于 Transformer。


英伟达甚至还基于 Transformer,专门优化了 H100 加速卡的设计,提出了 Transformer Engine,它集合了新的 Tensor Core、FP8 和 FP16 精度计算,以及 Transformer 神经网络动态处理能力,可以将此类机器学习模型的训练时间从几周缩短到几天。


Transformer Engine 使用每层统计分析来确定模型每一层的最佳精度(FP16 或 FP8),在保持模型准确率的同时实现最佳性能。


英伟达首席执行官黄仁勋在最近的财报电话会议上表示,Hopper 将是其战略的重要组成部分(不过,可以肯定的是,英伟达是一家规模庞大的公司,其产品远不止 Hopper)。黄仁勋还表示:预计 Hopper 将成为未来增长的下一个跳板。他还表示 Transformer 这个新模型的重要性不能被低估,也不能被夸大。


不过,英伟达一方面推出了专为 Transformer 设计的产品,同时也提供了一系列适合多种不同型号的产品,而且可能已经为新技术的出现做好了准备。尽管如此,硬件专业化仍存在锁定现代用例的风险,而不是启用新兴用例。


Chintala 对此表示,如果像英伟达这样的供应商将硬件定制得更适用于当前范式,那么其他想法将更难出头。


不止硬件,更多定制和特定于领域的技术不断出现,如谷歌的张量处理单元、Cerebras Wafer Scale 引擎等都被提出来,这进一步限制了其他技术的发展。


Chintala 还提到,最近一段时间,AI 圈一直流行着这样一种说法「PyTorch 在受欢迎程度上超越谷歌的 TensorFlow 」,对于这一结论,Chintala 是拒绝的。


Chintala 表示,PyTorch 不是为了抢走 TensorFlow 的「午餐」而诞生的,它们有各自的优点,这两种框架各自擅长不同的任务。在研究界,PyTorch 有很好的市场份额,但在其他领域,就很难说了。


不过,谷歌也意识到了 PyTorch 的威胁,他们悄悄地开发一个机器学习框架,JAX(曾是「Just After eXecution」的首字母缩写,但官方说法中不再代表任何东西),许多人将其视为 TensorFlow 的继承者。



曾一度有传言说谷歌大脑和 DeepMind 在很大程度上放弃了 TensorFlow,转而使用 JAX。谷歌很快出来打假,表示「我们继续开发 TensorFlow ,并将其作为一流的应用 ML 平台,与 JAX 并肩推动 ML 研究发展。」


至于 JAX,其擅长将复杂的机器学习任务分散到多个硬件上,极大地简化了现有工具,使其更容易管理日益庞大的机器学习问题。


Chintala 表示:「我们正在向 JAX 学习,我们也在 PyTorch 中添加了这些内容。显然,JAX 在某些方面做得更好。Pytorch 确实擅长很多事情,这就是它成为主流的原因,人们用它可以做很多事情。但作为主流框架并不意味着它可以覆盖所有内容。」


原文链接:

https://www.businessinsider.com/souminth-chintala-pytorch-tensorflow-transformers-innovation-lag-2022-9


- EOF -

推荐阅读  点击标题可跳转

1、微信动不动就占用几十 GB!UP 主深扒:同一个文件居然存 10 份

2、80 岁还嗖嗖改代码!他是 Unix 命名人,发明“Hello World”,他说解决问题全靠拖

3、英国都在试行 4 天工作制了,为什么国内互联网大厂还对 996 上瘾?


关注「程序员的那些事」加星标,不错过圈内事

点赞和在看就是最大的支持❤️

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
无需微调!微软亚研院:高效加速大规模视觉 Transformer 密集预测任务的方法教育随笔(106)高考文言文备考之七7 Papers & Radios | ECCV 2022最佳论文;Transformer在试错中自主改进IKEA x OBEGRÄNSAD联名!宜家22年最受瞩目系列开售!Transformer作者离职创业的公司,想从老东家谷歌再拿2亿美元融资一文详解Transformers的性能优化的8种方法NeurlPS 2022 | 用于医学图像分割的类感知生成对抗TransformerTransformer检测神器!detrex:面向DETR系列的目标检测开源框架强的离谱,Transformer 杀疯了火爆的Transformer,可能是目前最好发论文的神器!(文末附顶会合集)ECCV 2022 | 港中文MMLab:基于Transformer的光流最高加速9倍!字节跳动开源8比特混合精度Transformer引擎DeepMind新作:无需权重更新、提示和微调,transformer在试错中自主改进CF-ViT:用于视觉Transformer的由粗到细的两阶段动态推理架构 | AAAI 2023​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘Transformer火爆的Transformer,可能是目前最好发论文的神器!清华提出首个退化可感知的展开式Transformer|NeurIPS 2022秋天的浪漫平价买到高级感!IKEA全新 OBEGRÄNSAD系列,全系列都好看!​KDD 2022 | kgTransformer:基于知识图谱与Transformer的复杂逻辑查询农贸市场的面包再掀强化学习变革!DeepMind提出「算法蒸馏」:可探索的预训练强化学习Transformer一个基于Transformer的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群Fast and Effective!一文速览轻量化Transformer各领域研究进展频频出圈的Transformer,到底有什么魅力!Transformer作者创业的公司,想从老东家谷歌再拿2亿美元融资!DeepMind新作!无需权重更新、微调,Transformer在试错中自主改进!NeurIPS 2022 | 清华提出首个退化可感知的展开式Transformer顶会上的热宠:TransformerMICCAI 2022 | 基于对比学习和视觉Transformer的弱监督视频肠息肉检测CIKM2022 | 基于文本增强和缩略-恢复策略的缩略词Transformer我家多愁善感的醋坛子月光超越ConvNeXt!Conv2Former:用于视觉识别的Transformer风格的ConvNet
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。