Redian新闻
>
谷歌最后一位Transformer论文作者离职创业,野心不小,要颠覆当前生成AI范式

谷歌最后一位Transformer论文作者离职创业,野心不小,要颠覆当前生成AI范式

科技

。机器之能报道

作者:吴昕

他们将开发一种基于自然启示智能的新的基本模型:制造多个较小的人工智能模型,每个模型都有自己独特的优势和较小的数据集,让他们像鱼群一样协同起来,共同解决一个问题。

8月17日,两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI,总部位于日本东京。

Llion Jones  是谷歌 2017 年研究论文 Attention is all you need  的第五作者,该论文介绍了 Transformers 深度学习架构,该架构后来成为 ChatGPT 以及当前由生成 AI 驱动产品的基础。

论文于 2017 年 6 月首次发表后,随着全球对生成人工智能人才竞争不断升温,这些合著者陆续离开谷歌,自立门户创业。Llion Jones 是八位作者中最后一个退出谷歌的人。

David Ha 是谷歌日本人工智能研究部门的前负责人。他于 2022 年离开谷歌,后担任 Stability AI 研究主管。Ha 是一位有着不凡研究品味并且笔耕不辍的人,写了不少鼓舞人心并颇有启发性的技术博客。

David Ha (右)与 Llion Jones(左)

David Ha 担任公司 CEO。据日媒报道,其退出 Stability 可能是因为工作内容与研究存在距离。Jones 退出谷歌可能因为老东家动作慢,这也是大公司面临创新时的通病。

Sakana AI 拒绝透露资金细节。




Sakana AI 将构建自己的生成 AI 模型 - 可以生成文本,图像,代码和其他多媒体的软件,研究灵感正是 Sakana 。

这个单词源于日语单词 さかな( sa-ka-na ),也就是「鱼」的意思。以此作为公司名称,是想唤起 一群鱼聚集在一起,从简单的规则中形成一个连贯的实体」的想法,根据两位联合创始人的说法,他们的研究灵感来自自然概念,如进化和集体智慧。

英国社会学家、哲学家 Andrew Pickering 曾在其著作 The Cybernetic Brain 中写道的:


桥梁和建筑物的设计都是为了对环境漠不关心,承受波动,而不是适应它们。最好的桥是那种不管天气如何都屹立不倒的桥。

两人认为,当前人工智能模型的建构方式就像工程学,构造神经网络就像建造一座桥梁或者建筑,其局限性在于它们被设计成脆弱、不可改变的结构。

比如,谷歌正专注于整个公司的生成人工智能,但因为框架非常严格」,创新也变得很困难


相比之下,在自然系统中,涌现起着重要作用。基于集体智慧的自然系统,其复杂设计对周围世界变化非常敏感,自然系统适应并成为环境的一部分。

他们希望利用这些进化、集群智慧等计算原理构建基础模型,解决当前范式下的系统成本和安全性等问题。

工程桥梁与军蚁形成桥梁

Sakana 竞争对手包括 Character.AI 、Cohere、Anthropic 等同一论文合著者创立的公司。他们在过去几个月中分别筹集到了不菲资金,Anthropic 最近刚获得来自韩国电信巨头的投资。


Sakana 也将与一些世界上最大的人工智能公司竞争,包括谷歌,Microsoft, OpenAI 等。


在公司官网 logo 设计上,这些竞争对手就像一只只黑色的鱼,基本上依循同一方向游走。而 Sakana 是那只红色叛逆的鱼,朝向另一个截然不同的方向,代表着我们不想做其他人正在做的事情

制作基础模型的对手专注于使用大量数据、计算能力训练更大的人工智能模型,试图通过构建越来越大的人工智能系统来超越彼此。


Sakana 认为,自己或许能够用更少数据做更多的事情。


我们计划制造多个较小的人工智能模型,每个模型都有自己独特的优势和较小的数据集,并让这些模型像鱼群一样协同起来,共同解决一个问题,为 ChatGPT 等产品提供支持。David Ha 说,尽管他也澄清这还只是一个想法。

Logo 设计一方面希望人们可以联想到一群逻辑门形的鱼聚集在一起,通过简单的规则形成一个连贯的实体。另一方面,也希望人们知道,一只红色的叛逆鱼游向远方,代表着这家公司不想做其他人正在做的事情,而是真正致力于下一步的研究。

其实,在过去几年里,他们已经注意到在深度学习研究中出现了许多使用集体智慧创意的研究,特别是在紧急复杂系统领域。


例如,2021 年,David Ha 撰写了关于集体智慧的论文 The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning。

最近,David Ha 还与 Yujin Tang 合著了一篇论文 Collective Intelligence for Deep Learning: A Survey of Recent Developments ,系统调查了机器学习中越来越受欢迎的基于复杂系统的想法、例如群体智能,自组织和紧急行为等。


MAgent 包围战术的出现,来自 Collective Intelligence for Deep Learning: A Survey of Recent Developments。


两位创始人在日本工作了几年,之所以选择东京作为公司总部,主要是考虑到训练数据。他们强调培训适合非西方社会和文化的数据和模型,对于推动下一个技术突破很重要。


另外,也是为了避免北美研究人才的白热化竞争。他们认为,东京对非日本工人很有吸引力,因为它拥有受过高等教育的劳动力,而且是一座国际城市。



参考链接
https://blog.otoro.net/2022/10/01/collectiveintelligence/
https://twitter.com/hardmaru/status/1692170657470263347
https://twitter.com/SakanaAILabs/status/1692187814811820158


如何快速掌握大模型技术与实践?

机器之心主办的「Llama 2大模型算法与应用实践」论坛,拆解以 Llama 2 为代表的大模型算法和应用,帮助你系统学习大模型算法理论,并上手搭建一个专属大模型,在实践中巩固学习成果。

你将了解:大模型技术细节、行业落地案例、多模态改造、量化及低成本微调……

想要参加但还在犹豫?机器之心限时开放「拼团」模式,让更多开发者顺利组团,享受优惠价格。赶快扫描下图二维码报名加入!

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Transformer八子全部叛逃谷歌!最后一位共同作者月底离职创业炸裂!微软新作LongNet:将Transformer扩展到10亿个TokensTransformer八子谷歌一个也没留住!最后一名作者已宣布离职创业百度谷歌成为AI黄埔军校,Transformer八子融资超8.7亿刀!「AI行业全景报告」总结GenAI大爆发第二章 文明的产生和发展 (3)Transformer作者创立,Hinton、李飞飞青睐,明星创企Cohere推出打工人专用知识助手Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强Transformer速查宝典:模型、架构、训练方法的论文都在这里了ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!传Meta内乱致Llama半数作者离职;重庆市大模型联盟成立;美国50州检察官呼吁打击AI儿童侵害丨AIGC大事日报1000000000!微软改进Transformer一次能记住这么多token了六十八 退休让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升能胜任统计学家?Transformers超强学习机制「自动算法选择」一只鼠头引起的一场娱乐云原生 AI 工程化实践:FasterTransformer 加速 LLM 推理Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统Transformer论文「重磅更新」!八子全部离职,谷歌删除Attention Is All You Need所有作者邮箱5095 血壮山河之武汉会战 浴血田家镇 3Transformer出逃八子最后一人正式创业!坐标日本搞AI“群”模型,本人:在谷歌有被困住的感觉最新综述!南洋理工和上海AI Lab提出基于Transformer的视觉分割综述Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%​基于窗剪枝的去局部模糊Transformer,提升像质同时加速推理彻底抛弃Transformer,八金刚之一再创业!联手前谷歌Brain大佬创建自然启发智能模型transformer的细节到底是怎么样的?Transformer 连环18问!微软新出热乎论文:Transformer扩展到10亿tokenNeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法TransformerMeta被曝因抢夺计算资源内斗激烈,Llama多位作者离职Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘六十七 “楚辞”专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型面试被问到了:手撕Transformer。。。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。