Redian新闻
>
硬核观察 #1012 Meta 公布革命性可扩展模型架构 Megabyte

硬核观察 #1012 Meta 公布革命性可扩展模型架构 Megabyte

科技
 
导读:🅷 Meta 公布革命性可扩展模型架构 Megabyte 🄸 PyPI 向法庭提供了用户记录 🄸 Thunderbird 发布全新徽标 » »
本文字数:1059,阅读时长大约:1分钟

作者:硬核老王

Meta 公布革命性可扩展模型架构 Megabyte

如今热捧的生成式 AI 模型,如 GPT-4 等,都是基于谷歌 2017 年提出的转换器(Transformer)架构。Meta 的研究人员认为该架构存在两大设计缺陷:其一,转换器模型需要关注所有令牌,当需要处理的令牌数以千计时,计算非常密集。其二,采用了串行计算模式,存在扩展性难题。Meta 公司发表论文,提出了一种革命性的可扩展模型架构 Megabyte。它将输入输出序列分割为“补丁”而不是“令牌”。Megabyte 可以并行进行计算,在每个补丁中,局部 AI 生成结果,全局模型负责协调所有补丁的最终输出,从而解决了扩展性问题。测试显示,有 15 亿参数的 Megabyte 模型比有 3.5 亿参数的转换器模型生成序列快 40%。Megabyte 模型能支持最多 120 万个令牌,相比下 GPT-4 是 3.2 万个令牌,Claude 是 10 万个令牌。

消息来源:Artisana🔗 www.artisana.ai

老王点评:令人称奇的是,在这次 AI 竞赛中,Meta 频繁地爆出新成果,虽然目前还不能完全盖住 OpenAI 和微软的风头,但是给人的感觉很有希望。

PyPI 向法庭提供了用户记录

Python 软件基金会披露,它根据美国司法部的要求提供了其软件包仓库 PyPI 的用户数据。法庭传票要求提供 5 个用户的用户名、网名、邮寄地址、公司地址、电子邮件地址、连接记录,会话时间和持续时长以及相关 IP 记录,以及,他们上传的 PyPI 软件包记录和这些软件包的下载 IP 日志等等。Python 软件基金会在与律师讨论之后满足了传票要求。

消息来源:Python 软件基金会🔗 blog.pypi.org

老王点评:说起来,这些软件基金会和软件仓库都没有受我国法律管辖的吧。

Thunderbird 发布全新徽标

在将近二十年之后,Thunderbird 项目发布了全新徽标。新徽标与 Mozilla Firefox 浏览器的徽标风格相似,开发者表示这是为了纪念其历史和与 Mozilla 的重要联系,向下一个 20 年前进。该徽标的设计师也是 Firefox 和 Thunderbird 原徽标的设计者。

消息来源:Thunderbird🔗 blog.thunderbird.net

老王点评:我觉得不如原来的好看,不过这不重要,重要的是,Thunderbird 终于有了更多实质性的改进,比如提供移动版本。

昨日观察

关注 Linux 中国,每日硬核点评

欢迎遵照 CC-BY-SA 协议规定转载,
如需转载,请在文章下留言 “转载:公众号名称”,
我们将为您添加白名单,授权“转载文章时可以修改”。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
硬核观察 #1019 Ubuntu 将发布纯 Snap 版的不可变 LinuxCVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型Meta staff engineer 被layoff 了,要卖房了硬核观察 #1016 中国淡出超算 TOP500 榜单爆了!GPT-4模型架构、训练成本、数据集信息都被扒出来了...硬核观察 #1023 AMD 霄龙 Rome 芯片会在连续运行 1044 天后崩溃硬核观察 #958 Twitter 公开推荐算法源代码,马斯克获特别优待神奇的混合忆阻器AI芯片可扩展硬核观察 #968 Twitter 公司“没了”硬核观察 #1014 微软发布 Azure Linux 正式版硬核观察 #1015 红帽利用 Ansible 数据训练运维 AI硬核观察 #1010 必应超越百度成为中国最大的桌面搜索引擎多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构Meta 股票今天大跌,花街也看不过天天裁员的公司老板了丘陵地带的一座乡村小城镇吃饺子,要喝饺子汤硬核观察 #1070 社区批评 Meta 滥用“开源”来称呼其新大语言模型硬核观察 #1013 微软总裁希望控制 AI 以免被俄罗斯、中国等利用硬核观察 #1011 OpenAI 呼吁像监管原子能一样监管超级智能比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤硬核观察 #1001 微软正在研究使 Linux 脚本更安全加速AI推理,探索英特尔® 至强® 可扩展处理器在OCR应用落地方面的实践马克谈天下(371) 我看TIKTOK在美国的可能命运关于高可用、高性能、可扩展架构设计的14大要点详解 | 极客时间中国学者突破表面码重复多轮纠错难题,攻克量子计算可扩展化和实用化关键技术硬核观察 #1025 苹果 Safari 浏览器支持了被谷歌放弃的 JPEG XL硬核观察 #957 Twitter 要求 GitHub 披露其源代码上传者的身份硬核观察 #1071 研究发现更大的上下文对大语言模型来说意义不大硬核观察 #1052 libjpeg-turbo 3.0 发布,开发者表示无力继续GPT-4被破解,训练成本,模型架构的秘密都被挖出来了?硬核观察 #953 比尔·盖茨称人工智能是他见过的唯二的革命性技术Meta VS Apple: Meta产品做的差 Apple产品做的好 和员工福利待遇的关系万字长文概览大语言模型对齐(欺骗性对齐、可扩展的监管、机械可解释性、工具性目标趋同)终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了《西線無戰事》拍出戰火浮生錄开篇Meta 突然宣布,明天要再次裁员4000人!Google/Meta/Amazon狗脸麻LAYOFF后大面积招人分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型硬核观察 #996 数千名黑客将寻找 AI 大模型的缺陷
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。