Redian新闻
>
硬核观察 #1012 Meta 公布革命性可扩展模型架构 Megabyte

硬核观察 #1012 Meta 公布革命性可扩展模型架构 Megabyte

科技
 
导读:🅷 Meta 公布革命性可扩展模型架构 Megabyte 🄸 PyPI 向法庭提供了用户记录 🄸 Thunderbird 发布全新徽标 » »
本文字数:1059,阅读时长大约:1分钟

作者:硬核老王

Meta 公布革命性可扩展模型架构 Megabyte

如今热捧的生成式 AI 模型,如 GPT-4 等,都是基于谷歌 2017 年提出的转换器(Transformer)架构。Meta 的研究人员认为该架构存在两大设计缺陷:其一,转换器模型需要关注所有令牌,当需要处理的令牌数以千计时,计算非常密集。其二,采用了串行计算模式,存在扩展性难题。Meta 公司发表论文,提出了一种革命性的可扩展模型架构 Megabyte。它将输入输出序列分割为“补丁”而不是“令牌”。Megabyte 可以并行进行计算,在每个补丁中,局部 AI 生成结果,全局模型负责协调所有补丁的最终输出,从而解决了扩展性问题。测试显示,有 15 亿参数的 Megabyte 模型比有 3.5 亿参数的转换器模型生成序列快 40%。Megabyte 模型能支持最多 120 万个令牌,相比下 GPT-4 是 3.2 万个令牌,Claude 是 10 万个令牌。

消息来源:Artisana🔗 www.artisana.ai

老王点评:令人称奇的是,在这次 AI 竞赛中,Meta 频繁地爆出新成果,虽然目前还不能完全盖住 OpenAI 和微软的风头,但是给人的感觉很有希望。

PyPI 向法庭提供了用户记录

Python 软件基金会披露,它根据美国司法部的要求提供了其软件包仓库 PyPI 的用户数据。法庭传票要求提供 5 个用户的用户名、网名、邮寄地址、公司地址、电子邮件地址、连接记录,会话时间和持续时长以及相关 IP 记录,以及,他们上传的 PyPI 软件包记录和这些软件包的下载 IP 日志等等。Python 软件基金会在与律师讨论之后满足了传票要求。

消息来源:Python 软件基金会🔗 blog.pypi.org

老王点评:说起来,这些软件基金会和软件仓库都没有受我国法律管辖的吧。

Thunderbird 发布全新徽标

在将近二十年之后,Thunderbird 项目发布了全新徽标。新徽标与 Mozilla Firefox 浏览器的徽标风格相似,开发者表示这是为了纪念其历史和与 Mozilla 的重要联系,向下一个 20 年前进。该徽标的设计师也是 Firefox 和 Thunderbird 原徽标的设计者。

消息来源:Thunderbird🔗 blog.thunderbird.net

老王点评:我觉得不如原来的好看,不过这不重要,重要的是,Thunderbird 终于有了更多实质性的改进,比如提供移动版本。

昨日观察

关注 Linux 中国,每日硬核点评

欢迎遵照 CC-BY-SA 协议规定转载,
如需转载,请在文章下留言 “转载:公众号名称”,
我们将为您添加白名单,授权“转载文章时可以修改”。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
万字长文概览大语言模型对齐(欺骗性对齐、可扩展的监管、机械可解释性、工具性目标趋同)Meta VS Apple: Meta产品做的差 Apple产品做的好 和员工福利待遇的关系硬核观察 #1016 中国淡出超算 TOP500 榜单关于高可用、高性能、可扩展架构设计的14大要点详解 | 极客时间加速AI推理,探索英特尔® 至强® 可扩展处理器在OCR应用落地方面的实践Meta staff engineer 被layoff 了,要卖房了爆了!GPT-4模型架构、训练成本、数据集信息都被扒出来了...硬核观察 #968 Twitter 公司“没了”硬核观察 #1013 微软总裁希望控制 AI 以免被俄罗斯、中国等利用吃饺子,要喝饺子汤硬核观察 #1015 红帽利用 Ansible 数据训练运维 AI开篇《西線無戰事》拍出戰火浮生錄多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构硬核观察 #1019 Ubuntu 将发布纯 Snap 版的不可变 LinuxGoogle/Meta/Amazon狗脸麻LAYOFF后大面积招人神奇的混合忆阻器AI芯片可扩展硬核观察 #996 数千名黑客将寻找 AI 大模型的缺陷硬核观察 #953 比尔·盖茨称人工智能是他见过的唯二的革命性技术比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤硬核观察 #1010 必应超越百度成为中国最大的桌面搜索引擎硬核观察 #1011 OpenAI 呼吁像监管原子能一样监管超级智能硬核观察 #1014 微软发布 Azure Linux 正式版硬核观察 #1070 社区批评 Meta 滥用“开源”来称呼其新大语言模型终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了硬核观察 #1052 libjpeg-turbo 3.0 发布,开发者表示无力继续硬核观察 #1023 AMD 霄龙 Rome 芯片会在连续运行 1044 天后崩溃马克谈天下(371) 我看TIKTOK在美国的可能命运Meta 突然宣布,明天要再次裁员4000人!GPT-4被破解,训练成本,模型架构的秘密都被挖出来了?硬核观察 #1001 微软正在研究使 Linux 脚本更安全分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型硬核观察 #1071 研究发现更大的上下文对大语言模型来说意义不大硬核观察 #958 Twitter 公开推荐算法源代码,马斯克获特别优待硬核观察 #957 Twitter 要求 GitHub 披露其源代码上传者的身份丘陵地带的一座乡村小城镇Meta 股票今天大跌,花街也看不过天天裁员的公司老板了CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型硬核观察 #1025 苹果 Safari 浏览器支持了被谷歌放弃的 JPEG XL中国学者突破表面码重复多轮纠错难题,攻克量子计算可扩展化和实用化关键技术
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。