Redian新闻
>
GPT-4关键信息遭泄露;北京将发4000万元算力券;百川智能推130亿参数大模型丨AIGC大事日报

GPT-4关键信息遭泄露;北京将发4000万元算力券;百川智能推130亿参数大模型丨AIGC大事日报

公众号新闻

07 11
全球AIGC产业要闻

1、GPT-4模型架构等关键信息遭泄露
2、ACL 2023最佳论文放榜 西安交大等获奖
3、李飞飞团队发布“大模型版”机器人
4、微软推出多模态AI模型CoDi
5、百川智能推出130亿参数通用大语言模型
6、北京将发4000万元算力券 支持大模型企业
7、用户吐槽必应聊天失去创造力
8、星火大模型带动讯飞开发者增85万
9、电商平台引入AI后解雇90%员工
10、腾讯绝艺AI登顶日本麻将平台
11、达闼机器人推出机器人大模型RobotGPT
12、美国立法者正在考虑围绕AI立法
13、AI优化器助大模型训练成本减半

1、GPT-4模型架构等关键信息遭泄露
据爱范儿援引SemiAnalysis报道,今天,OpenAI旗下的GPT-4大量模型架构、训练成本、数据集等大量信息被泄露。爆料人称,GPT-4架构的封闭性是因为他们构建的东西是可复制的,Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与GPT-4一样强大的模型。
据透露,在模型架构方面,GPT-4的规模是GPT-3的10倍以上,作者认为GPT-4在120层中包含了1.8万亿参数,而GPT-3只有大约1750亿个参数。
OpenAI通过使用混合专家(MoE)模型来保持成本合理。具体而言,GPT-4拥有16个专家模型,每个专家的MLP参数约为1110亿。其中,有两个专家模型被用于前向传播。此外,大约550亿个参数用于注意力机制的共享。每次的前向传播推理(生成一个token)仅利用了约2800亿个参数和560TFLOP的计算。
在数据集构成方面,GPT-4的训练花费了13万亿的token数据集。这个数据集因为没有高质量的token,还包含了许多个epoch。
在并行策略方面,OpenAI采用了8路张量并行,因为NVLink最高只支持这么多。但除此之外,爆料作者听说OpenAI采用15路并行管线。
在训练成本方面,OpenAI训练GPT-4的FLOPS约为2.15e25,在大约25000个A100上训练了90到100天,利用率在32%到36%之间。
原文链接:
https://www.semianalysis.com/p/gpt-4-architecture-infrastructure
2、ACL 2023最佳论文放榜 西安交大等获奖
据ACL 2023官网,今年的AI顶会ACL 2023获奖论文日前公布,共有3篇最佳论文奖、4篇特别奖和39篇优秀论文。此外,还有区域主席奖,由每个领域的高级主席提名。据统计,获奖论文占投稿总数的1.5%-2.5%。今年获奖论文有不少出自国内机构及华人学者,涉及西安交通大学、清华大学、中科大、智谱AI等。
3篇ACL 2023最佳论文的简介及论文地址如下:
(1)Do Androids Laugh at Electric Sheep? Humor“Understanding”Benchmarks from The New Yorker Caption Contest
作者:Jack Hessel、Ana Marasovic、Jena D. Hwang、Lillian Lee、Jeff Da、Rowan Zellers、Robert Mankoff and Yejin Choi
论文地址:
https://arxiv.org/pdf/2209.06293.pdf
(2)What the DAAM: Interpreting Stable Diffusion Using Cross Attention
作者:Raphael Tang、Linqing Liu、Akshat Pandey、Zhiying Jiang、Gefei Yang、Karun Kumar、Pontus Stenetorp、Jimmy Lin and Ferhan Ture
论文地址:
https://arxiv.org/pdf/2210.04885.pdf
(3)From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models
作者:Shangbin Feng、Chan Young Park、Yuhan Liu and Yulia Tsvetkov
论文地址:
https://arxiv.org/pdf/2305.08283.pdf
3、李飞飞团队发布“大模型版”机器人
据《科创板日报》报道,AI科学家李飞飞带领的团队日前发布了具身智能最新成果:大模型接入机器人,把复杂指令转化成具体行动规划,人类可以很随意地用自然语言给机器人下达指令,机器人也无需额外数据和训练。李飞飞团队将该系统命名为VoxPoser,相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行交互,所以直接解决了机器人训练数据稀缺的问题。
4、微软推出多模态AI模型CoDi
根据微软官网,近日,微软Azure认知服务研究团队与北卡罗来纳大学教堂山分校合作开发名为“可组合扩散(CoDi)”的AI模型,它能够同时处理和生成任意模态组合的内容。
据悉,CoDi采用了一种新颖的可组合生成策略,该策略涉及通过在扩散过程中桥接对齐来构建共享的多模态空间,从而能够同步生成相互交织的模态,例如将视频和音频的时间对齐。
5、百川智能推出130亿参数通用大语言模型
今日,百川智能推出参数量130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。
这是百川智能发布的第二款通用大语言模型,而在前不久的6月15日,百川智能就已经推出了首款70亿参数量的中英文语言模型Baichuan-7B。相比此前发布的Baichuan-7B,Baichuan-13B在1.4万亿token数据集上训练,超过LLaMA-13B40%,是当前开源13B尺寸下训练数据量最大的模型。
Baichuan-13B上下文窗口长度为4096,不同于Baichuan-7B的RoPE编码方式,Baichuan-13B使用了ALiBi位置编码技术,能够处理长上下文窗口,甚至可以推断超出训练期间读取数据的上下文长度,从而能够更好的捕捉文本中上下文的相关性,做出更准确的预测或生成。
开源地址:
Hugging Face:
https://huggingface.co/baichuan-inc/Baichuan-13B-Base
https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
GitHub:
https://github.com/baichuan-inc/Baichuan-13B
6、北京将发4000万元算力券 支持大模型企业
据《科创板日报》报道,北京市经济和信息化局党组书记、局长姜广智在近日接受《科创板日报》记者专访时宣布,北京将以场景为牵引、应用为导向,开放更多典型场景,促进大模型产业化应用,按季度迭代推出大模型应用成果,形成一批人工智能与经济社会发展深度融合的典型案例。
此外,该局正筹划通过算力券等形式支持模型伙伴和模型观察员,降低企业的训练成本、提高算力对接效率。首期预计支持不低于4000万元的算力券,补贴到模型伙伴企业。
7、用户吐槽必应聊天失去创造力
Reddit社区用户近日发帖称微软对必应聊天(Bing Chat)的限制过于严格,使必应的回答变得没有创造力,只剩下“作为AI语言模型,我不……”等无聊的废话,因此他将弃用该平台。这个帖子引发了众多网友的共鸣,现有259条评论。
8、星火大模型带动讯飞开发者增85万
7月10日晚间,科大讯飞披露半年度业绩预告。根据预告,科大讯飞公司上半年预计实现营业收入78亿元,同比减少2.5%;公司上半年归母净利润预计为5500~8000万元,同比下降71%-80%。截至2023年6月30日,讯飞开放平台开发者数为497.4万(去年同期343万),近一年增长45%。其中,讯飞星火认知大模型发布后,开发者数量在两个月内增加了85万家。
9、电商平台引入AI后解雇90%员工
印度电商平台Dukaan创始人兼首席执行官本周一发推特称,在引入AI聊天机器人来回答客户问题后,公司90%的员工已被解雇。他解释说,在引入AI助手后,解决问题时间从之前的2小时13分钟缩短到了3分12秒。他说:“鉴于经济状况,初创公司优先应该考虑的是‘盈利能力’。”
10、腾讯绝艺AI登顶日本麻将平台
腾讯今日宣布其自研棋牌类AI“绝艺LuckyJ”在国际知名麻将平台“天凤”上达到十段水平,刷新了AI在麻将领域的最好成绩。日本在线麻将竞技平台“天凤”创建于2006年,拥有体系化的竞技规则和专业段位规则,受到职业麻将界的广泛认可。截至目前,天凤平台活跃人数23.8万,而能达到十段的仅27人(含AI),不到万分之一。
根据腾讯提供的数据,相比其他麻将AI和人类玩家,“绝艺LuckyJ”不仅稳定段位更高,从零开始达到十段所需的对战局数也明显更少,仅需要1321局。这些数据的排名皆位于之前最强的两个日本麻将AI之上。
11、达闼机器人推出机器人大模型RobotGPT
据中国新闻网报道,在2023 WAIC期间,云端机器人企业达闼机器人宣布推出业界首个机器人多模态大模型RobotGPT,包含RobotGPT 1.0服务平台和RobotGPT 1.0一体机产品。
据悉,RobotGPT以多模态Transformer为基础,具备多模态(文本、语音、图片、视觉、运动、点云等)融合感知、认知、决策和行为生成能力,并基于人工反馈的强化学习完成并快速智能进化;RobotGPT与机器人的具身智能相结合,实现机器人理解人类语言,自动分解、规划和执行任务,进行实时交互,完成复杂的场景应用,推动具身智能的自主进化,让云端机器人成为通用人工智能的最佳载体。此外,RobotGPT还可以赋能数字人应用,实现虚实融合。
12、美国立法者正在考虑围绕AI立法
据外媒报道,美国参议院将在本周二首次召开关于AI的机密简报会,政府将在会议中向参议员介绍AI的机密情况。据悉,参议院民主党领袖Chuck Schumer在一封信中告诉参议员:“简报将展示美国政府如何利用和投资人工智能来保护我们的国家安全,并了解我们的对手在人工智能方面所做的事情……我们作为立法者的工作是倾听专家的意见,我们尽可能多地学习,以便将这些想法转化为立法行动。”
13、AI优化器助大模型训练成本减半
据量子位报道,近日,新加坡国立大学团队打造的CAME优化器在ACL会议上获得了杰出论文奖。优化器在大语言模型的训练中占据了大量内存资源,而该团队提出的优化器能够在性能保持不变的情况下将内存消耗降低了一半,进而把大模型训练成本降低近一半,据称目前已经投入了实际应用。
论文地址:
https://arxiv.org/abs/2307.02047
GitHub项目页:
https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Stability AI开源文生图模型;莫言找ChatGPT代写颁奖辞;云从发布AI大模型丨AIGC大事日报传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报安卓版ChatGPT上线;妙鸭相机回应涉嫌侵害用户权益;网易有道发布子曰大模型丨AIGC大事日报吉利将推自研大模型;OpenAI提交GPT-5商标申请;谷歌助手拟引入大模型丨AIGC大事日报百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报中国AI大模型地图发布;GPT研究烧掉30亿美金;美团正自研基础模型丨AIGC大事日报千箴言万球炼(5) 嫉妒世间常态,磨砺锻炼能耐爱琴海之旅 - 雅典探寻古希腊文明遗址中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报火山引擎推出大模型平台;云知声提交上市申请;联通推出首个运营商大模型丨AIGC大事日报超10万名ChatGPT用户信息被泄露;苹果机器学习关键人物离职;OpenAI考虑打造AI模型应用商店丨AIGC大事日报希腊沃洛斯 (Volos),迷人夜幕华为大模型登Nature正刊;马斯克称中国会具备强大AI能力;OpenAI要投20%算力解决AI失控丨AIGC大事日报OpenAI网站突破10亿月活;华为类ChatGPT将发布;陈天奇官宣手机跑大模型app丨AIGC大事日报复旦新作:单机微调650亿参数大模型;蚂蚁、百度参投AI大模型创企;杭州检方对AI换脸案提起公诉丨AIGC大事日报OpenAI被控窃取私人数据;荣耀要把大模型引入端侧;中兴推出GPT无线AR眼镜丨AIGC大事日报ChatGPT暂停集成Bing搜索;英伟达收购AI创企OmniML;天猫精灵启动大模型终端操作系统内测丨AIGC大事日报《人工智能法》列入立法计划;OpenAI尚未训练GPT-5;小鹏申请GPT相关商标丨AIGC大事日报偶兴AI大牛何恺明加入MIT;杭州设5000万元/年算力券;华为被曝为大模型成立两大组织丨AIGC大事日报AI协助完成披头士最后一首歌;GPT-4参与手冢治虫漫画续作;国内大模型侵权第一案丨AIGC大事日报OpenAI对ChatGPT进行更新;百川智能正式推出70亿参数开源中英文大模型|AIGC周观察第六期人民币,美元双系统风险及解决的可能方案百川智能发布 70 亿参数量开源中英文大模型腾讯云公布行业大模型进展;美图推出视觉大模型;华为高管称AI算力将增500倍丨AIGC大事日报数十家企业参编中国大模型标准;大模型创企获2.5亿美元投资;微软签署数十亿美元AI算力协议丨AIGC大事日报阿里达摩院免费开放100件AI专利;字节推出大模型MBTI测试结果;ChatGPT自定义功能扩展免费丨AIGC大事日报英伟达市值超1万亿美元;百度10亿元基金投向大模型;出门问问递交上市申请丨AIGC大事日报达摩院加入AI抢人大战;薇娅公司发布AI数字人直播业务;中国电信正深研通用大模型丨AIGC大事日报苹果被曝研发聊天机器人;传抖音社交负责人转做大模型;斯坦福研究发现GPT-4“变笨”丨AIGC大事日报华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报王小川创办的百川智能发布Baichuan-13B 参数量达130亿谷歌医学AI登Nature;京东推出言犀大模型;传Meta将发布AI模型商业版丨AIGC大事日报上海公布大模型政策;必应聊天月活接近15亿;ChatGPT开放代码解释器功能丨AIGC大事日报国内大模型北京占一半;李开复大模型创企官宣;文心一言App上架苹果应用商店丨AIGC大事日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。