4、微软宣布Bing Chat等免费提供DALL-E 3服务5、微软发布166页多模态大模型GPT-4V说明书7、研究称GPT-4审稿意见与人类评审一致性超50%11、DeepMind等发布具身机器人数据集和RT-X模型12、Meta发布Llama 2 Long,支持3.2万Tokens13、Meta等发布StreamingLLM框架 支持400万Tokens15、Stability AI发布面向移动设备的Stable LM 3B16、三星Exynos 2400芯片亮相 AI处理快14.7倍17、AI创企Jasper CEO辞职,Dropbox前总裁接任18、CAIS等机构学者提出可检测LLM撒谎的内部表征
据36氪报道,10月7日,百度宣布新一轮干部轮岗:即日起,百度集团副总裁、百度集团首席信息官(CIO)李莹博士担任小度科技CEO,向集团董事长兼CEO李彦宏直接汇报。据悉,小度原CEO景鲲因个人原因即将辞任。有业内人士认为,此次干部调整,意味着小度科技将承担百度更多在AI时代的使命,将大模型引入到小度的所有业务,带来业绩增长。据量子位10月1日报道,雷军通过小米集团和顺为资本,注资了大模型初创公司百川智能。根据创投圈透露出的消息,雷军第一次押注这家公司在今年5月,他手下的小米和顺为同时参投了百川智能的A1轮,该轮投前估值为数亿美元,融资额超过数亿人民币;第二次则是新近百川智能进行的A3轮融资,市场传言顺为、小米再次重金押注,融资额约为数千万美元。对于上述投融资消息,百川方面表示暂无说明和回应。据路透社10月6日报道,知情人士透露,OpenAI正在探索自研AI芯片,甚至已经在评估潜在的收购目标。据悉,该公司尚未决定是否继续推进。不过,据熟悉内情的人士透露,至少从去年开始,该公司就在讨论各种方案,以解决其所依赖的昂贵AI芯片短缺的问题。这些方案包括打造自己的AI芯片、与包括英伟达在内的其他芯片制造商更紧密地合作,以及在英伟达之外实现供应商多元化等。对此,OpenAI拒绝发表评论。4、微软宣布Bing Chat等免费提供DALL-E 3服务当地时间10月3日,微软宣布OpenAI最新的DALL-E 3图像生成器现在可供所有Bing Chat和Bing Image Creator用户免费使用。据微软介绍,DALL-E 3是文本到图像生成的突破,由深度神经网络提供支持,可以从自然语言提示生成逼真且多样化的图像。5、微软发布166页多模态大模型GPT-4V说明书据机器之心报道,9月29日,微软发布针对OpenAI多模态大模型GPT-4V的166页“说明书”,覆盖详细测评和提示词使用技巧。该报告共分为11个章节,重点是对GPT-4V进行分析,以加深大众对大型多模态模型的理解。文章用很大篇幅介绍了GPT-4V可以执行的任务,包括用测试样本来探索GPT-4V的质量和通用性,现阶段GPT-4V能够支持的输入和工作模式,以及提示模型的有效方法。此前,OpenAI于当地时间25日发布了GPT-4V视觉模型及其系统卡论文,但文档只有18页,很多内容都无从得知。https://arxiv.org/pdf/2309.17421.pdf据外媒The Information报道,知情人士透露,微软计划11月14日在其年度开发者大会上推出该公司首款AI芯片,帮助减少对英伟达芯片的依赖。该知情人士称,微软仍在考虑是否将该芯片提供给Azure云客户。微软、英伟达和OpenAI的发言人未回应置评。据悉,微软在2019年就开始研发AI芯片,The Information曾于今年4月报道微软和OpenAI测试一款代号为Athena的AI服务器芯片,但目前尚不清楚下个月推出的芯片正式名称。7、研究称GPT-4审稿意见与人类评审一致性超50%据新智元报道,10月3日,斯坦福大学等机构的研究者发布论文称,GPT-4对于Nature、ICLR等顶会的近5000篇论文给出的审稿意见与人类审稿人的意见有超过50%的相似性,且超过82.4%的作者表示,GPT-4给出的意见相当有帮助。论文作者James Zou总结道:我们仍然需要高质量的人工反馈,但LLM可以帮助作者在正式的同行评审之前,改进自己的论文初稿。https://arxiv.org/abs/2310.01783据新智元报道,10月2日,2023年诺贝尔生理学或医学奖颁布,获奖者是Katalin Karikó和Drew Weissman,理由是发现了核苷碱基修饰,从而开发出有效抗新冠病毒的mRNA疫苗,而该结果被ChatGPT准确预测。9月30日,新智元曾报道结合最新的Bing联网功能,ChatGPT给出了“mRNA疫苗的开发可能会获得2023年诺贝尔化学奖”的预测。10月4日,谷歌在Made by Google大会上推出了Bard驱动的个人助理Assistant with Bard,它将Bard的生成和推理能力与Assistant的个性化帮助相结合,用户可以通过文本、语音或图像与其互动。谷歌称将在不久后将其提供给早期测试者,在几个月内向公众推出安卓和iOS版本。据新智元报道,近日,一篇由谷歌大神Jeff Dean领衔的“AI自主设计芯片”研究,被曝正式接受Nature调查。2021年9月,由Jeff Dean领衔的谷歌大脑团队发表了一篇AI设计芯片的论文,曾引起业界轰动。然而,随后有多人发现这项工作并不能被复现,而且关键数据和代码被隐藏了,Nature也对此展开了调查。目前,相关的Nature评论文章前面,已经被贴上了大写的“Retracted Article”(撤稿)。因为原本的论文受到质疑,因此写作相关评论文章的作者也将其撤回。11、DeepMind等发布具身机器人数据集和RT-X模型当地时间10月4日,谷歌DeepMind与来自33个学术实验室的学者合作,汇集了来自22种不同机器人类型的数据,创建并发布了Open X-Embodiment数据集和RT-X模型,用于支持具身机器人训练。研究团队在五个不同的研究实验室测试了RT-1-X模型,结果表明,与针对每个机器人独立开发的方法相比,该模型在五个不同的常用机器人上的成功率平均提高了50%。此外,研究团队在来自多个实例的数据上训练视觉语言动作模型RT-2,其在真实世界机器人技能上的表现提高了三倍。论文地址:
https://robotics-transformer-x.github.io/paper.pdf
数据和模型地址:
https://robotics-transformer-x.github.io/
12、Meta发布Llama 2 Long,支持3.2万Tokens据量子位报道,近日,Meta发布Llama 2 Long,上下文长度达3.2万Tokens,与GPT-4持平。性能上全面超越Llama 2,在指令微调MMLU(5-shot)等测试集上表现超过ChatGPT,在人类评估上优于10万Tokens的Claude 2。据介绍,与Llama 2相比,Llama 2 Long的变化主要有两个方面。一是训练参数上,采用了高达4000亿Tokens的数据源,而Llama 2最多的版本也只有700亿。二是架构上,与Llama 2保持不变,但对位置编码进行了一个非常小的必要修改,以此完成高达3.2亿Tokens的上下文窗口支持。https://arxiv.org/pdf/2309.16039.pdf13、Meta等发布StreamingLLM框架 支持400万Tokens据机器之心报道,9月29日,来自MIT、Meta AI、CMU的研究者提出了一种名为“StreamingLLM”的方法,为大语言模型可能遇到的RAM与泛化问题提出了一系列解决方案,号称能够“让语言模型处理无限长度的文本内容”。据介绍,该方法的工作原理是识别并保存模型固有的“注意力池”(Attention Sinks)锚定其推理的初始Token。结合最近Token的滚动缓存,StreamingLLM的推理速度提高了22倍,而不需要牺牲任何的准确性。经研究团队证实,StreamingLLM能够让Llama 2、MPT、Falcon和Pythia可靠地处理高达400万Tokens的文本,为流式语言模型提供更多部署方面的可能性。https://arxiv.org/pdf/2309.17453.pdfhttps://github.com/mit-han-lab/streaming-llm据外媒Business Insider 10月3日报道,亚马逊正打造一款AI驱动的聊天机器人,并拟将其整合进亚马逊网站的搜索栏中,可优化客户在其电商网站的搜索体验。该计划代号为“尼罗河计划”(Project Nile),将在亚马逊现有的搜索栏之上添加一层AI,实现即时产品比较、更多详细信息和评论请求等功能,以及基于搜索上下文和个人购物数据的推荐。知情人士透露,该功能正在进行内部测试,最快可能在明年1月推出。15、Stability AI发布面向移动设备的Stable LM 3B当地时间10月2日,AIGC独角兽Stability AI宣布推出Stable LM 3B实验版本,这是一款专为便携移动设备设计的紧凑型语言模型,包含30亿个参数,使用256个英伟达A100 40GB GPU训练而成,主打文本生成。据介绍,与上一次发布的Stable LM相似,Stable LM 3B的主要优势之一是体积更小、效率更高。此外,它的性能超过了目前最先进的3B参数语言模型,甚至超过了一些7B参数规模的最佳开源语言模型。16、三星Exynos 2400芯片亮相 AI处理快14.7倍据IT之家报道,10月6日,三星在System LSI Tech Day 2023活动上预览了最新的Exynos 2400处理器。据介绍,Exynos 2400的CPU性能比Exynos 2200快70%,AI处理速度快14.7倍,特别针对智能手机设计优化了AI性能,借助芯片能力,可以在本地实现文本生成图片的能力。17、AI创企Jasper CEO辞职,Dropbox前总裁接任据外媒Gold Penguin报道,近日,AIGC独角兽Jasper CEO Dave Rogenmoser辞去CEO职位,移交给网盘公司Dropbox前总裁Timothy Young。10月18日,该公司计划在Young和Rogenmoser共同主持的在线活动中发布主要产品公告。18、CAIS等机构学者提出可检测LLM撒谎的内部表征据新智元报道,10月3日,来自CAIS、CMU、伯克利、斯坦福、康奈尔、马里兰、宾大等机构的学者发布论文,提出在大语言模型内部具有可解释的内部表征,人类可以控制这些表征来影响大模型的幻觉、偏见、危害,甚至可以检测出它们是否在撒谎。研究者们设计了一种类似于PET和fMRI等脑部扫描的,称为LAT的扫描技术,来观察大模型参与真理等概念或撒谎行为时的大脑活动,随后发现大模型具有一致的内部信念。通过检查它们在TruthfulQA上的内部真理概念,研究者发现,更大的模型具有更准确的信念。在表达真实信念时,大模型会表现出不同的大脑活动,而在撒谎时却并不会这样。因此,研究人员可以通过刺激负责诚实行为的大脑区域,抑制不诚实行为的区域,以无监督的方式大幅改善TQA上的SoTA,让大模型变得更“诚实”。https://arxiv.org/pdf/2310.01405.pdf10月2日至6日,国际人工智能顶级国际会议ICCV(International Conference on Computer Vision)在法国巴黎举行。本届ICCV投稿总数达8068篇,其中2160篇被接收,录用率为26.8%,略高于上一届ICCV 2021录用率25.9%。商汤科技及联合实验室共49篇论文入选ICCV 2023,涵盖文生图、3D数字人、自动驾驶、目标检测、视频分割等多个与大模型和生成式AI相关的热点方向。