Redian新闻
>
7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型

7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型

公众号新闻

机器之心 & ArXiv Weekly 

参与:楚航、罗若天、梅洪源

本周主要论文包括 OpenAI 开源新模型代码,一步成图,1 秒 18 张;爆火论文打造《西部世界》雏形:25 个 AI 智能体,在虚拟小镇自由成长。


目录


  1. CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society 
  2. Consistency Models 
  3. Generative Agents: Interactive Simulacra of Human Behavior 
  4.  INSTRUCTION TUNING WITH GPT-4
  5. SegGPT: Segmenting Everything In Context
  6. 4K-NeRF: High Fidelity Neural Radiance Fields at Ultra High Resolutions
  7. Efficiently Leveraging Multi-level User Intent for Session-based Recommendation via Atten-Mixer Network
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)



论文 1:CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society

  • 作者:Guohao Li 、 Hasan Abed Al Kader Hammoud 等
  • 论文地址:https://ghli.org/camel.pdf

摘要:3 月 21 日,阿卜杜拉国王科技大学的研究人员开源了用于探索大语言模型(LLM)思想和能力的多智能体代码库 CAMEL,提出了通过角色扮演框架来研究 LLM 智能体的行为和能力。

该论文提出了一个名为 “角色扮演”(Role-Playing)的新型多智能体框架,使多个智能体能够进行对话并合作解决分配的任务。智能体会被分配不同的角色,并被期望应用他们的专业和知识来找到满足他们共同任务的解决方案。该框架使用启示式提示(Inception Prompt)来引导聊天智能体完成任务,同时与人类意图保持一致。

图 1. 角色扮演框架。这里需要人输入的是一个简单的想法(Idea),角色的分配(Role Assignment),比如开发股票交易机器人,可以选择一个 Python 程序员作为助手(AI Assistant),一个股票交易员作为法令者(AI User)。在人类用户输入结束后,任务加工器(Task Specifier)会把任务具体化,比如可以通过对社交网路平台上特定股票进行情感分析,然后根据情感分析的结果进行股票交易。当任务被具体化后,两个基于 ChatGPT 的 AI 智能体开始合作完成任务,比如进行工具的安装和导入。

推荐:多个 ChatGPT 合作完成指定任务。

论文 2:Consistency Models

  • 作者:宋飏、 Ilya Sutskever 等
  • 论文地址:https://arxiv.org/pdf/2303.01469.pdf

摘要:OpenAI 提出了 Consistency Models,这是一类新的生成模型,无需对抗训练即可快速获得高质量样本。与此同时,OpenAI 还发布了 Consistency Models 实现以及权重。

具体而言,Consistency Models 支持快速 one-step 生成,同时仍然允许 few-step 采样,以权衡计算量和样本质量。它们还支持零样本(zero-shot)数据编辑,例如图像修复、着色和超分辨率,而无需针对这些任务进行具体训练。Consistency Models 可以用蒸馏预训练扩散模型的方式进行训练,也可以作为独立的生成模型进行训练。

研究团队通过实验证明 Consistency Models 在 one-step 和 few-step 生成中优于现有的扩散模型蒸馏方法。例如,在 one-step 生成方面,Consistency Models 在 CIFAR-10 上实现了新的 SOTA FID 3.55,在 ImageNet 64 x 64 上为 6.20。当作为独立生成模型进行训练时,Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等标准基准上的表现也优于 single-step、非对抗生成模型。


推荐:OpenAI 开源新模型代码,一步成图,1 秒 18 张。

论文 3:Generative Agents: Interactive Simulacra of Human Behavior

  • 作者:Joon Sung Park 、 Joseph C. O’Brien 等
  • 论文地址:https://arxiv.org/pdf/2304.03442v1.pdf

摘要:在最近爆火的一篇论文中,研究者们成功地构建了一个「虚拟小镇」,25 个 AI 智能体在小镇上生存,它们不仅能够从事复杂的行为(比如举办情人节派对),而且这些行为比人类角色的扮演更加真实。


25 个智能体居住在名为 Smallville 的小镇,每个智能体由一个简单的化身表示。所有的角色都可以:

  • 与别人和环境交流;
  • 记住并回忆它们所做的和观察到的事情;
  • 反思这些观察结果;
  • 制定每天的计划。

推荐:爆火论文打造《西部世界》雏形:25 个 AI 智能体,在虚拟小镇自由成长。

论文 4:INSTRUCTION TUNING WITH GPT-4

  • 作者:Baolin Peng 、 Chunyuan Li 等
  • 论文地址:https://arxiv.org/pdf/2304.03277.pdf

摘要:为了推进 LLMs 指令微调的 SOTA 水平,微软研究院在其论文《Instruction Tuning with GPT-4》中首次使用 GPT-4 作为教师模型进行 self-intruct 微调。

研究者一方面发布了 GPT-4 生成的数据,包括中英文的 52k 指令遵循数据集、GPT-4 生成的对三种指令微调模型的输出进行评级的反馈数据。
 
另一方面基于 GPT-4 生成的数据开发了指令微调的 LLaMA 模型和奖励模型。为了评估指令微调 LLMs 的质量,研究者使用三个指标对测试样本进行评估:对三个对齐标准的人工评估、基于 GPT-4 反馈的自动评估以及非自然指令的 ROUGE-L(自动文摘评测方法之一)。

实验结果验证了使用 GPT-4 生成的数据进行 LLMs 指令微调的有效性。GPT-4 生成的 52k 中英指令遵循数据在新任务上实现了较以往 SOTA 模型更好的零样本性能。目前,研究者已经公开了使用 GPT-4 生成的数据以及相关代码。


推荐:微软用 GPT-4 做大模型指令微调,新任务零样本性能再提升。

论文 5:SegGPT: Segmenting Everything In Context

  • 作者:Xinlong Wang、Xiaosong Zhang 等
  • 论文地址:https://arxiv.org/abs/2304.03284

摘要:智源研究院视觉团队最近推出通用分割模型 SegGPT(Segment Everything In Context)—— 利用视觉提示(prompt)完成任意分割任务的通用视觉模型。

该模型具有以下优势能力:

1. 通用能力:SegGPT 具有上下文推理能力,模型能够根据提供的分割示例(prompt),对预测进行自适应的调整,实现对 “everything” 的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像、遥感图像等。
2. 灵活推理能力:支持任意数量的 prompt;支持针对特定场景的 tuned prompt;可以用不同颜色的 mask 表示不同目标,实现并行分割推理。
3. 自动视频分割和追踪能力:以第一帧图像和对应的物体掩码作为上下文示例,SegGPT 能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的 ID,实现自动追踪。


推荐:智源推出通用分割模型 SegGPT。

论文 6:4K-NeRF: High Fidelity Neural Radiance Fields at Ultra High Resolutions

  • 作者:Zhongshu Wang、Lingzhi Li 等
  • 论文地址:https://arxiv.org/abs/2212.04701

摘要:来自阿里巴巴的研究者专注于新的视图合成任务,提出了一个名为 4K-NeRF 的框架,其基于 NeRF 的体积渲染方法可以实现在 4K 超高分辨率下高保真视图合成。

4K-NeRF pipeline(如下图):使用基于 patch 的射线采样技术,联合训练 VC-Encoder(View-Consistent)(基于 DEVO)在一个较低分辨率的空间中编码三维几何信息,之后经过一个 VC-Decoder 实现针对高频细高质量的渲染与视图一致性的增强。


推荐:神还原物体复杂、高频细节,4K-NeRF 高保真视图合成来了。

论文 7:Efficiently Leveraging Multi-level User Intent for Session-based Recommendation via Atten-Mixer Network

  • 作者:Peiyan Zhang、Jiayan Guo 等
  • 论文地址:https://dl.acm.org/doi/abs/10.1145/3539597.3570445

摘要:近日,来自香港科技大学、北京大学、微软亚研等机构的研究者提出了一种高效利用多级用户意图的新模型 Atten-Mixer。研究论文获得 WSDM2023 最佳论文荣誉提名。

本文采用两个 SBR 相关的归纳偏置 (inductive biases): 即局部不变性 (local invariance) 和固有优先级 (inherent priority),来缩减搜索空间。

  • 固有优先级指的是 session 中后几个 item 更能反映用户的当前兴趣; 
  • 局部不变性指的是 session 中后几个 item 的相对顺序并不影响用户的兴趣,因此在实践中可以通过不同数目的尾部 item 形成 group,通过这些 group 来构建相关的高层概念。

在这里尾部 item 对应固有优先级,group 对应局部不变性,而不同数目则代表本文考虑多层的高层概念。


推荐:港科大、北大等提出会话推荐新模型 Atten-Mixer。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:


本周 10 篇 NLP 精选论文是:


1. Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering.  (from Shih-Fu Chang)

2. Boosted Prompt Ensembles for Large Language Models.  (from Jimmy Ba)

3. Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding.  (from Linda Petzold)

4. LasUIE: Unifying Information Extraction with Latent Adaptive Structure-aware Generative Language Model.  (from Tat-Seng Chua)

5. Towards Corpus-Scale Discovery of Selection Biases in News Coverage: Comparing What Sources Say About Entities as a Start.  (from Dan Roth)

6. Similarity-Aware Multimodal Prompt Learning for Fake News Detection.  (from Diana Maynard)

7. Multi-step Jailbreaking Privacy Attacks on ChatGPT.  (from Wei Fan)

8. Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4.  (from Jian Liu)

9. WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus.  (from Ji-Rong Wen)

10. On the Evaluations of ChatGPT and Emotion-enhanced Prompting for Mental Health Analysis.  (from Sophia Ananiadou)



本周 10 篇 CV 精选论文是:


1. Verbs in Action: Improving verb understanding in video-language models.  (from Andrew Zisserman, Cordelia Schmid)
2. MC-ViViT: Multi-branch Classifier-ViViT to Detect Mild Cognitive Impairment in Older Adults using Facial Videos.  (from Jian Sun)
3. Improving Image Recognition by Retrieving from Web-Scale Image-Text Data.  (from Cordelia Schmid)
4. Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval.  (from Cordelia Schmid)
5. MOST: Multiple Object localization with Self-supervised Transformers for object discovery.  (from Rama Chellappa)
6. Boosting Convolutional Neural Networks with Middle Spectrum Grouped Convolution.  (from Matti Pietikäinen, Li Liu)
7. Cross-View Hierarchy Network for Stereo Image Super-Resolution.  (from Liang Chen)
8. $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place Recognition.  (from Mubarak Shah)
9. Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting.  (from Mubarak Shah)
10. Probabilistic Human Mesh Recovery in 3D Scenes from Egocentric Views.  (from Yan Zhang)



本周 10 篇 ML 精选论文是:


1. Preemptively Pruning Clever-Hans Strategies in Deep Neural Networks.  (from Klaus-Robert Müller)

2. CoSDA: Continual Source-Free Domain Adaptation.  (from Shuicheng Yan)

3. Fairness through Aleatoric Uncertainty.  (from Huan Liu)

4. A Unified Characterization of Private Learnability via Graph Theory.  (from Noga Alon)

5. On Efficient Training of Large-Scale Deep Learning Models: A Literature Review.  (from Dacheng Tao)

6. On Robustness in Multimodal Learning.  (from Jonathon Shlens)

7. A Game-theoretic Framework for Federated Learning.  (from Kai Chen)

8. Ensemble Modeling for Time Series Forecasting: an Adaptive Robust Optimization Approach.  (from Dimitris Bertsimas)

9. Filling out the missing gaps: Time Series Imputation with Semi-Supervised Learning.  (from Jaideep Srivastava)

10. Embarrassingly Simple MixUp for Time-series.  (from Jaideep Srivastava)


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【游记】第三个夏威夷(1):异境7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型【美国春天母亲节5年回顾原创三部曲六一钢琴节】我为柳宗元《小石潭记》作曲 &《让我们唱在夏天里》&《卖火柴的小女孩》真人老黄现场演示与游戏NPC聊天!大模型开口建议玩家去找犯罪头目,网友:西部世界成真游戏版《西部世界》来了!NPC全由AI操控,行动自如有理想和记忆,基于最新GAEA技术系统打造这个情人节过得比较辛苦7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器《炸北溪》电影中所有人物介绍毁灭世界之人,名叫“悉尼”?AI情绪失控,上演现实版《西部世界》?结束11年亏损,打造《狂飙》等爆款,爱奇艺做了这3件事【美国春天母亲节献礼4女高音三部曲 舞台艺术节255】春天原创现场舞台:《妈妈是天使》&《游子吟:三春晖》&《春天摇篮》【君在我心】之【云深情也深 】& 【今夜想起你 】& 【爱在我心中】看过《西游记》的在哪里?《西游记》邮票收官之作,《四大名著》一次集全!收藏界已沸腾1:1复刻仿生人手,现实版《西部世界》公司众筹开启AIGC玩出新花样!Stable Diffusion公司提出基于扩散模型的视频合成新模型"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型辟谷十四天,记录一下。太突然!这个曾经最火论坛网站已无法打开CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEM《Love Is A Battlefield》给女神节 3/8 & 3/9 活动打 call中国小伙网聊版「西部世界」火出圈!ChatGPT化身虚拟好友,还能定制人格百万畅销书完结季来了!专为儿童打造《孩子读得懂的山海经》!我那些没有天赋的短板!Agustín Hernández:中美洲建筑背景下的未来主义巨构CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程【美国春天母亲节5原创钢琴三部曲 “粉衣蓝裙”不表白庆六一艺术节】《美丽夏天温柔的雨》&《爱的童话》&《雷雨之后》吃喝玩乐亚利桑那,在西部世界里的城市留学是一种什么体验?炸裂,AI 打造了一个西部世界!AI 还原《西部世界》:25个虚拟生命,在虚拟小镇自由成长Opera推出Opera One,将取代Opera浏览器图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长两篇Nature论文打架:云南大学最新Nature论文指出两年前Nature重磅研究有误生成扩散模型漫谈:W距离 ≤ 得分匹配闲鱼开始收软件服务费;ofo创始人转行卖咖啡;OPPO德国官网几乎清空终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。