Redian新闻
>
谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯性视频生成模型

谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯性视频生成模型

公众号新闻
tuitui羿阁 发自 凹非寺
量子位 | 公众号 QbitAI

临近年底,谷歌终于放大招了!

刚刚结束的AI@年度活动上,谷歌一口气发布了四项最新的AIGC技术成果。

其中最引人注意的要数文本图像模型Imagen首次开放测试,敲黑板,这次安卓、苹果都能玩

其他有趣的产品,还有AI写作协助工具LaMDA Wordcraft、结合Imagen Video和Phenaki优势的超长连贯性视频生成模型等等。

而且,除了官方的总结,几位来自谷歌的科学家也在推特分享了自己心中谷歌AI研究的新进展。

具体有哪些?一起往下看。

Imagen首次开放测试

自推出以来,Imagen一直被与OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比较,但不同的是,谷歌一直没有将该系统向公众开放。

现在,谷歌终于松口,宣布将把Imagen添加到其AI Test Kitchen应用中。

AI Test Kitchen,是今年I/O大会上,谷歌推出的一款用于对各种AI系统进行测试的应用程序,目前苹果、安卓用户都能下载。

最初的时候,用户仅可以在上面与AI聊天机器人LaMDA 2进行交流,此次更新将添加两种与Imagen互动的新方式:城市梦想家和Wobble。

在“城市梦想家”中,你可以用文字命令建造不同主题的城市,其中,Imagen模型承担了创建样本建筑和地块(城市广场、公寓楼、机场等)的作用。

在Wobble中,你可以创造一个小怪物,DIY它的材质(粘土、毛毡、橡胶等),然后给它穿上你选择的衣服,还可以戳戳它,让它“跳舞”。

尽管与其他文本到图像的模式相比,这些互动方式看上去还比较受限制,但谷歌产品管理高级总监乔希·伍德沃德(Josh Woodward)解释称,这一步的意义在于获得公众对这些AI系统的反馈,以及测试哪些行为会使得系统崩溃。

其他AIGC产品

除了最受关注的Imagen模型,谷歌还宣布了在其他内容格式上的AI内容生成技术。

比如LaMDA Wordcraft,一个在大语言模型LaMDA基础上开发的、能辅助专业作家写作的AI写文工具。

它的作用,是在创作者写作的过程当中,根据现有的文本产生新的想法,或者帮助重写已有文句,从而帮助创作者突破“创作瓶颈”。

值得一提的是,下图中的“Evaluative Soliloquies”就是作家刘宇昆(《三体》英文版译者)在Wordcraft帮助下撰写的短篇小说。

除此之外,谷歌还结合了Imagen Video和Phenaki两大模型的优势,推出了一个能生成超长连贯性视频的新模型。

还有AudioLM,一个无需文字和音乐符号训练,仅通过聆听音频样本,就可以继续生成填补乐曲的音频模型。

说完这些谷歌官方公布的新技术,让我们再来看看谷歌的科学家们自己是怎么说的。

谷歌科学家眼里的新进展

除了产品层面,今年谷歌AI研究的新进展还有哪些?

谷歌大脑的工程师周登勇在推特上分享了自己的看法:大模型学会了如何解释答案,检查答案,并将复杂问题分解成子问题解决。

而这一切还要从谷歌今年1月发布的一篇论文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”开始说起。

就是在这篇论文中,谷歌首次提出了思维链提示(chain of thought prompting)的概念。

简单来说,思维链提示就是一种特殊的上下文学习,不同于标准提示只是给出输入-输出对的示例(如下图左),思维链提示还会额外增加一段推理的过程(如下图右)

这一步的目的是让模型模仿并为当前问题生成自己的思维过程,最终提高生成结果的准确性。

该方法在LaMDA-137B、GPT-3 175B、PaLM-540B三个大型语言模型上都得到了验证:对比标准提示,新方法在算术、常识和符号推理任务的准确率上都有了明显的提高。

并且,随着模型参数量级的提升,思维链提示的效果也呈指数级上升。

尤其是配合上谷歌的超级语言模型PaLM-540B,在包括数学问题在内的多个推理基准测试中达到了SOTA水平,甚至超过了使用验证器进行微调的GPT-3。

很快,两个月后该团队又对该研究进行了跟进。

这篇文章几乎使用了和初代文章完全一样的数据集和设置,主要改进是提出了一种称为自洽性(self-consistency)的简单策略。

简单来说,就像人在思考时会想出几种不同的解决方案再作出判断一样,自洽方法会通过思维提示链从语言模型中采样一组不同的推理路径,再对答案进行多数投票(majority vote),最后返回其中最自洽的答案。

这一步优化不仅意味着离模仿人类思维模式更近一步,还做到了显著地提高思维链方法的性能。

最新的进展是,为了解决从易到难的泛化问题,该团队又提出了一种新颖的提示策略。

它将复杂问题简化为一系列子问题,然后依次解决这些子问题,从而通过对先前解决的子问题的答案来促进解决给定的子问题。

就这样,谷歌正在训练AI一步步朝着人类的思维模式靠近。

最后,说了这么多,这一年,你印象最深的谷歌AI研究是什么?

参考链接:
[1]
https://twitter.com/dmvaldman/status/1587525225209425921
[2]https://arxiv.org/abs/2201.11903
[3]https://arxiv.org/abs/2203.11171
[4]https://arxiv.org/abs/2205.10625

「AIGC系列直播 - 应用落地与商业化」直播报名

技术热潮之外,AIGC如何实际落地?又如何长期商业变现?

11月3-4日晚7点到8点,量子位智库联手国内头部AIGC企业及投资机构,为你解答,扫码预约~


点这里关注我 👇 记得标星噢 ~


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
扩散模型再下一城!AR-LDM:用扩散模型合成连贯视觉故事!输入字幕就能脑补画面,代词ta都分得清卷!MIT泊松流生成模型击败扩散模型,兼顾质量与速度卷!MIT提出泊松流生成模型击败扩散模型,兼顾质量与速度初创新型完整工业要有企业规则日本人的和栗情结One UI 5.0新测试版本发布,折叠屏率先开放测试医学生自学机器学习,利用GPT-3开发写作助手,收入月月翻倍,项目被收购后成人生赢家田渊栋等原班人马又一新作:AI生成长篇故事,数千字长文也能连贯、有趣放学后先写作业再玩,还是先玩再写作业?要看孩子的血槽空不空!傲基AUKEY弯口编织线,安卓CC口14.9元/2条,苹果CL口29.9元/条3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!视频生成经典模型资源(一):TGAN、VGAN、MoCoGAN、SVG、vid2vid、VideoVAE、DVD-GAN卷!用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词ta都分得清bāo huā shēng?bō huā shēng?如何生成「好」的图?面向图生成的深度生成模型系统综述|TPAMI2022田渊栋团队发布「长故事生成器」第二版DOC:连贯性大幅提升,趣味性提升20.7%!谷歌最新发布两大视频生成工作:720p高清+长镜头,网友:对短视频行业冲击太大...我的移民经历:看心理医生(上)(附上《爱在深秋》歌)华为智能编码助手、微软 VS code 开发工具最新技术实践 | QCon 上海7 Papers & Radios | 扩散模型只用文字PS照片;MIT泊松流生成模型击败扩散模型说走就走,坐老旧火车旅行(三十)端口开放测试直通2024年暑期实习,Bain首次开放超罕见Women Program!GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了TGANv2、VideoGPT、DVG…你都掌握了吗?一文总结视频生成必备经典模型(二)写好剧本直接出片!Google发布首个「讲故事」的视频生成模型首次不依赖生成模型,一句话让AI修图!随地吐痰与老海归谷歌新作:基于扩散模型的视频生成3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot清华CodeGeeX项目原作解读:大规模多语言代码生成模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。