Redian新闻
>
ChatGPT核心方法可用于AI绘画,效果飞升47%,通讯作者:已跳槽OpenAI

ChatGPT核心方法可用于AI绘画,效果飞升47%,通讯作者:已跳槽OpenAI

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT中有这样一个核心训练方法,名叫“人类反馈强化学习(RLHF)”。

它可以让模型更安全、输出结果更遵循人类意图。

现在,来自谷歌Research和UC伯克利的研究人员发现,将该方法用在AI绘画上,“治疗”图像跟输入不完全匹配的情况,效果也奇好——

可以实现高达47%的改进。


△ 左为Stable Diffusion,右为改进后效果

这一刻,AIGC领域中两类大火的模型,似乎找到了某种“共鸣”。

如何将RLHF用于AI绘画?

RLHF,全称“Reinforcement Learning from Human Feedback”,是OpenAI和DeepMind于2017年合作开发的一种强化学习技术。

正如其名,RLHF就是用人类对模型输出结果的评价(即反馈)来直接优化模型,在LLM中,它可以使得“模型价值观”更符合人类价值观。

而在AI图像生成模型中,它可以让生成图像与文本提示得到充分对齐。

具体而言,首先,收集人类反馈数据

在这里,研究人员一共生成了27000余个“文本图像对”,然后让一些人类来打分。

为了简单起见,文本提示只包括以下四种类别,分别关乎数量、颜色、背景和混合选项;人类的反馈则只分“好”、“坏”与“不知道(skip)”。

其次,学习奖励函数。

这一步,就是利用刚刚获得的人类评价组成的数据集,训练出奖励函数,然后用该函数来预测人类对模型输出的满意度(公式红色部分)

这样,模型就知道自己的结果究竟有几分符合文本。

除了奖励函数,作者还提出了一个辅助任务(公式蓝色部分)

也就是当图像生成完成后,模型再给一堆文本,但其中只有一个是原始文本,让奖励模型“自己检查”图像是否跟该文本相匹配。

这种逆向操作可以让效果得到“双重保险”(可以辅助下图中的step2进行理解)

最后,就是微调了。

即通过奖励加权最大似然估计(reward-weighted likelihood maximization)(下公式第一项),更新文本-图像生成模型。

为了避免过拟合,作者对预训练数据集上的NLL值(公式第二项)进行了最小化。这种做法类似于InstructionGPT (ChatGPT的“直系前辈”)

效果提升47%,但清晰度下滑5%

如下一系列效果所示,相比原始的Stable Diffusion,用RLHF微调过后的模型可以:

(1)更正确地get文本里的“两只”和“绿色”;

(2)不会忽略“大海”作为背景的要求;

(3)想要红老虎,能给出“更红”的结果。


从具体数据来看,微调后的模型人类满意度为50%,相比原来的模型(3%),得到了47%的提高。

不过,代价是失去了5%的图像清晰度。

从下图我们也能很清楚的看到,右边的狼明显比左边的糊一些:

对此,作者表示,使用更大的人类评价数据集和更好的优化 (RL) 方法,可以改善这种情况。

关于作者

本文一共9位作者。

一作为谷歌AI研究科学家Kimin Lee,韩国科学技术院博士,博士后研究在UC伯克利大学展开。

华人作者三位:

Liu Hao,UC伯克利在读博士生,主要研究兴趣为反馈神经网络。

Du Yuqing,同UC伯克利博士在读,主要研究方向为无监督强化学习方法。

Shixiang Shane Gu (顾世翔),通讯作者,本科师从三巨头之一Hinton,博士毕业于剑桥大学。


△ 顾世翔

值得一提的是,写这篇文章时他还是谷歌人,如今已经跳槽至OpenAI,并在那里直接向ChatGPT负责人报告。

论文地址: 

https://arxiv.org/abs/2302.12192

参考链接:
[1]
https://twitter.com/kimin_le2/status/1629158733736718336
[2]https://openai.com/blog/instruction-following/

《中国AIGC产业全景报告暨AIGC 50》调研启动

谁会是中国的“ChatGPT”?最有竞争力和潜力的AIGC力量位于何方?

量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术能够被大众看到。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙OpenAI发布GPT-4:能识图能算税,ChatGPT摆脱Chat,再次进化微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!Agustín Hernández:中美洲建筑背景下的未来主义巨构美信全球项目[OpenAI]推出GPT-4,ChatGPT炸裂大升级邓小平在起落中如何使用汪东兴GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型深扒ChatGPT核心技术,在AI浪潮中狂飙!| 文末赠书OpenAI老板害怕ChatGPT,比亚迪智能手表来了,李开复要建中国OpenAI,百度网盘限速破解,这就是今天的其他大新闻!想起我爸如何判断此番是否“境外势力”作祟的办法:老大用自己做“诱饵”OpenAI发布GPT-4,全面升级ChatGPT妈妈能否熬过这一关iPhone 15 Pro系列或涨价/苹果在做类ChatGPT产品/OpenAI联合创始人谈GPT-4谷歌Bard被曝剽窃ChatGPT?BERT一作跳槽OpenAI,揭惊天内幕集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布ChatGPT 带火 OpenAI!华盛顿大学博士放弃高校 offer,加入 OpenAIChatGPT影响调研:已有45.5%的人把AI用于工作,4%靠它赚到钱亲测可用!无需等待,按这个方法注册微软 New Bing自带GPT-4秒通过!比GPT-3香多了!说“在一周内6名院士去世”是正常的,看看这张图?突发!ChatGPT遭多国调查,OpenAI凌晨就安全问题发文,GPT-5要暂缓?ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇ChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!ChatGPT全新功能公开演示!OpenAI总裁:ChatGPT会重新定义计算机(全文记录)创新药研发ChatGPT呼之欲出,医图生科推出AceGPT能否复制OpenAI奇迹?谷歌Bard是拿ChatGPT数据训练的?BERT一作抗议无果,跳槽OpenAI...CBT核心技术应用限时优惠,创始人亲授【明日开课】ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?揭秘阿里达摩院类ChatGPT核心团队人才地图|36氪独家GPT-4发布!谁能迭代ChatGPT?还得是OpenAI自己「ChatGPT克星」升级:老师可以把全班作业丢进去检测了!华人作者:免费用水滴公司:已在内测类ChatGPT应用,主要用于保险营销和服务走,去搞ChatGPT!谷歌AI学者纷纷跳槽OpenAIChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。