浅析ChatGPT的原理及应用
1
『前言』
2
『ChatGPT展示』
3
『InstructGPT原理解读』
InstructGPT要做什么?
InstructGPT是怎么做的?
如何训练一个Reward Model
基于人工反馈的微调
实验结果
InstructGPT小结
4
『ChatGPT现存问题』
5
『思考与展望』
研究一些更底层的,大小模型都适用的问题 比如,如何提高模型的鲁棒性与泛化能力;如何提高模型的逻辑推理能力,即使强如ChatGPT,在一些复杂的推理问题中还是很难学会其中的底层逻辑,更多时候只是从已经看见过的数据中进行类比与生成。 研究一些与特定领域结合的任务 与其他领域结合,比如医疗,金融,生物制药等领域,通过融合相关领域的特异性知识,进行模型结构上的设置,融入一些巧思,做好特定的任务。比如前一阵子看到的scBERT,做的就是一项利用mRNA的表达进行细胞类型判断的任务,通过结合mRNA的特性与相关知识,设计了特有的类别编码与基因编码以及预训练任务,成功将预训练模型引入这一领域。 做以数据为中心的任务 OpenAI相关工作人员曾指出,在训练大模型的时候高质量的数据是至关重要的。吴恩达这两年也提出Data-centic AI(DCAI),将焦点从模型开发转移到数据层面,研究如何将有限的数据变得更多更好。
参考资料
[2]图片来自于视频"深度學習之應用: OpenAI InstructGPT 從人類回饋中學習 ChatGPT 的前身", 视频链接:https://www.youtube.com/watch?v=ORHv8yKAV2Q
[3]Ouyang, Long, et al. "Training language models to follow instructions with human feedback." arXiv preprint arXiv:2203.02155 (2022).
作者简介
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章