1、 针对涌现,最核心的论文是以下两篇,可供进一步详细阅读:Google+DeepMind+Stanford等16位大牛合作的论文《Emergent Abilities of Large Language Models》(大语言模型的涌现能力)(https://openreview.net/pdf?id=yzkSU5zdwD)、UCLA 3位教授合写的论文《Emergent Analogical Reasoning in Large Language Models》(类比推理能力在大语言模型中的涌现)(https://arxiv.org/pdf/2212.09196.pdf)。
2、 Google联合132个机构的442位作者设计的基准测试——超越模仿游戏基准(Beyond the Imitation Game Benchmark,BIG-bench),论文链接如下:https://arxiv.org/pdf/2206.04615.pdf,测试了很多大模型的性能,都是在这个新基准之上做的。它包含了204项任务,内容多种多样,包括语言学、数学、常识推理、生物学、物理学、社会学、编程等各个方面,并且还有一个由人类专家组成的对照组,他们也同时来做这些测试任务,以跟大模型的结果做对比。
3、 研究如何分配总算力,如何在参数规模、训练数据量之间权衡取舍?Chinchilla模型的效果如何?详细可见DeepMind 21位作者发布的Training Compute-Optimal Language Models(https://arxiv.org/pdf/2203.15556.pdf)。DeepMind发现当前的大型语言模型存在明显训练不充分的问题,这是因为大家过于关注扩展大语言模型的参数,但没有同步增加训练数据量所导致的,所以DeepMind训练了一个参数规模更小、但训练数据量更大的优化模型 Chinchilla 来检验这一假设。
4、 类似DeepMind的Chinchilla,另一个“小”模型的例子,Meta推出的LLaMA,可在配备M1芯片的苹果电脑,或者单个英伟达消费级GPU上运行,并且LLaMA是开源的,详细可见这篇论文LLaMA:Open and Efficient Foundation Language Models(https://arxiv.org/pdf/2302.13971.pdf),也讨论了给定总算力预算下,该如何分配参数规模、训练数据量与训练步数/时长。
5、 以上是两个“小”模型的例子,而对于超大模型,Google在今年3月发布了史上最大的“通才”多模态模型PaLM,它有540B参数,PaLM-E更是有562B参数。关于这个超大模型,可见Google Research 67位作者联合署名的这篇论文:PaLM:Scaling Language Modeling with Pathways(https://arxiv.org/pdf/2204.02311.pdf)。
6、 微软针对GPT-4的论文,详细分析了GPT-4的各种表现,并且提出了对能力涌现的疑问,详细可见:https://arxiv.org/pdf/2303.12712.pdf。
7、 基于人类反馈的fine-tuning策略,OpenAI训练了InstructGPT,尽管参数规模小很多(只有1.3B),但InstructGPT比175B参数规模的GPT-3,在真实性和减少有毒输出方面表现更好,这种方法被证明是保持大语言模型与人类意图一致的潜在方法。详细可见OpenAI的论文:Training language models to follow instructions with human feedback(https://arxiv.org/pdf/2203.02155.pdf)。
8、 另一个通过人类反馈的强化学习(RLHF),来微调语言模型的例子是Anthropic做的,这家新公司创立于2021年,由OpenAI的早期核心员工离职创立,他们致力于解决AI“黑盒子”的问题,希望能够解释AI真正的工作原理,提升安全性。这篇论文由31位Anthropic的作者联合署名,详细可见:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback(https://arxiv.org/pdf/2204.05862.pdf)。
9、 如果你想进一步研究ICL(in-context learning,上下文学习),ICL的表现大幅超越零监督学习,并给大模型高效运用提供了新的思路,但其工作机制仍有待研究。可以看这2篇:OpenAI写的:《Language Models are Few-Shot Learners》(https://arxiv.org/pdf/2005.14165.pdf);以及华盛顿大学、Meta、Allen Institute for AI合著的论文:《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》(https://arxiv.org/pdf/2202.12837.pdf)。
10、 关于CoT,CoT(思维链,Chain of Thought)是大语言模型推理能力的重要来源之一,最早系统性提出CoT做法的,是Google Brain团队,9位作者在论文Chain of thought prompting elicits reasoning in large language models中系统性阐述了CoT,详细可见:https://arxiv.org/pdf/2201.11903.pdf。
11、 为何会出现U型曲线?Google在论文Inverse scaling can become U-shaped中给出了包含了不同类型的子任务,一种是真正的任务,另外一种是“干扰任务”,详细可见:https://arxiv.org/pdf/2211.02011.pdf。
12、 对于论证浅层语言知识,比如词法、词性、句法等知识,存储在Transformer的低层和中层;而抽象的语言知识比如语义类知识,广泛分布在Transformer的中层和高层,以下两篇论文做了深度的研究工作,这些论证研究工作对大语言模型的发展至关重要。详细可见:BERTnesia:Investigating the capture and forgetting of knowledge in BERT(https://arxiv.org/pdf/2106.02902.pdf)和Transformer Feed-Forward Layers Are Key-Value Memories(https://arxiv.org/pdf/2012.14913.pdf)。
13、 目前大语言模型在复杂推理方面仍然有局限性,加州大学圣芭芭拉分校5位研究者在论文Limitations of Language Models in Arithmetic and Symbolic Induction,研究了这个问题,详细可见:https://arxiv.org/pdf/2208.05051.pdf。
14、 新浪微博AI Lab负责人张俊林对大语言模型技术及涌现现象有过详细的综述,本文部分内容援引自他的综述,可见《由ChatGPT反思大语言模型(LLM)的技术精要》,感谢他对此做了体系化的综述。