从专用到通用-预训练大模型和AI agent,浅谈人工智能的趋势和展望
引言
趋势一:从专用到通用-预训练大模型和智能代理
(1)预训练语言模型
(2)视觉和多模态预训练
(3)预训练模型的应用
从闭集到开集:预训练模型从大规模数据中学习到通用知识,打破了任务解决局限于特定类别的限制。例如,CLIP通过建立语言与视觉模态的关联,能够处理零样本的视觉理解任务;SAM能够对未见过的物体和场景进行有效分割等。 老问题、新理解:模型应用方式的演变也为我们提供了对传统问题理解的新视角。比如,小样本学习从依赖训练阶段的标注样本,转变为在推理阶段通过提示词注入样例上下文;零样本学习由于CLIP等隐性知识库的普遍存在,已逐渐转变为开放词汇学习的问题。 中间任务的边缘化:自然语言处理领域中,如分词、词性标注、NER等中间任务的重要性正在降低。经典的自然语言处理借鉴计算语言学,中间任务多是由人设计的。比如传统对话系统被设计成包含自然语言理解、对话管理和自然语言生成三个模块,每个模块又细分为若干个中间任务。然而,随着以自回归的方式预训练数据达到一定规模后,这些中间任务和模块被统一为了对下一个词元预测的问题。从上述介绍的隐喻图像理解例子,我们也能观察到视觉和多媒体领域的类似变化。 领域边界的模糊化:计算机视觉CV和自然语言处理NLP的领域界限正日益模糊。在传统机器学习时代,CV从NLP借鉴了基础的Bag-of-Words词袋模型表示方法;而在早期深度学习阶段,NLP则从CV引入了MLP、ResNet等网络结构,以及Dropout、批归一化等训练和优化技术。到了预训练大模型时代,CV先是借鉴了NLP的自监督预训练和自注意力机制,而随着LVM和VIdeoPoet等视觉GPT和视频生成GPT类模型的推出,两个领域正朝着多模态编码和自回归模块化结构统一的方向发展。
(4)AI Agent
机制工程的设计复杂性和应用泛化性:目前AI Agent的工具调用、任务规划通常涉及复杂的机制工程(mechanism engineering),即通过启发式方法编写包含逻辑结构和推理规则的提示词框架。这种手工设计方式难以适应不断变化的环境和用户需求。根据从手工设计到数据驱动学习的发展规律,面向AI Agent进行机制学习是可能的解决思路,以实现更加灵活自适应的智能代理行为。
可信与对齐:由于加入了记忆、执行、规划等环节,面向AI Agent的可信与对齐有新的问题需要解决。例如,在对抗鲁棒性方面,不仅要关注模型本身的抗攻击能力,还要考虑记忆载体、工具集、规划过程等的安全性;在处理幻觉问题上,除了感知和认知阶段的幻觉,还要考虑决策和行动阶段的幻觉。
长上下文规划和推理的一致性:在处理长对话或复杂任务时,Agent需要保持上下文的连贯性,确保其规划和推理过程与用户的长期目标和历史交互保持一致。 自然语言接口的可靠性:相比计算机语言严格的语法和结构,自然语言具有歧义和模糊性,可能导致指令理解和执行时出现错误。
趋势二:从能力对齐到价值对齐-可信与对齐
(1)可信:小模型时代的价值对齐
(2)大模型时代的价值对齐
AI工程化:可信大模型测试、诊断和修复
模型研发支持:测试和调试技术应集成为模块,嵌入到现有的研发流程中。这些模块需针对预训练模型的特性进行定制设计,以便研发人员能够迅速评估模型的性能,准确定位问题,并执行有效的优化措施。 下游应用开发支持:对于基于大模型的下游应用开发,测试和调试工具可以通过云服务的形式,在大模型平台上提供。这样,开发者便能够依据具体的应用场景对模型进行细致的评估和调整,从而简化模型的部署和运维流程,提升下游应用的可靠性和安全性。
AIGC普及:自然-合成数据的OOD问题
传统泛化问题:用自然数据训练,应用于自然数据。这是过去几十年研究主要关注的情况,很多任务在实验室条件下解决得很好了。 自然到合成数据泛化:用自然数据训练,应用于合成数据。也就是上述工作[15,16,17]讨论的情况。 合成到自然数据泛化:用合成数据训练,应用于自然数据。比如,ShareGPT数据集广泛应用与大语言模型训练,Sora可能使用游戏引擎合成训练数据。合成数据可以弥补自然数据的不足,推动模型能力的持续提升。这种情况预计会持续增长。 合成到合成数据泛化:用合成数据训练,应用于合成数据,这是合成数据内部的泛化性问题。
AI智能持续提升:超级对齐
趋势三:从设计目标到学习目标-预训练+强化学习
(1)预训练获得基础能力,强化学习进行价值对齐
(2)预训练模仿人类,强化学习超越人类
展望
(1)“真”多模态:从微调回归预训练
(2)系统一 vs. 系统二
3)基于交互的理解和学习
(4)超级智能 vs 超级对齐
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章