大模型技术进入人们视野已经 1 年,带来的生产效率提高有目共睹。然而,真正的现象级应用还没有诞生,留下了极大的机会。
阿里、腾讯、百度、字节等公司,纷纷宣布用大模型重构其原有应用,拼多多最近也被曝光加入自研大模型的行列。而近期,另一个令人期待的玩家,也加入了战局。11 月 14 日,阿里巴巴智能信息事业群发布了千亿级参数的自研夸克大模型,一经发布,就登顶 C-Eval 和 CMMLU 两大权威评测榜单。乘借 AI 重构应用的风潮,夸克大模型将对旗下产品矩阵和服务进行全面升级。夸克技术负责人蒋冠军表示:「在去年 GPT 发布以后,我们就加速了大模型的相关工作,早期的模型能力就达到了比较高的水平。现在发布,就是希望在产品侧能做出具体的应用和体验后再对外。」夸克 App 在 2018 年推出,从推出之际,就想成为年轻人的智能助手。目前,夸克 App 已经集成了搜索、扫描、网盘、文档等多种功能。在自研大模型的加持下,夸克打算在教育和健康两个领域率先发力,成为一款领先的智能信息产品。
大模型「学霸」,
升学、职考水平
全面超越 GPT-3.5
此次夸克发布的大模型,是一个千亿参数的通用大模型。蒋冠军表示,夸克大模型整体水平优于 GPT-3.5,在多语言翻译、写代码、安全合规、内容创作等方面处在国内行业头部水平。与其他公司发布的大模型相比,夸克大模型具有更强的知识正确性。目前,国内外的任何大模型,都不能宣称自己能够完全摆脱幻觉,不过已经有不少如监督微调(SFT)的技术,能够降低模型的错误率。夸克大模型对自己的知识正确性能力显得十分自信。在不少厂商都闭口不谈幻觉率的时候,夸克主动给出一个数字:5%。在健康等非常重要的领域中,夸克已经可以将问答内容的幻觉率降低至 5%。能够做到这些,夸克大模型在解决幻觉问题上着实下了不少功夫。据蒋冠军介绍,首先,在模型的预训练过程中,夸克就花了大量的时间和精力,进行了数据准确性的校验和对齐。第二,是人类对齐。夸克大模型对于 SFT 人工标注样本的准确率要求非常高。夸克使用了非常细致的方法进行初审、抽查和再审查。在这两点中,夸克的搜索引擎能力,为夸克大模型的建设,起到了很好的支撑作用。「我们之前做通用搜索,积累了许多行业数据。同时,因为我们之前做搜索,本身就需要对网页内容有一个理解对齐和校验的体系,可以很好地迁移到大模型的对齐能力上来。」蒋冠军表示。除此之外,作为一个千亿模型,模型参数的量级和夸克团队对模型本身的改进,也降低了幻觉问题。为了展现自己的知识正确性能力,夸克大模型不但在常见的大模型测试榜单上对大模型进行了测试——在 CMMLU 榜单评测中,夸克大模型以平均 77.08 分的成绩位列总成绩第一,并占据社会科学和其他两个类目的首位。在 C-Eval 榜单中,夸克大模型平均分达到 89 分,稳居行业第一,同时在社会科学、人文科学和其他三个类目中位列榜首——还让大模型来到真实世界,像考生一样,开考人类的试卷。夸克大模型的团队为夸克搜集了 2020-2023 年间的 45 种考试,包括初考、中考、高考、考研考试和包括注册会计师和国家司法考试等各项职业考试的试题。夸克大模型的整体表现非常突出,整体超越了 GPT-3.5 的水平,部分超越了 GPT-4 的水平。准确率>80% 的科目为 11 科,堪称「学霸」。夸克大模型考试成绩
作为一个用高质量中文语料训练出的大模型,夸克大模型在高考语文、教育学联考、国家公务员考试等极具中国特色的考试中,准确率高于 GPT 70%。而同时,其英文能力仍然极强——蒋冠军表示,夸克大模型的英文试卷几乎是满分。在多个领域中,夸克大模型更强调自己在教育和健康两个领域的发力。据悉,夸克用户超过 50% 都来自于 25 岁以下的年轻群体。在夸克大模型推出前,夸克 App 已经在教育领域累计了许多相关的应用,比如夸克学习,用户可以选择年级后,就能看到本地试卷、备考锦囊、典型题精讲等不同学习内容。这些都涉及到获取教育全行业数据,包括各种资料、教案、题库、知识点。而这些优质的教育数据,又转而帮助夸克更好地完成大模型训练阶段,这也是夸克大模型之所以能够成为学霸的原因之一。与其他大模型相比,夸克大模型从训练时就更关注除了答对问题之外,能输出它是如何一步步解决问题,能理解题目中考查了哪些知识点。在现场演示中,蒋冠军向大模型提出了一个问题,「英语介词中的 in 和 on 有什么区别?」大模型首先给出了一段两个词定义上的区别,两个介词含义不同、用法不同、侧重点不同。接下来对大模型的追问中,夸克大模型还能进一步举出两个词在英语语境中的例子。夸克技术负责人蒋冠军蒋冠军表示,「AI 基本上可以教我女儿英语了。」而后续,这样的能力,将被嵌入进夸克的教育应用中。「目前,大模型做教育主要有两方面的问题。一方面是大模型的推理和梳理能力还没那么好,另一个是图像多模态的能力在教育领域还发挥得不好。即使是 OpenAI 的模型目前也做不了几何题。」蒋冠军表示,「我们会根据用户需求,先去做大量的 AIGC 内容,升级目前已有的文档资料的阅读理解和错题收集。在这个基础上,未来像教授 in 和 on 的这种模式,已经有点像初级家教了,这是我们努力的方向。」健康则是夸克大模型目前努力的另一垂直领域。在发布大模型之前,夸克就做了很多健康行业的数据建设和知识建设。由于夸克健康数据都是经过医生三审三校的结果,本身就很强调知识正确性的夸克大模型,在健康数据上的准确率能到达 95%,因此可用性更强。「关键错误率实际上更低的。目前 5% 的错误率实际上包括了一些易混淆的相似症状等非关键错误。」蒋冠军表示。在健康行业,夸克会提供健康信息的查询服务,比如科普问答等。与教育应用一样,夸克大模型会更重视大模型是如何得到结论的。用户从夸克大模型中获取了某项建议后,还将可以点击查看大模型的某句建议具体来自于哪条健康指南和教科书。在未来,夸克大模型还希望能够构建更加友好的用户服务方式,比如围绕健康场景,用户描述症状后,大模型可以进一步询问用户是否具有常见的相关症状。除了行业的特殊能力外,夸克 App 核心的三个功能:搜、用、存,也已经开始进行大模型方向的升级。比如「存」的功能,夸克网盘目前上线的 AI 自然语言搜索功能,仅通过模糊词、形容词等关键信息,就能快速找到照片、文档等云端资料,核心就来自于大模型的能力。未来,夸克大模型将进一步应用于搜索、智能工具和资产管理助手等场景,为年轻人工作、学习、生活提供更全面的服务。一经公布就霸榜 CMMLU 和 C-Eval,在解决幻觉、健康和教育等领域都有突出优势,离不开夸克 App 多年的搜索经验。「研发大模型时,我们一开始比较紧张。但是很快我们就确信了,夸克大模型在国内不会太差。」蒋冠军表示。其中,核心的原因就是夸克是做搜索领域出身的团队,「我们做大模型有天然的优势」。这点在大模型领域也得到了一再地验证:国外头部的模型和应用训练者谷歌和微软,都具有做搜索引擎的经验。微软推出基于大模型的搜索引擎 New Bing蒋冠军总结了搜索引擎经验对于团队研发大模型的几点助力:首先是数据的优势。做搜索引擎的经验,让夸克积累了非常全面和高质量的数据。做通用搜索引擎本身就需要覆盖千行百业的知识和数据,甚至需要积累英语和其他语言的知识。不但如此,做搜索引擎的经验,还让团队积累了一套对于网页内容质量的评估体系。「搜索引擎本身就意味着海量的网页数据。我们在千亿级别的网页里,选择了数亿质量特别高的网页,这个筛选特别复杂。不是做搜索引擎的厂商,要完成这项任务,成本和代价非常高。」蒋冠军表示。第二是人才的优势。在通用搜索中,网页搜索、图片搜索、视频搜索、文档搜索等等,本来就需要多种的多模技术能力,而这些人才,都可以转而沉淀到大模型的团队中。据悉,为了实现全栈自研的技术路线,夸克搭建了数百人规模的独立产研团队。第三,是算力优化方面的优势。大模型目前面对的一大问题是在线推理太贵。而做过搜索引擎的团队,在优化大算力请求方面,也有比较好的解决方案。「夸克之前就能服务亿级别的在线请求。」蒋冠军表示。除了做搜索引擎的经验,夸克在研发大模型方面还有一些自己独特的优势。比如在所有大模型团队都要面临的优质 SFT 数据稀缺,对齐的问题上,由于夸克很早就深耕教育、健康领域,夸克能够拿到许多其他大模型团队没有的优质数据。「我们不止有行业的比较好的数据积累,在这些行业里,我们团队中之前做过医生或当过老师,且他们的主要工作就是生产专业的医学知识。开始做大模型后,我们转而很快建立了专业团队,生产大模型需要的 SFT 样本和知识体系。这个上面,我们在国内走得比较前列。」蒋冠军表示。在许多大模型都意在提供通用服务之时,夸克大模型的诞生从一开始就是为夸克 App 量身定做的,利用夸克独有的数据优势,意在把夸克打造成真正的智能助手。虽然具有千亿参数的模型,但更注重将模型应用到产品中,稳扎稳打的夸克大模型或将成为国内大模型中独特的一极。
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
OpenAI 前员工发布匿名信举报 Sam Altman 和 Greg Brockman 欺瞒和操纵行为,希望董事会调查。举报信经马斯克推特转发不久就遭删除。