10万美元+26天,一个低成本千亿参数LLM就诞生了
机器之心报道
编辑:Panda W
训练一个 GPT 那样的千亿参数规模的大型语言模型需要多少钱和时间?北京智源人工智能研究院和中国科学院计算技术研究所等多所机构近日的一项研究发现可以用 10 万美元在 26 天内训练出一个有 1010 亿参数的 LLM;不仅如此,他们还在这项研究中提出了一种用于评估 LLM 的智商(IQ)的基准,可基于事实性知识之外的四个新方面对 LLM 的智能水平进行更为全面的评估。该项目的模型已发布,代码也将在未来开源。
论文:https://arxiv.org/pdf/2309.03852.pdf
模型:https://huggingface.co/CofeAI/FLM-101B
语言本质上是符号的。已经有一些研究在使用符号而非类别标签来评估 LLM 的智能水平。类似地,该团队使用了一种符号映射方法来测试 LLM 在未曾见过的上下文上的泛化能力。
人类智能的一大重要能力是理解给定的规则并采取相应的行动。这种测试方法已被广泛用在各种等级的测验中。因此,规则理解成为这里的第二项测试。
模式挖掘涉及到归纳和演绎,也是智能的重要组成部分。这一方法在科学发展历史中发挥了至关重要的作用。此外,各种竞赛的测试题也往往需要这种能力才能解答。受此启发,模式挖掘被选为第三个评估指标。
最后一个也很重要的指标是抗干扰能力,这也是智能的核心能力之一。已有研究指出,语言和图像都很容易被噪声干扰。考虑到这一点,该团队把抗干扰用作了最后一个评估指标。
研究者表示,这是首个使用增长策略从头开始训练超过千亿参数的 LLM 研究尝试。同时,这还是目前成本最低的千亿参数模型,成本仅 10 万美元。
通过改进 FreeLM 训练目标、有潜力的超参数搜索方法和功能保留型增长,这项研究解决了不稳定问题。研究者相信该方法也能为更广大的科研社区提供助力。
研究者也通过实验比较了新模型与之前的强大模型,其中既使用了面向知识的基准,也使用了新提出的系统性 IQ 评估基准。实验结果表明 FLM-101B 是一个有竞争力且稳健的模型。
该团队会发布模型检查点、代码、相关工具等,以推进千亿参数规模的汉语和英语双语 LLM 的研究开发。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者