27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神
新智元报道
新智元报道
【新智元导读】一直以来,UC伯克利团队的LMSYS大模型排行榜,深受AI圈欢迎。如今,最有实力的全新大模型排行榜SEAL诞生,得到AI大佬的转发。它最大的特点是在私有数据上,由专家严格评估,并随时间不断更新数据集和模型。
- 私有数据
- 不断发展
- 专家评估
代码
代码生成:根据给定的自然语言规范或描述创建新代码。 代码修复:识别并纠正现有代码中的错误。例如,调试、解决语法错误和修复逻辑错误。 代码理解:解释、阐明或澄清现有代码。例如,阐明某些代码段的工作原理,分解复杂算法。 代码修改:对现有代码进行更改或调整以满足新要求或条件。例如,更改功能,更新或增强特性。 代码优化:提高现有代码的性能。例如,提高效率,减少资源消耗(如内存或处理时间)。 学习辅助:帮助学习或理解编程概念、语言或工具。例如,提供最佳实践指导,解释编程概念。 代码翻译:将代码从一种编程语言转换为另一种语言,并根据目标语言的最佳实践调整代码结构、风格和习惯用法。 建议提供:提供关于编码实践、工具、库或框架的建议或意见。 注释改进:在现有代码中添加或改进注释。 测试开发:开发、增强或修复现有代码的测试。
测试栗子
结果分析
- GPT
- Gemini
- Claude
数学
测试栗子
指令跟随
测试栗子
西班牙语
方法
如何计算Elo评分排名
置信区间
LLM评估的重要性
LLM评估正在改进,但不久前他们的状态非常黯淡,定性经验常常与定量排名不一致。 这是因为良好的评估非常难以构建。 在特斯拉,我可能将1/3的时间花在数据上,1/3的时间花在评估上,1/3 的时间花在其他事情上。评估必须全面、有代表性、高质量,并测量梯度信号(即梯度下降不能太容易,也不能太难)。而且将定性和定量评估对齐之前,需要解决很多细节,其中有一些微妙的地方。 另一个不容易发现的地方是,任何开放(非私有)测试数据集都不可避免地泄漏到训练集中。人们直觉上的强烈怀疑这一点,这也是最近GSM1k流行的原因。 即使LLM开发人员尽最大努力,防止测试集渗透到训练集(以及模型记住答案)也很困难。当然,你可以尽力过滤掉训练集中与测试集完全匹配的内容,还可以过滤掉n-gram识别的近似匹配。但是,如何过滤掉合成数据重写或网上对数据的讨论内容?如果定期训练多模态模型,如何过滤数据的图像/屏幕截图?如何防止开发人员将训练数据(比如embedding)放到测试集中,并专门使用与测试集高度对齐(在向量空间)的数据进行训练? 最后一点是,并非所有我们关心的LLM任务都是可自动评估的(例如思考总结等),此时你希望让人类参与进来。但如何控制所有涉及的变量?例如人类评估者在多大程度上关注实际答案内容,或者长度、文字风格,或者如何看待模型拒绝回答的行为等等。 不管怎样,反直觉的一点是,良好的评估是困难的,且需要高度密集的工作,但非常重要,所以我很高兴看到更多的组织加入,努力做好这件事。
而且最近的一篇论文中有比较充分的证据。
论文地址:https://arxiv.org/html/2405.00332
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章