碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来
25个小样本的推理逻辑测试(ARC:AI2 Reasoning Challenge)、10个样本的尝试推理测试(HellaSwag)、5个样本的多任务准确性测试(MMLU)以及诚实测试(TruthfulQA)
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章25个小样本的推理逻辑测试(ARC:AI2 Reasoning Challenge)、10个样本的尝试推理测试(HellaSwag)、5个样本的多任务准确性测试(MMLU)以及诚实测试(TruthfulQA)
微信扫码关注该文公众号作者