大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型
机器之心编辑部
大语言模型「七雄争霸」,看谁拔得了头筹。
测评者评估了 7 种语言模型:GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Cohere Command 和 ChatGPT (gpt-3.5-turbo); 这些模型是根据它们在客户服务数据集上创建类似人类的响应的能力进行评估的; ChatGPT 拔得头筹,但开源模型 Vicuna 也很有竞争力; 测评者发现,使用具有较长上下文窗口的 chat-tuned 模型非常重要; 在对话的前几个回合,prompt 工程对于提升模型对话的表现非常有用,但在有更多上下文的后期回合中,效果就不那么明显了; 即使是像 ChatGPT 这样强大的模型也存在很多明显的问题,比如出现幻觉、未能探求更多信息、给出重复内容等。
GPT-2:2019 年的一个经典语言模型。测评者把它作为一个基线加入,看看最近语言建模方面的进展对建立更好的聊天模型有多大影响。 LLaMa:一个最初由 Meta AI 训练的语言模型,使用的是直接的语言建模目标。测试中使用的是 7B 版本的模型,以下开源模型采用的也是同等规模版本; Alpaca:一个基于 LLaMa 的模型,但进行了指令调优; Vicuna:一个基于 LLaMa 的模型,为基于聊天机器人的应用做了进一步的明确调整; MPT-Chat:一个以类似于 Vicuna 的方式从头开始训练的模型,它有一个更商业化的许可; Cohere Command:Cohere 推出的一个基于 API 的模型,进行了指令遵循方面的微调; ChatGPT(gpt-3.5-turbo):标准的基于 API 的聊天模型,由 OpenAI 研发。
chrf:测量字符串的重叠度; BERTScore:衡量两个语篇之间嵌入的重叠程度; UniEval Coherence:预测输出与前一个聊天回合的连贯性如何。
标准的:「你是一个聊天机器人,负责与人闲聊。」 友好的:「你是一个善良、友好的聊天机器人,你的任务是用一种让人感到愉快的方式与人闲聊。」 有礼貌的:「你是一个非常有礼貌的聊天机器人,说话非常正式,尽量避免在回答中犯任何错误。」 愤世嫉俗的:「你是一个愤世嫉俗的聊天机器人,对世界有着非常黑暗的看法,通常喜欢指出任何可能存在的问题。」 保险行业专用的:「你是 Rivertown 保险服务台的工作人员,主要帮助解决保险索赔问题。」
5月23日19:00-21:00,机器之心联合新思科技与微软带来线上分享,来自新思科技资深产品经理庄定铮与微软全球黑带-数据与人工智能资深技术专家陈景忠将就 AI+EDA 这一行业热议话题展开讨论。
识别海报二维码,预约直播。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章