Redian新闻
>
清华系千亿基座对话模型ChatGLM启动内测,开源单卡版模型(10个邀请码)

清华系千亿基座对话模型ChatGLM启动内测,开源单卡版模型(10个邀请码)

公众号新闻
机器之心报道
机器之心编辑部

我们问了 ChatGLM 几个关键问题,它给的回答似乎很不错。


ChatGPT 的发布,搅动了整个 AI 领域,各大科技公司、创业公司以及高校团队都在跟进。近段时间,机器之心报道了多家创业公司、高校团队的研究成果。

昨日,又一国产 AI 对话大模型重磅登场:由清华技术成果转化的公司智谱 AI 基于 GLM-130B 千亿基座模型的 ChatGLM 现已开启邀请制内测。

值得一提的是,此次智谱 AI 也开源了中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用。



内测申请网址:chatglm.cn

据了解,ChatGLM 当前版本模型的能力提升主要来源于独特的千亿基座模型 GLM-130B。它是不同于 BERT、GPT-3 以及 T5 的架构,是一个包含多目标函数的自回归预训练模型。

2022 年 8 月,清华大学联合智谱 AI 向研究界和工业界开放了拥有 1300 亿参数的中英双语稠密模型 GLM-130B,该模型有一些独特的优势:

  • 双语:同时支持中文和英文;
  • 高精度(英文):在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B;
  • 高精度(中文):在 7 个零样本 CLUE 数据集和 5 个零样本 FewCLUE 数据集上明显优于 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B;
  • 快速推理:首个实现 INT4 量化的千亿模型,支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理;
  • 可复现性:所有结果(超过 30 个任务)均可通过我们的开源代码和模型参数复现;
  • 跨平台:支持在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。

如今, 参考 ChatGPT 的设计思路,ChatGLM 在千亿基座模型 GLM-130B 中注入了代码预训练,通过有监督微调(Supervised Fine-Tuning)等技术实现人类意图对齐。

机器之心获得了内测邀请码,这里简单和 ChatGLM 进行了对话,效果如下:




它能够理解「站 CP」的实际涵义:


给 ChatGLM 一个数学问题试试:


自从学会了二元一次方程,像这种基础的「鸡兔同笼」问题就再也难不倒它了:


开源 ChatGLM-6B
 
ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。

模型开源地址:https://github.com/THUDM/ChatGLM-6B
 
具体来说,ChatGLM-6B 具备以下特点:

  • 充分的中英双语预训练:ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。
  • 优化的模型架构和大小:吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统 FFN 结构。6B(62 亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。
  • 较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。
  • 更长的序列长度:相比 GLM-10B(序列长度 1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。
  • 人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback)等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。

不过由于 ChatGLM-6B 模型的容量较小,不可避免的存在一些局限和不足,包括:

  • 相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息,也不太擅长逻辑类问题(如数学、编程)的解答。
  • 可能会产生有害说明或有偏见的内容:ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。
  • 较弱的多轮对话能力:ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成和多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。

GLM 团队表示,ChatGLM 距离国际顶尖大模型研究和产品还有一定差距,未来将持续研发并开源更新版本的 ChatGLM 和相关模型。GLM 团队也欢迎大家下载 ChatGLM-6B,基于它进行研究和(非商用)应用开发。

最后,读者福利,我们提供 10 个邀请码让读者体验ChatGLM,请微信留言,先到先得。


探寻隐私计算最新行业技术,「首届隐语开源社区开放日」报名启程


春暖花开之际,诚邀广大技术开发者&产业用户相聚活动现场,体验数智时代的隐私计算生态建设之旅,一站构建隐私计算产业体系知识:

  • 隐私计算领域焦点之性

  • 分布式计算系统的短板与升级策略

  • 隐私计算跨平台互联互通

  • 隐语开源框架金融行业实战经验

3月29日,北京·798机遇空间,隐语开源社区开放日,期待线下面基。

点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
VPGTrans: 用10%的成本定制一个你自己的GPT-4多模态对话模型国产类ChatGPT密集开测,单卡能跑大模型,生成式AI热潮爆发部署国产ChatGPT仅需6G显存!ChatYuan模型开放下载:业内首个功能型对话开源中文大模型小红Mall新老用户无门槛减 $5 折扣码 “SQUS5”,注册奖励 $5 邀请码 “HONGMALLUS”为什么我不吃益生菌类补品?写周报、改代码,连续互动20轮,国产类ChatGPT新玩家「天工」来了(赠邀请码)吃在邮轮塔州1月5日前递交申请的审理即将出炉!西澳190最新数据,2000个邀请花落谁家!3090单卡5小时,每个人都能训练专属ChatGPT,港科大开源LMFlow爆款应用!有人找回20万,有人晒出162个账户,E账户能找钱,邀请码哪里来?上南方基金APP,不求人自己能搞定京东百亿补贴已启动内测,奥迪诉蔚来商标侵权请求被驳回,严厉打击风水预测股市的行为,传快手入局本地生活,这就是今天的其它大新闻!熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩体验过百度文心一言,也许真会超出你的预期(5个邀请码)NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5彭博投资组合分析工具月报 | 揭秘彭博MAC3全球股票风险模型(1)基金E账户能找钱,邀请码哪里来?上南方基金APP清华系ChatGPT发布!唐杰团队打造,专对中文优化,还能把握最新新闻动态定了!Arm启动赴美IPO,孙正义本周签署协议开源模型、单卡训练,带你了解爆火的文本指导音频生成技术AudioLDMChatGPT逼急谷歌CEO皮查伊:开启万人全员内测,每人花2~4小时玩BardVPGTrans: 用10%的成本定制一个你自己的GPT4多模态对话模型他们开源了GitHub上最火的双语对话模型,还说AI胡说八道不需要被纠正Google内部文件首次泄漏:ChatGPT 没有护城河,开源才是大模型未来VPGTrans:10% 的成本定制你自己的类 GPT-4 多模态对话模型全民K歌《我是你的格桑花》第二次徒步圣路,750公里葡萄牙之路+英国之路:D30~惊魂难定调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了由ChatGPT反思大语言模型(LLM)的技术精要荒诞华夏的操蛋事北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%超级对话模型 ChatGPT,除了对话还能做什么?谷歌没开源的PaLM,网友给开源了!千亿参数微缩版:最大只有10亿,8k上下文港科大开源LMFlow!3090单卡5小时,每个人都能训练专属ChatGPT清华系千亿基座对话模型ChatGLM开启内测,单卡版模型已全面开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。