Redian新闻
>
GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞

GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞

公众号新闻



  新智元报道  

编辑:桃子
【新智元导读】UC伯克利发布了新版Vicuna v1.5,基于Llama 2微调而来,支持4K和16K上下文。

GPT-4最强平替更新了!

这次,基于全新的Llama 2,UC伯克利发布了更新版Vicuna v1.5。

不仅支持4K和16K上下文,并且在几乎所有基准测试中取得了SOTA。

自3月发布以来,Vicuna已成为最受欢迎的聊天LLM之一。它在多模态、AI安全和评估方面的研究具有开创性。

上个月,Vicuna模型在Hugging Face上的下载量超过了200万次。

LeCun也转发了基于自家模型搭建的新版Vicuna。

最新模型权重


Vicuna基于LLaMA,应在LLaMA的模型许可下使用。

你可以使用下面的命令开始聊天。

它会自动从Hugging Face存储库下载权重。在下面的「使用命令行界面进行推理」部分中查看更多命令选项以及如何处理内存不足。

注意:transformers>=4.31 是16K版本所必需的。

目前,有可试用的demo。

https://chat.lmsys.org/

Vicuna的优秀项目


MiniGPT4

地址:https://minigpt-4.github.io

MiniGPT-4的新模型,使用先进的大型语言模型Vicuna进行调优。

它在文本预言方面可以达到ChatGPT的90%。在视觉感知方面,研究人员还使用了与BLIP-2相同的预训练视觉组件。

其中组件由EVA-CLIP的ViT-G/14和Q-Former组成。

MiniGPT-4 只添加了一个映射层,将编码的视觉特征与Vicuna语言模型对齐,冻结了所有视觉和语言组件参数。

LLaVA

地址:https://llava-vl.github.io

LLaVA是一个由威斯康星大学麦迪逊分校、微软和哥大研究人员共同发布的多模态大模型。

该模型结合了视觉编码器和Vicuna对于通用的视觉和语言理解。

其能力接近GPT-4的图文理解能力,相对于GPT-4获得了85.1%的相对得分,并在科学QA上实现了当前最先进的准确性。

LLM-Attacks

地址:https://llm-attacks.org

CMU和人工智能安全中心的研究人员发现,只要通过附加一系列特定的无意义token,就能生成一个神秘的prompt后缀。

由此,任何人都可以轻松破解LLM的安全措施,生成无限量的有害内容。

有趣的是,这种「对抗性攻击」方法不仅突破开源系统的护栏,而且也可以绕过闭源系统,包括ChatGPT、Bard、Claude等。

Gorilla

地址:https://github.com/ShishirPatil/gorilla

Gorilla是一种基于LLaMA架构的大型语言模型,它可以生成合适的API调用。

它在Torch Hub、TensorFlow Hub和HuggingFace等三个大型机器学习库的数据集上进行了训练。

Gorilla还可以快速添加新的领域知识,包括Kubernetes、GCP、AWS、OpenAPI等。

在零样本的情况下,Gorilla的表现优于GPT-4、ChatGPT和Claude等模型。

QLoRA

地址:https://github.com/artidoro/qlora

华盛顿大学的研究人员首次证明,在不损失模型性能的前提下,也可以微调量化的4位模型。

他们提出的新方法QLoRA,使用一种新的高精度技术将预训练模型量化为4位,然后添加一小部分可学习的低秩适配器权重。

这些适配器权重通过量化权重的反向传播梯度进行调整。

QLoRA方法证明了4位量化模型也可以进行有效的微调,达到与全精度模型相当的性能。

ToolLLaMA

地址:https://github.com/OpenBMB/ToolBench

ToolLLM这个项目,是为了构建开源、大规模、高质量的指令调优SFT数据集,以促进构建具有通用工具使用能力的强大语言模型。

研究人员表示,开源LLM能够掌握数千种不同的现实世界API,并通过收集高质量的指令调优数据集来实现这一点。

参考资料:
https://twitter.com/ylecun/status/1687127960434716672
https://twitter.com/lmsysorg/status/1686794639469371393?s=46&t=iBppoR0Tk6jtBDcof0HHgg



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT现在飞中国的机票贵的简直太离谱了!碾压Llama2!微软13亿参数phi-1.5,单个A100训练,刷新SOTAvivo首款自研6nm芯片!AIGC算法加持,支持4K电影级人像视频32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”下载量超300w的ChatGLM-6B再升级:8-32k上下文,推理提速42%最新QS世界大学排名公布,UC伯克利跻身TOP 10第一章 个体的行为法则(全文)研究 I 美国最危险五所大学,UC伯克利在列ChatGPT凌晨重磅更新!GPT-3.5/4双升级:上下文飙升4倍,用API自己造插件Stable家族上新!全新编码工具StableCode,16000上下文,5个Python文件同编辑GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告UC伯克利教授惊人预测:2030年GPT可执行人类180万年工作,一天学2500年知识恐怖!UC伯克利学生被持枪劫持!性侵、吸毒犯罪频发引关注UC伯克利脑机接口新突破!利用脑电波即可复现歌曲,语言障碍者有福了?将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一无限量访问GPT-4!ChatGPT企业版来了,可扩展32k上下文,代码解释器随便用Llama 2宇宙大爆炸!伯克利实测排第8,iPhone本地可跑,一大波应用免费玩,LeCun狂转NATTI,你离我越来越近了(下)研究称AI绘画碳排放仅为人类画家1/2900,LeCun转发ChatGPT最强平替告别纯免费!Claude会员版每月140,对话量可提高5倍见证了世界移民史奇迹的绿酱国内团队提出全新RLTF框架,刷新SOTA!大模型生成代码质量更高bug更少LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention看NBA决赛的启示用语言建模世界:UC伯克利多模态世界模型利用语言预测未来重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做ChatGPT企业版来了:历史最强版本,2倍速GPT-4使用无限制、32k上下文CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTAChatGPT大更新!OpenAI奉上程序员大礼包:API新增杀手级能力还降价,新模型、4倍上下文都来了首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。