GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞
新智元报道
新智元报道
【新智元导读】UC伯克利发布了新版Vicuna v1.5,基于Llama 2微调而来,支持4K和16K上下文。
GPT-4最强平替更新了!
这次,基于全新的Llama 2,UC伯克利发布了更新版Vicuna v1.5。
不仅支持4K和16K上下文,并且在几乎所有基准测试中取得了SOTA。
自3月发布以来,Vicuna已成为最受欢迎的聊天LLM之一。它在多模态、AI安全和评估方面的研究具有开创性。
上个月,Vicuna模型在Hugging Face上的下载量超过了200万次。
LeCun也转发了基于自家模型搭建的新版Vicuna。
最新模型权重
Vicuna基于LLaMA,应在LLaMA的模型许可下使用。
你可以使用下面的命令开始聊天。
它会自动从Hugging Face存储库下载权重。在下面的「使用命令行界面进行推理」部分中查看更多命令选项以及如何处理内存不足。
注意:transformers>=4.31 是16K版本所必需的。
目前,有可试用的demo。
https://chat.lmsys.org/
Vicuna的优秀项目
MiniGPT4
地址:https://minigpt-4.github.io
MiniGPT-4的新模型,使用先进的大型语言模型Vicuna进行调优。
它在文本预言方面可以达到ChatGPT的90%。在视觉感知方面,研究人员还使用了与BLIP-2相同的预训练视觉组件。
其中组件由EVA-CLIP的ViT-G/14和Q-Former组成。
MiniGPT-4 只添加了一个映射层,将编码的视觉特征与Vicuna语言模型对齐,冻结了所有视觉和语言组件参数。
LLaVA
地址:https://llava-vl.github.io
LLaVA是一个由威斯康星大学麦迪逊分校、微软和哥大研究人员共同发布的多模态大模型。
该模型结合了视觉编码器和Vicuna对于通用的视觉和语言理解。
其能力接近GPT-4的图文理解能力,相对于GPT-4获得了85.1%的相对得分,并在科学QA上实现了当前最先进的准确性。
LLM-Attacks
地址:https://llm-attacks.org
CMU和人工智能安全中心的研究人员发现,只要通过附加一系列特定的无意义token,就能生成一个神秘的prompt后缀。
由此,任何人都可以轻松破解LLM的安全措施,生成无限量的有害内容。
有趣的是,这种「对抗性攻击」方法不仅突破开源系统的护栏,而且也可以绕过闭源系统,包括ChatGPT、Bard、Claude等。
Gorilla
地址:https://github.com/ShishirPatil/gorilla
Gorilla是一种基于LLaMA架构的大型语言模型,它可以生成合适的API调用。
它在Torch Hub、TensorFlow Hub和HuggingFace等三个大型机器学习库的数据集上进行了训练。
Gorilla还可以快速添加新的领域知识,包括Kubernetes、GCP、AWS、OpenAPI等。
在零样本的情况下,Gorilla的表现优于GPT-4、ChatGPT和Claude等模型。
QLoRA
地址:https://github.com/artidoro/qlora
华盛顿大学的研究人员首次证明,在不损失模型性能的前提下,也可以微调量化的4位模型。
他们提出的新方法QLoRA,使用一种新的高精度技术将预训练模型量化为4位,然后添加一小部分可学习的低秩适配器权重。
这些适配器权重通过量化权重的反向传播梯度进行调整。
QLoRA方法证明了4位量化模型也可以进行有效的微调,达到与全精度模型相当的性能。
ToolLLaMA
地址:https://github.com/OpenBMB/ToolBench
ToolLLM这个项目,是为了构建开源、大规模、高质量的指令调优SFT数据集,以促进构建具有通用工具使用能力的强大语言模型。
研究人员表示,开源LLM能够掌握数千种不同的现实世界API,并通过收集高质量的指令调优数据集来实现这一点。
微信扫码关注该文公众号作者