GPT-4最强平替更新！UC伯克利发布Vicuna v1.5，支持4K和16K上下文，刷新SOTA，LeCun转赞

公众号新闻

2023-08-12 06:08

新智元报道

编辑：桃子

【新智元导读】UC伯克利发布了新版Vicuna v1.5，基于Llama 2微调而来，支持4K和16K上下文。

GPT-4最强平替更新了！

这次，基于全新的Llama 2，UC伯克利发布了更新版Vicuna v1.5。

不仅支持4K和16K上下文，并且在几乎所有基准测试中取得了SOTA。

自3月发布以来，Vicuna已成为最受欢迎的聊天LLM之一。它在多模态、AI安全和评估方面的研究具有开创性。

上个月，Vicuna模型在Hugging Face上的下载量超过了200万次。

LeCun也转发了基于自家模型搭建的新版Vicuna。

最新模型权重

Vicuna基于LLaMA，应在LLaMA的模型许可下使用。

你可以使用下面的命令开始聊天。

它会自动从Hugging Face存储库下载权重。在下面的「使用命令行界面进行推理」部分中查看更多命令选项以及如何处理内存不足。

注意：transformers>=4.31 是16K版本所必需的。

目前，有可试用的demo。

https://chat.lmsys.org/

Vicuna的优秀项目

MiniGPT4

地址：https://minigpt-4.github.io

MiniGPT-4的新模型，使用先进的大型语言模型Vicuna进行调优。

它在文本预言方面可以达到ChatGPT的90%。在视觉感知方面，研究人员还使用了与BLIP-2相同的预训练视觉组件。

其中组件由EVA-CLIP的ViT-G/14和Q-Former组成。

MiniGPT-4 只添加了一个映射层，将编码的视觉特征与Vicuna语言模型对齐，冻结了所有视觉和语言组件参数。

LLaVA

地址：https://llava-vl.github.io

LLaVA是一个由威斯康星大学麦迪逊分校、微软和哥大研究人员共同发布的多模态大模型。

该模型结合了视觉编码器和Vicuna对于通用的视觉和语言理解。

其能力接近GPT-4的图文理解能力，相对于GPT-4获得了85.1%的相对得分，并在科学QA上实现了当前最先进的准确性。

LLM-Attacks

地址：https://llm-attacks.org

CMU和人工智能安全中心的研究人员发现，只要通过附加一系列特定的无意义token，就能生成一个神秘的prompt后缀。

由此，任何人都可以轻松破解LLM的安全措施，生成无限量的有害内容。

有趣的是，这种「对抗性攻击」方法不仅突破开源系统的护栏，而且也可以绕过闭源系统，包括ChatGPT、Bard、Claude等。

Gorilla

地址：https://github.com/ShishirPatil/gorilla

Gorilla是一种基于LLaMA架构的大型语言模型，它可以生成合适的API调用。

它在Torch Hub、TensorFlow Hub和HuggingFace等三个大型机器学习库的数据集上进行了训练。

Gorilla还可以快速添加新的领域知识，包括Kubernetes、GCP、AWS、OpenAPI等。

在零样本的情况下，Gorilla的表现优于GPT-4、ChatGPT和Claude等模型。

QLoRA

地址：https://github.com/artidoro/qlora

华盛顿大学的研究人员首次证明，在不损失模型性能的前提下，也可以微调量化的4位模型。

他们提出的新方法QLoRA，使用一种新的高精度技术将预训练模型量化为4位，然后添加一小部分可学习的低秩适配器权重。

这些适配器权重通过量化权重的反向传播梯度进行调整。

QLoRA方法证明了4位量化模型也可以进行有效的微调,达到与全精度模型相当的性能。

ToolLLaMA

地址：https://github.com/OpenBMB/ToolBench

ToolLLM这个项目，是为了构建开源、大规模、高质量的指令调优SFT数据集，以促进构建具有通用工具使用能力的强大语言模型。

研究人员表示，开源LLM能够掌握数千种不同的现实世界API，并通过收集高质量的指令调优数据集来实现这一点。

参考资料：

https://twitter.com/ylecun/status/1687127960434716672

https://twitter.com/lmsysorg/status/1686794639469371393?s=46&t=iBppoR0Tk6jtBDcof0HHgg

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章