4个令人兴奋的爆火AI项目，已开源！

公众号新闻

2024-03-29 08:03

大家好，今天继续聊聊科技圈发生的那些事。

一、DBRX

全球最强？开源 AI 大语言模型宝座的头把交椅易主？把 GPT 都整趴下了？

是的，你没有看错！Databricks 公布旗下 Mosaic Research 团队开发，号称最强开源 AI 大模型的 DBRX 已开源。

我们先来看看项目主页的简介：

Helping data teams solve the world's toughest problems using data and AI

翻译过来就是，帮助数据团队使用数据和人工智能解决世界上最棘手的问题。

真行么？？

一个不可否认的事实：在性能方面，DBRX 公布的官方数据是战胜了现在的所有开源模型，包括 GPT-3.5、Llama-2 以及前不久刚开源的 Grok-1。

先来看看这些数据：

DBRX 用了约 1320 亿的参数，大约是 Grok-1 的1/3。
模型一次性激活 360 亿个参数（这几乎是模型参数总数的1/4！），大约是 Llama-2 的一半，也就是说速度是翻倍的。
部署运行需要的显存大约是 264G ，大约是 Grok-1 的一半，对硬件需求大大降低了。

再看这张图：

简单来说就是 DBRX 在语言理解、编程和数学方面的表现都已经超越了已有的开源模型。

啥概念？用的参数比你们少，硬件需求比你们低，但是我速度更快，性能还更好！

更多的数据比较可以在 Databricks 发布的 Introducing 中看到。

链接：

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

一切的一切都在说明，除了那些未开源的 LLM 模型（这里不点名 OpenAI和谷歌），DBRX 似乎真的遥遥领先了。至于它会在行业内掀起怎样的风浪，且让我们拭目以待吧。

最后，对这个项目的介绍，用一句 Hugging Face 工程师对 DBRX 的评论结束：

太狂野了！！！

项目地址：

https://github.com/databricks/dbrx

二、AniPortrait

腾讯游戏团队开发的由音频驱动的人像动画合成工具。

通过这个有趣的项目，你能看到：

唱着《Rap God》的蔡徐坤

阻止你说脏话的李云龙

亲切的张亮

让我们一起看看项目的框架：

首先，提取音频中的头部姿势和面部信息，进行投影，生成目标姿势图像。然后通过扩散模型生成完整的视频。

项目包括了三种可采取的生成方法：

面部重塑（Face reenacment）
自我驱动（Self driven）
音频驱动（Audio driven）

这也是一个可以本地部署体验的项目，有一定的硬件要求。而环境的搭建，权重信息，训练方法，作者团队都在主页给出了详细的说明。

顺提一句，这玩意对标的应该是阿里家的 EMO，也可以期待一手=下两个项目接下来的发展。

项目地址：

https://github.com/Zejun-Yang/AniPortrait

三、FRESCO

基于 Stable Diffusion 的零成本视频转绘工具。SD 也算是我们的老朋友了。

我们给出一个简单的视频。FRESCO 可以帮我们把它转绘成不同风格下的视频，就像是给视频打上了不同的滤镜。

比如，蒙娜丽莎式的。

类似这样的 gif 图和完整的视频，在项目主页上还展示了很多。

FRESCO 有几个鲜明特点：

使用帧内和帧间约束，比单独使用光流具有更好的一致性和覆盖率。
无需对模型进行训练，无需进行微调。
兼容现有的模型，可以灵活使用，实现更好的效果。

我们可以看看 FRESCO 的 GUI 界面，还是很简洁的。给出要求的主题提示词句，FRESCO 就能生成新的转绘视频。

另外， FRESCO 提供了很丰富的高级选项，包含很多可调的参数，可以对视频转绘进行更精细的调控。

目前项目存在的缺点是，显存占用过高，即使你的硬件配置已经很不错了，但仍无法很好的生成高分辨率的视频。另外，FRESCO 只能使用 Diffusion 格式的模型。

项目地址：

https://github.com/williamyang1991/fresco

四、VoiceCraft

零样本语音编辑和文本到语音的训练。也就是一个克隆或编辑声音的模型。

VoiceCraft 是一种令牌填充神经编解码器语言模型，它在语音编辑和对有声读物、互联网视频和播客等在线数据的零样本文本到语音（TTS）方面都实现了最先进的性能。

而这个模型最突出的点就是，快！要克隆或编辑一个新的声音， VoiceCraft 只需要几秒钟的时间即可完成。

我们来试听一段 VoiceCraft 生成的音频示例：

But when I had approached so near to them The common object, which the sense deceives, Lost not by distance any of its marks.

作者团队已经将一整个模型开源，而模型的训练需要使用者自己完成。不过作者团队给出了完整的训练方法。

截止目前，项目仍然在不断更新，项目主页的 TODO 项目仍不断减少。作者团队称，项目将会在 24 年 3 月底解决所有亟待完善的问题。

项目地址：

https://github.com/jasonppy/VoiceCraft

感兴趣的小伙伴可以持续关注项目更新。

好了，今天的内容就是这么多，我们下期见！

·················END·················

4个令人兴奋的爆火AI项目，已开源！

一、DBRX

二、AniPortrait

三、FRESCO

四、VoiceCraft

推荐阅读