Redian新闻
>
4个令人兴奋的爆火AI项目,已开源!

4个令人兴奋的爆火AI项目,已开源!

公众号新闻

大家好,今天继续聊聊科技圈发生的那些事。

一、DBRX

全球最强?开源 AI 大语言模型宝座的头把交椅易主?把 GPT 都整趴下了?

是的,你没有看错!Databricks 公布旗下 Mosaic Research 团队开发,号称最强开源 AI 大模型的 DBRX 已开源。

我们先来看看项目主页的简介:

Helping data teams solve the world's toughest problems using data and AI

翻译过来就是,帮助数据团队使用数据和人工智能解决世界上最棘手的问题。

真行么??

一个不可否认的事实:在性能方面,DBRX 公布的官方数据是战胜了现在的所有开源模型,包括 GPT-3.5、Llama-2 以及前不久刚开源的 Grok-1。

先来看看这些数据:

  • DBRX 用了约 1320 亿的参数,大约是 Grok-1 的1/3。
  • 模型一次性激活 360 亿个参数(这几乎是模型参数总数的1/4!),大约是 Llama-2 的一半,也就是说速度是翻倍的。
  • 部署运行需要的显存大约是 264G ,大约是 Grok-1 的一半,对硬件需求大大降低了。

再看这张图:

简单来说就是 DBRX 在语言理解、编程和数学方面的表现都已经超越了已有的开源模型。

啥概念?用的参数比你们少,硬件需求比你们低,但是我速度更快,性能还更好!

更多的数据比较可以在 Databricks 发布的 Introducing 中看到。

链接:

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

一切的一切都在说明,除了那些未开源的 LLM 模型(这里不点名 OpenAI和谷歌),DBRX 似乎真的遥遥领先了。至于它会在行业内掀起怎样的风浪,且让我们拭目以待吧。

最后,对这个项目的介绍,用一句 Hugging Face 工程师对 DBRX 的评论结束:

太狂野了!!!

项目地址:

https://github.com/databricks/dbrx

二、AniPortrait

腾讯游戏团队开发的由音频驱动的人像动画合成工具。

通过这个有趣的项目,你能看到:

  • 唱着《Rap God》的蔡徐坤

  • 阻止你说脏话的李云龙

  • 亲切的张亮

让我们一起看看项目的框架:

首先,提取音频中的头部姿势和面部信息,进行投影,生成目标姿势图像。然后通过扩散模型生成完整的视频。

项目包括了三种可采取的生成方法:

  1. 面部重塑(Face reenacment)
  2. 自我驱动(Self driven)
  3. 音频驱动(Audio driven)

这也是一个可以本地部署体验的项目,有一定的硬件要求。而环境的搭建,权重信息,训练方法,作者团队都在主页给出了详细的说明。

顺提一句,这玩意对标的应该是阿里家的 EMO,也可以期待一手=下两个项目接下来的发展。

项目地址:

https://github.com/Zejun-Yang/AniPortrait

三、FRESCO

基于 Stable Diffusion 的零成本视频转绘工具。SD 也算是我们的老朋友了。

我们给出一个简单的视频。FRESCO 可以帮我们把它转绘成不同风格下的视频,就像是给视频打上了不同的滤镜。

比如,蒙娜丽莎式的。

类似这样的 gif 图和完整的视频,在项目主页上还展示了很多。

FRESCO 有几个鲜明特点:

  • 使用帧内和帧间约束,比单独使用光流具有更好的一致性和覆盖率。
  • 无需对模型进行训练,无需进行微调。
  • 兼容现有的模型,可以灵活使用,实现更好的效果。

我们可以看看 FRESCO 的 GUI 界面,还是很简洁的。给出要求的主题提示词句,FRESCO 就能生成新的转绘视频。

另外, FRESCO 提供了很丰富的高级选项,包含很多可调的参数,可以对视频转绘进行更精细的调控。

目前项目存在的缺点是,显存占用过高,即使你的硬件配置已经很不错了,但仍无法很好的生成高分辨率的视频。另外,FRESCO 只能使用 Diffusion 格式的模型。

项目地址:

https://github.com/williamyang1991/fresco

四、VoiceCraft

零样本语音编辑和文本到语音的训练。也就是一个克隆或编辑声音的模型。

VoiceCraft 是一种令牌填充神经编解码器语言模型,它在语音编辑和对有声读物、互联网视频和播客等在线数据的零样本文本到语音(TTS)方面都实现了最先进的性能。

而这个模型最突出的点就是,快!要克隆或编辑一个新的声音, VoiceCraft 只需要几秒钟的时间即可完成。

我们来试听一段 VoiceCraft 生成的音频示例:

But when I had approached so near to them The common object, which the sense deceives, Lost not by distance any of its marks.

作者团队已经将一整个模型开源,而模型的训练需要使用者自己完成。不过作者团队给出了完整的训练方法。

训练方法

截止目前,项目仍然在不断更新,项目主页的 TODO 项目仍不断减少。作者团队称,项目将会在 24 年 3 月底解决所有亟待完善的问题。

项目地址:

https://github.com/jasonppy/VoiceCraft

感兴趣的小伙伴可以持续关注项目更新。

好了,今天的内容就是这么多,我们下期见!

·················END·················

推荐阅读

•   3个令人兴奋的AI项目,已开源!•   AI视频一键启动包说明•   离谱,北邮211本科不符合华为OD要求

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
我的岁月(十二)比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好Meta无限长文本大模型来了:参数仅7B,已开源Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂综述170篇「自监督学习」推荐算法,港大发布SSL4Rec:代码、资料库全面开源!开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE检索增强生成引擎 RAGFlow 正式开源!仅一天收获上千颗星“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?4个令人惊艳的开源项目,诞生了!年轻人的第一个多模大模型:1080Ti轻松运行,已开源在线可玩国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源安远AI&北京大学:2024基础模型的负责任开源-超越开源闭源的二元对立:负责任开源的内涵、实践与方案报告开源日报 | 离职后可以删除自己所写的软件吗;国产开源笔记本电脑在深圳发布;全球首位AI程序员爆火阿里智能体“组装工厂”开源!0经验搞定上万Agent并发评论: 我们要如何理解妻子的“怨”?从陈朗的悼文谈起这是一个令人啼笑皆非又温暖感人的故事AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源房东凯(9)3个令人兴奋的AI项目,已开源!KAN遇见卷积!代码开源!开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源Stable Video 3D重磅开源!3D生成迎来新突破!刚刚!ChatGPT绘图:新增一个令人惊喜的功能!郭有才的爆火,真相其实很恐怖​249篇文献!北邮发布文本到图像Diffusion可控生成最新综述,已开源!马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星我这么勤奋的拜年,只为你不要吃我了全面开放开源!港大发布OpenGraph:探索图基础大模型别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元腾讯混元文生图大模型全面开源!Sora同架构,更懂中文,免费商用不用再等 OpenAI ,全球首个 Open-Sora 全面开源!美股基本面 - 2024_01_29 * 午报 * 泽连斯基首次公布收入 2022年收入同比锐减70%。Lucid大涨超22%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。