AI鲁迅,入驻B站啦!
大家好,我是 Jack。
2020 年我做过几期 AI 复活明朝历代皇帝、乾隆后妃样貌的视频。
那时候,还没有 chatgpt、stable diffusion 等 AI 技术,我用生成式对抗网络、一阶运动模型生成了运动的人物画面,所谓的“复活”现在看来,不过是些只能作出固定动作的假人罢了。
如今,三年的时间过去了,人工智能领域的技术发生了翻天覆地的变化。
在图像生成领域,GAN 网络逐渐“没落”,Stable Diffusion 新王“登基”;
在文本生成领域,OpenAI 从 OpenAI 进化成了 CloseAI,发布了席卷全球 AI 热潮的 ChatGPT,而开源的 GPT-2 则逐渐淡出了人们的视野。
AI 正以惊人的速度发展着,出于好奇,我决定试着用现有的、最先进的 AI 技术,尝试“复活”一位历史伟人鲁迅。
一起看看 AI 鲁迅,一位19世纪的人,会对我们21世纪的人,说些什么?
我们先看一个例子:
发布的视频里,有更多AI鲁迅,对青年说的一些话,感兴趣的小伙伴可以看一下。
视频地址:
https://www.bilibili.com/video/BV1uu411s7Tn/
因为涉及到的算法较多,今天就先简单介绍下使用了什么技术,感兴趣的人多的话,后面我再继续出技术教程视频,详细讲解。
形象
采用超分辨率重建算法,对图像进行修复,还原成真实质感的皮肤,图像修复效果如下:
左图是原图,右图是修复后的效果。这个面部修复效果如何?
对话
文本对话,采用的是中文 AI 大语言模型源 1.0,其参数规模高达 2457 亿,基于 5TB 高质量中文数据,使用 2128 张 GPU 卡两周时间训练出来的。它们也提供了通用的 API:
https://airyuan.cn
我使用的是一个内测版本,针对鲁迅的数据,专门优化的版本。
之所以选择源大模型作为鲁迅的灵魂,是因为我在AI杀猪盘和AI剧本杀中等爆火的项目中,看到源大模型中文语言处理、场景化对话及开发调用等方面的优势。
音频
生成的对话文本,采用 vits 技术,合成对应的音频。
画面驱动
结合画面驱动算法,就可以让图片根据音频,动起来了。
UI
为了能和AI鲁迅面对面地交流,我写了一点点的代码,使用 python app.py 指令启动这个服务,打开链接就能看到这个与AI鲁迅交流的界面了。
当我们不输入问题的时候,AI 鲁迅会静静地看着我们,等待我们的提问。
我们输入好问题之后,点击提问,等待几秒,AI 鲁迅就会面对面地帮我们答疑解惑。
最后
AI 复活历史人物的视频,小伙伴们还想看谁,欢迎留言。
同时,本期视频点赞破2万,我直接出个教程,讲解 AI 复活技术的实现方案,以及技术细节。
视频地址:
https://www.bilibili.com/video/BV1uu411s7Tn/
好了,今天的内容就是这么多,我是 Jack,我们下期见!
微信扫码关注该文公众号作者