别玩ChatGPT了,更酷炫的AI视频创作工具来了
最近微信改版,建议大家星标新榜!⭐️
当我还在跟ChatGPT聊天时,AIGC圈子里已经刷起了新玩意儿——
小红书用户“汗青”
这是AI生成的乔布斯,他仿佛从画中醒来,对着镜头侃侃而谈ChatGPT,嗓音也颇似原声。
据作者“汗青”介绍,视频中的文案选自于他与ChatGPT的对话,乔布斯的形象由AI作图工具Midjourney生成,AI拟声工具ElevenLabs提供了嗓音复刻,最后通过AI视频工具D-ID将图像转为视频。
借助类似的AI工具,网友用“魔法”生成的纸片人都能动起来了,甚至还能轻松创造一个自己的数字分身。
即刻用户“穆宁Morning”
AIGC降低了创作门槛,越来越多的人正试图让AI参与内容创作,从文案、录制到配音、剪辑,几乎可以让AI全包了。据国外商业咨询机构Acumen Research and Consulting预测,若考虑下一代互联网对内容需求的迅速提升,2030年AIGC市场规模将达到1100亿美元。
近年来,AI对话、AI绘画、AI语音技术其实都有一定的发展,而相对来说,视频领域的AI模型研发和应用才起步不久。像D-ID这样仅需一张静态图片就能创建虚拟人视频的技术,属实令人惊奇。
图源:国泰君安证券研究
目前国内外有哪些AI视频创作工具?AI又将给视频内容生产和交互体验带来什么改变?本文对此进行了盘点和分析。
AI拼接素材,套上模板秒出视频
一般视频创作包括这些环节:写脚本/文案,拍摄视频或寻找第三方素材,剪辑素材,配音,配乐,添加转场、特效、字幕、标题、封面图等。
其中,AI现在已经可以辅助完成很多任务了,比如图文智能匹配视频素材、AI自动剪辑、AI抠像、AI换脸、画质优化修复。
“图文成片”的功能在各平台推出的剪辑应用中十分常见,抖音的剪映、快手的快影、百度的百家号、B站的必剪都支持根据文案,一键拼接图片和视频素材,并同步生成字幕和配音。
输入的文案可以参考AI助手的回答。举个例子,“养猫会对一个人产生什么影响”,ChatGPT回答说养猫能减压缓解焦虑、增强社交能力、提高心理健康、增加运动量,我们可以在此基础上进行修改再导入剪映。
剪映不到一分钟就自动生成了视频,画面跟文案内容基本符合。如果对素材不满意,比如想把静态图片换成视频,可以到在线素材库中搜索更合适的进行替换。
值得注意的是,这些素材往往来源于网络或第三方服务,比如免版权图库Unsplash、Pexels,AI剪辑应用所做的是通过AI和机器学习对文案进行语义分析,分镜头处理,智能匹配相应的画面。
因此,一键图文成片对创作者最大的帮助是节省搜集素材的时间,减少人工剪辑劳动量,通过自动化、模板化的方式提高视频生产效率。
类似的视频自动剪辑工具还有“Lumen5”,主打长图文转视频,提供了大量视频模板,操作上门槛更低,像制作PPT一样拖曳文字即可转成画面。Lumen5自2017年推出至今,官网介绍已有超100万家企业客户将其作用于社交媒体营销和传播。
图源Lumen5
“vidyo”出自于印度的AI初创团队,支持长视频转短视频,通过AI语音识别技术可以从素材中自动剪辑出精彩片段,适用于直播视频切片、播客剪辑,不过目前视频语言仅支持英文。
图源vidyo
尽管目前视频创作软件的AI功能以文字匹配视频素材为主,但之后可能会加入更多AIGC工具。
例如海外的AI视频工具“Fliki”,擅长短图文转视频,输入Twitter等博客链接即可快速生成短视频,在图片素材上它还提供文字生成AI图像,由DALL·E提供技术支持。
图源Fliki
“Copydone”出自于国内AIGC初创公司,支持小红书、淘宝等各平台AI营销文案生成,同时也能根据文案自动生成配图或拼接视频。
图源Copydone
海外AI视频网站“QuickVid”集成了GPT-3、DALL·E 2等AI生成图文的能力,用户只需给定一个视频主题,剩下的都可以自动生成。不过它在二次编辑上的自由度和丰富性比较有限。
图源QuickVid
此外,视频创作中的特定需求也可以尝试用AI实现。比如AI修复老视频已有很多热门案例,历史资料、早年的影视片段都能通过“Video Enhance AI”等视频增强软件提升画质和分辨率。
图源B站
让照片说话,跨模态AI做到了
现在的AI只能算是辅助视频创作的小助手,如果想要原创度更高、从无到有地快速创作视频还比较困难,但更强大的跨模态生成视频的模型(例如文字生成视频,图像生成视频)已经在路上了。
文字生成视频,除了从已有素材库中拼接而成,实际上还有更接近于人类的工作方式,就像AI绘画模型一样学习文本和图像的抽象概念。
2022年5月,清华大学曾联合智源研究院发布“CogVideo”,这是国内首个开源的文本生成视频模型。在其Demo网站中,选择“青年女子在餐厅里喝奶茶”就可以看到AI生成的4秒视频,分辨率为480×480。
图源CogVideo
在设计模型上,CogVideo含94亿参数,将预训练文本-图像模型(CogView2)有效地利用到文本-视频模型,并使用了多帧率分层训练策略。
太空行走的烟花
使用的提示:
宇航员穿过火星上的水坑的侧视图
宇航员在火星上跳舞 宇航员
在火星上遛狗
宇航员和他的狗看烟花
图源Phenaki
下一波AIGC浪潮,我们如何应对
关于新榜
• 作为数据驱动的互联网内容科技公司,新榜提供新媒体内容营销和企业服务系列产品,助力中国企业数字化内容资产获取与管理,服务于内容产业,以内容服务产业。 • 我们的客户既包括中国平安、腾讯、字节跳动、京东、宝洁、雅诗兰黛、欧莱雅、联合利华、迪士尼等500强,也包括正在蓬勃成长的中小企业、新兴品牌和MCN机构。面向企业的内容化组织建设,新榜提供从公域流量募集分发到私域内容运营建设的各项所需。
• “新媒体,找新榜”是我们的使命。凭借全面稳定的新媒体内容数据产品和企业服务能力,新榜被评为国家级高新技术企业,曾荣获“全国内容科技创新创业大赛一等奖” 、“上海文化企业十佳”、“中国广告新媒体贡献年度大奖”、“金狮国际广告影片奖”、“沙利文中国新经济卓越增长奖”等称号,拥有多个传播评估监测专利。
微信扫码关注该文公众号作者