“即梦AI”上架，字节能否在视频大模型上赶超快手？

2024-08-16 05:08

“压力给到了抖音剪映。”在今年6月以快手自研视频生成大模型可灵为代表的现象级生成式AI（人工智能）产品涌现时，外界无一不在期待字节进一步的表现。

近日，字节跳动旗下剪映团队研发的一站式AI创作平台“即梦AI”移动版正式上架至苹果App Store应用商店。

《每日经济新闻》记者了解到，该应用目前拥有文生图和文/图生视频等功能。另外，即梦已经上线会员体系，推出多个订阅方式。

通过对即梦、可灵以及Sora的实际应用对比，《每日经济新闻》记者体验发现，三款视频生成大模型在对提示词的捕捉和理解上都较为准确、完整，但即梦的人物塑造、内容的丰富度和视频流畅度等能力相对有所欠缺。在生成内容的时长上，即梦支持最多12秒的视频生成。

“生成流畅视频的秒数是判断一个视频生成大模型能力优劣的关键因素。”一位大模型工程师在接受《每日经济新闻》记者采访时表示，“‘流畅’需要从多个维度来看，比如生成的内容有没有事实错误、记忆能力如何以及空间感对不对等。”

“即梦AI”移动版上架图片来源：应用截图

“即梦AI”上架

效果赶超可灵？

今年年初，Sora的横空出世开启了“视频的ChatGPT时代”，随后，快手推出的“黑马”可灵让人们对国产AI视频大模型的表现有了越来越多的期待。同为短视频巨头的抖音母公司字节跳动，则被视为赛道内最具赶超可能性的选手之一。

可灵AI网页端图片来源：官网截图

3月底，字节旗下剪映团队研发的AI创作平台“即梦AI”开放内测；5月9日，该应用上线网页版，上线之初只有图片生成、智能画布和视频生成三大功能，目前已上新故事创作功能；8月6日，该应用移动版正式上架至苹果App Store应用商店，现拥有文生图和文/图生视频等功能。

即梦AI网页端图片来源：官网截图

至于即梦的实际使用效果，今年7月初，全国首部AIGC生成式连续性叙事科幻短剧集《三星堆：未来启示录》在抖音上线。在这部总共13集的短剧集里，即梦作为首席AI技术支持方，借助了包括AIGC剧本创作、概念及分镜设计、图像到视频转换、视频编辑和媒体内容增强等10种AI技术。

据媒体报道，在和博纳影业合作推出《三星堆：未来启示录》的过程中，即梦AI改进了“视频生成”功能，包括支持24fps、30fps、60fps的补帧以及二倍超分的能力，新增镜头水平移动、上下移动，支持镜头移动的方向和幅度控制等。

图片来源：剪映微信公众号截图

在即梦App上线后，《每日经济新闻》记者选取了OpenAI官方公布的多条Sora视频提示词对即梦、可灵和Sora进行对比测试。

从记者的测试结果来看，三款视频生成大模型在对提示词的捕捉和理解上都较为准确、完整，生成视频内容的画面表现也都连贯且流畅。

但在人物形象的刻画精细度上，Sora相较于即梦和可灵有一定的优势；在动作的自然度上，即梦在三个测试产品中略逊一筹，例如在以“东京街头的女士”为主题的视频画面呈现上，即梦生成的人物在转头时头颈部略显扭曲，拎包的手部动作也有所变形。

图片来源：记者生成视频截图

而在生产内容的元素丰富程度上，Sora也在三者中表现更优。例如在以“太空人”为主题的生成视频内容里，Sora给出了飞船、舱外景象等多个有关提示词的联想内容，而即梦和可灵仅呈现了一个穿着宇航服的男性角色。

图片来源：记者生成视频截图

易观分析研究合伙人陈晨在接受《每日经济新闻》记者采访时表示，在生成效果上，即梦的AI图像的整体质量较好，AI视频则在时长、元素丰富性、动作连贯性等细节处理上仍然有所欠缺。

“（元素内容不够丰富）更多有关模型的对齐，不过如果缺失了从‘太空人’联想到‘飞船’的能力，是基座模型的能力问题。”一位大模型工程师向《每日经济新闻》记者指出，生成流畅视频的秒数是判断一个视频生成大模型能力优劣的关键因素，“‘流畅’需要从多个维度来看，比如生成的内容有没有事实错误、记忆能力如何以及空间感对不对等”。

《每日经济新闻》记者通过试用发现，在输入相同提示词的情况下，要求生成的视频越长，视频主体形象和动作的精度、流畅程度很可能会相应受损。

目前，即梦支持3秒、6秒、9秒和12秒的视频内容生成，分别对应不同的积分消耗。而Sora早在发布时就已经能合成1分钟超长视频；6月21日，可灵推出了图生视频功能，支持根据不同文本内容，将静态图像转化为生动的5秒视频，且续写功能可让视频延续约5秒，最长可生成约3分钟视频。

AI视频会是大模型的掘金点吗？

Sora的出现无疑给大模型开辟了一方新的赛场——今年7月，阿里达摩院发布了一站式AI视频创作平台“寻光”，商汤推出了首个面向C端用户的可控人物视频生成大模型Vimi，智谱也宣布将AI生成视频模型清影（Ying）正式上线智谱清言⋯⋯

在AI头部玩家集体向视频生成大模型发起猛攻时，一个不能回避的问题就在眼前：AI视频能让大模型公司赚到钱吗？

以业内明星公司OpenAI为例，在推出了Sora等一众能力领先的大模型的情况下，今年7月，有媒体援引知情人士以及未公开的内部财务数据分析称，OpenAI今年或面临高达50亿美元的巨额亏损，预估公司全年收入预估可能在35亿～45亿美元，远低于运营成本。

同时，国内视频大模型在商业化落地上也显得有些“着急”。7月30日，可灵上线了面向全球的会员体系，该体系与其在国内市场推出的会员体系相仿，例如月卡分为10美元、37美元和92美元三档，可对应生成约66个、300个和800个5秒视频。

《每日经济新闻》记者注意到，即梦也已推出会员体系，有79元单月、69元连续包月和659元包年的基础会员的不同订阅方式。具体来说，基础会员每月可使用505个积分生成约2020张图片或168个AI视频。此外，还有每月2020个积分的标准会员和每月6555个积分的高级会员服务即将上线。

“由于AI大模型高昂的模型训练与推理成本，加之C端用户对AI工具的需求相对分散，付费意愿不足，视频大模型在C端市场的商业化仍然会面临一个较长的培育期。”陈晨认为，对于C端市场而言，视频大模型的商业化落地仍道阻且长。

而从B端市场出发，陈晨向《每日经济新闻》记者表示，“对于B端而言，AI技术革命正在重塑原有的工作流程，压缩冗余环节并引发新的创作工具需求。在这个过程中，AI视频大模型可以逐步与现有的影视制作、广告创意、媒体内容策划结合，辅助进行复杂工序自动化处理和智能化内容生产。而模型能力是否有效嵌入实际工作流程，带来实质性的效率提升、成本降低，是构建商业化能力的关键因素”。

“Kimi的商业化会逐步开始探索，但还不是目前的重点，目前的重点还是打造能力更强的下一代模型。”今年8月，月之暗面方面在接受《每日经济新闻》记者采访时曾表示，现阶段还不是以商业化为重的时候。

也许，对“初出茅庐”的即梦来说也是如此，它还有一个又一个里程碑要去触达、超越。“即梦目前的产品功能、商业模式聚焦于服务UGC（用户生成内容），与抖音的生态融合也将是未来的发展重点。”陈晨表示，“或许在时长、帧率、画面细节等技术参数上的直接对标并不是即梦现阶段最需要关注的，关键还是在于应用落地和生态整合能力。”

记者|杨昕怡

编辑|魏官红孙磊盖源源

校对|何小桃

｜每日经济新闻 nbdnews 原创文章｜

未经许可禁止转载、摘编、复制及镜像等使用

如需转载请向本公众号后台申请并获得授权

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章