Redian新闻
>
人工智能的未来:ChatGPT后,谁是下一个AIGC杀手级应用?

人工智能的未来:ChatGPT后,谁是下一个AIGC杀手级应用?

公众号新闻



源丨适道(ID:survivalbiz)

作者丨适道

题图丨图虫创意



没有人怀疑,新时代已经到来。作为新时代“发电厂”,大模型正在改造着各行各业。


在AIGC领域,背靠大模型,以ChatGPT为代表的AI聊天机器人,以Midjourney为代表的AI图片生成工具,掀起了第四次AI浪潮。


但这或许只是可口的前菜?


一方面,比起图文,视频是更强的商业化载体;另一方面,有了5G技术高带宽、低时延的加持,视频领域的技术革命近在眼前。


那么,下一个大模型的爆发点会在何处?是在视听行业吗?


从需求来看,AI生成时代之前,视频生成的智能化主要用于后期剪辑;AI生成时代当下,接入大模型,成本和难度更大的素材采集可以轻松完成,而这刚好能够满足行业对“降本增效”的需求。


但从可实现性来看,根据易观《AIGC产业研究报告2023——视频生成篇》,生成视频商业化落地的挑战主要集中在产品易用性挑战、稳定可控挑战,以及合规应用挑战。其中,“产品易用性” 指视频生产的速度、交互体验等;“稳定可控”指可生成视频的时长、分辨率,以及处理速度,对复杂场景的理解等。


总的来说,生成视频的质量、互动的准度极大影响着其商业化落地。


那么现在的视频生成技术走到了哪一步呢,不妨先展开看看相关领域的进展。


一篇来自Boxmining的文章给出了部分答案(作者Steve Gates),文章介绍了包括Phenaki 、Imagen Video、Make-A-Video在内的几款AI视频生成模型,并指出了AIGC领域的下一个爆点。以下是适道的翻译简写。为方便大家丝滑阅读,适道对原文结构进行了微调,并补充了文中提及的案例。


以下原文:


随着大模型不断发展,人们急切期待AI绘画和ChatGPT后的下一个突破点。


在通信领域,5G技术的高带宽、低时延,为视频传输提供了强有力的保障,这会引发一场围绕8K视频、VR和AR的视频技术革命。


综上所述,技术法则预示着视频领域的技术革命指日可待。随着AI和5G技术的发展,视频行业将迎来新一轮的创新发展浪潮。



Google:

Phenaki & Imagen Video


在现象级产品ChatGPT大放异彩之时,Google的文生视频(Text to Video,T2V)模型Phenaki的表现也相当炸裂。


Phenaki不受固定帧数、时长、分辨率的限制。它不仅比以前的模型更长、更复杂,分辨率更高,还能理解不同的艺术风格和3D结构。


仅根据单个提示词,Phenaki就能生成一个能讲故事的视频(Story-Telling Video)。


当你想做一段泰迪熊动画时,只需输入:


A teddy bear diving in the ocean(一只泰迪熊潜入海中)


A teddy bear emerges from the water(一只泰迪熊从水中出现)


A teddy bear walks on the beach(一只泰迪熊走在沙滩上)


Camera zooms out to the teddy bear in the campfire by the beach(相机逐渐拉远至沙滩边篝火旁的泰迪熊)


几分钟后,你会获得如下视频:



怎么样?质感相当不错吧。



同时期,Google还推出了另一款基于扩散模型的Imagen Video,同样拥有高分辨率,也可以理解不同艺术风格。不过,Imagen Video生成的视频时长相比Phenaki来说更短。




Meta:

Make-A-Video


Meta也加入了这场视频生成的卷王之战中,并在2022年9月推出了Make-A-Video,时间比Google推出Phenaki & Imagen Video刚好早了一周。


根据Meta官网介绍,和上述的文生视频T2V模型不同,Make-A-Video是建立在文本生成图像(Text to Image,T2I)模型上的升级版本。


也就是说,虽然Make-A-Video生成的是视频,但它没有用成对的文本+视频数据训练,而是和文本生成图像(Text to Image,T2I)模型一样,靠文本+图像的数据对进行训练,这一方面是考虑到当前互联网中的文本+视频的数据集过少,另一方面是,可以对已经相对成熟的T2I模型进行重复使用。


那么,我们来看看Make-A-Video能做出哪些好玩的视频?


1、将静止图像转换成视频



2、根据前后两张图片创建一个视频



3、基于原始视频生成新视频



4、根据输入的文字提示,生成符合语义的短视频


例如,输入“喝水的马”



输入“机器人在时代广场跳舞”




百度:VidPress


到了国内,百度也将文心大模型的能力运用在智能视频合成平台VidPress中。


VidPress可以快速完成文字脚本、视频内容搜索、素材处理、音视频对齐、剪辑等一连串“骚操作”。


VidPress内容生产的三个环节


早在2021年1月,百度研究院就发布了一条由AI自主剪辑的视频《2021年十大科技趋势预测》,该视频的技术支撑就是VidPress。


当下,一方面,文娱、教育、传媒等诸多领域对AI生成视频具有强烈市场需求;另一方面,AI生成内容产品存在变现困难等商业化瓶颈。而在2022年,一批高质量文生图模型,如DALL E、Imagen和Stable Diffusion涌现,这将助力AI生成内容产业突破变现难等商业化瓶颈。



下一个明日之星?


在大模型技术领域,两类公司值得关注。


1、拥有数据基础和应用场景的公司


以Netflix、Disney为代表的大型行业玩家为代表,这些公司积攒了数十亿条会员评价,且熟知观众的习惯和需求。


事实上,Netflix已经使用AI来替代标准内容的制作,例如从影片中抽取符合用户观影偏好的画面,生成电影缩略图。


另外,今年1月31日,Netflix还发布了一支AIGC动画短片《犬与少年(Dog and Boy)》。其中动画场景的绘制工作就是由AI完成的。



2、科技巨头核心研发团队创建的初创公司


以OpenAI、DeepMind和Meta为代表,这些公司在该领域有着重大影响力。它们也凭借深厚的技术背景和创新精神,开发出了一系列领先的大模型技术。

有趣的是,这些公司原本的研究人员也跳了出来,强强联手,成立新公司。


例如,前段时间,由DeepMind和Meta的前研究人员共同创立的Mistral AI,成为了资本的新“宠儿”。Mistral AI仅成立了四个星期,就获得了一轮高达1.13亿美元的种子资金。据外媒Techcrunch报道,这是欧洲生成式AI公司有史以来获得的最大的种子轮融资。



结论


从ChatGPT到AIGC,再到如今的视频生成模型,AI发展的速度之快令人惊叹。


目前,在视频生成领域,科技巨头们正在争先抢占领先地位。


不过,无论谁来抢占,如何抢占,他们的目标都是创造出更加真实、高质量的视频。而这些技术不仅能为消费者带来更深度的娱乐体验,也将为媒体、教育、广告等行业带来巨大影响。


然而,这些正在更新的大模型技术也带来了一些新的挑战,如隐私问题、数据保护以及内容滥用问题。这需要我们在继续推动技术进步的同时,积极应对这些挑战,如制定相适应的规范和法规,以确保技术的健康发展。


无论如何,对于大模型技术的未来,我们有理由保持乐观。随着技术的不断进步,我们期待在不久的将来看到更多的创新和突破。




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
不到1分钟开发一个GPT应用!各路大神疯狂整活,网友:ChatGPT就是新iPhone透过炒作看本质,谁是人工智能的终极赢家 | 巴伦封面重磅!拜登签署人工智能领域人才留美新政策,利好留学生!人工智能行业将迎来大增长!【温柔的怜悯】 【The Tenderness of Pity】以正合,以奇胜,谁是正,谁是奇?「简报」Shapiro 州长访问卡耐基梅隆大学——人工智能的诞生地,签署关于生成式人工智能的行政命令;拓展:以新方式建模神经元《埃隆·马斯克传》节选:为人工智能的未来而奋斗宾州长木公园,天天好心情朱老四Nature顶级子刊83分重磅综述!为你细数ChatGPT时代,人工智能在医学中的应用!硅谷人工智能创新之旅精彩回顾 | 与世界顶尖科技企业交流,探索人工智能创新之谜硅谷人工智能创新之旅总回顾 | 与世界顶尖科技企业交流,探索人工智能创新之谜时尚秀场与追梦女子澳洲教育大改革!明年起全面允许学生使用ChatGPT,“拥抱人工智能”ChatGPT应用!USNews全美“人工智能”专业本科排名发布OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报石墨烯的杀手级应用要出现了吗? | 科技趣评人工智能狂潮会是下一个互联网泡沫吗?黄奇帆演讲全文:以chatGPT为代表的美国大模型技术创新大大加速人工智能发展,我国与之差距至少在两年以上,且差距呈快速拉大趋势一份新报告称Meta将GPT-4作为其下一个人工智能模型的标杆Nature:超越ChatGPT,思维更像人类的人工智能诞生,具备了人类举一反三的能力ChatGPT后下一个热点:能为你「做」一切的 AI ,才是真助手大一新生对话人工智能ChatGPT之父:如何才能进科技大厂?秦灭六国,谁是“野蛮”,谁是“文明”?从ChatGPT到通用强人工智能明天美国名校教授巡讲多伦多站:ChatGPT时代下如何规划孩子的未来前瞻产业研究院:ChatGPT开启AlGC产业生态新时代 新风口 新生态 新变革 新机遇(2023)一周国际财经|平均等待20年,诺奖之路越来越长;1年损失2.2万亿!“高息”冲击美银行业,谁是下一个硅谷银行?OpenAI 更新企业价值观:强调通用人工智能;阿里云、华为成立人工智能安全委员会;周杰伦演唱会 4 黄牛被抓 | 极客早知道黄奇帆:chatGPT大大加速美国人工智能发展,我国与之差距至少在两年以上,且差距呈快速拉大趋势人工智能与生物智能的结合,将有助于我们读懂生命的语言报告 | 腾讯研究院:ChatGPT背后的AIGC发展趋势(36000字)人形机器人的未来,藏在人工智能的历史里Meta花500万美元购买一明星形象,只为打造人工智能助理;中国网络空间安全协会人工智能安全治理专业委员会成立丨AIGC日报一九八九(14)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。