中国研发能在垂直领域取得全球的SOTA。2024中国生成式AI大会于4月18-19日在北京举行,在大会首日的主会场开幕式上,昆仑万维董事长兼CEO方汉以《从天工SkyMusic音乐大模型谈SOTA红利》为题发表演讲。方汉强调了“技术领先”在AI领域的重要性,不同于互联网时代产品的商业模式导向,大模型时代技术导向才能带来市场上的领先优势,吸引大量用户并获取红利。OpenAI在AI创企中的地位,本质上是其文本大模型的SOTA(当前技术指标第一)能力带来的。对于当前的AI创业者,在图像、视频、音乐等任何赛道,只要能取得SOTA,就能通过技术优势获得大量用户,后续再通过产品创新、商业模式创新把用户固化在平台上,形成自己的护城河。在AGI和AIGC领域,昆仑万维研发出了天工3.0模型,包含音乐大模型SkyMusic和全球最大规模的开源MoE大模型。其中音乐大模型SkyMusic就处于音乐领域的SOTA地位。SkyMusic音乐大模型支持多种方言输出,具有辨识度的自然人声、降低音乐创作门槛和成本等,便于内容行业发展。基于音质、自然度和理解度方面的优势,即使是没有音乐背景的普通人也能够利用该技术进行音乐创作,而这也将极大地扩展音乐创作的可能性和范围。此外,天工3.0大模型数学、推理、代码等方面能力大幅提升,同时具有多轮搜索与综合工具的调用能力,将带来内容行业的爆发,同时也将促进文化平权和打破垄断,让每个人更好地塑造和表达自我。以下为方汉的演讲实录:SOTA其实是一个学术上用得非常多的专有名词,全称是“State of the Art”,这个比较拗口,其实是当前技术指标第一的意思。这本来是在机器学习领域用来评估模型的一个技术指标,原本是个学术词,为什么会备受关注? 01.在垂类领域拿到SOTA,才能将技术红利转化市场红利
昆仑万维作为一家中国的互联网企业,现在的战略是All in AGI与AIGC。我们在2023年宣布了公司的新使命:实现通用人工智能,让每个人更好地塑造和表达自我。为什么要做这样一个使命的修正?因为实现通用人工智能,本质上是基于文本大模型把人类所有的知识压缩到我们的通用大模型里面,这样是通向通用人工智能的必经之路。但是大家知道通用人工智能在现实中的落地是有先后之分的,什么样的场景会更容易落地?其实也比较简单,有人开玩笑说,大模型刚出来的时候大家都觉得所有做生产工作的同学会最早失业,所有做创意艺术的同学应该是位置是最稳固的。但实际上经过这段时间的发展,大家可以看到,所有做文艺创作的同学失业概率会更大一些,也就是说在内容生成领域,其实AI的落地更容易。很简单,因为内容生成领域容错率极高,用户对于内容错误忍耐度非常高。我们可以容忍我们画上、视频的人多一根手指头、少一根手指头。但是我们工作中,你哪怕小数点后面少一位,这都是巨大的生产事故。也就是说在容错率高的内容赛道,这一波大模型和人工智能的发挥空间是非常大的。我们在人工智能、AIGC领域,研究目的就是降低创作的门槛。不管是文生图、文生视频、文生音乐、文生音效还是文生3D资产,本质上就是移除所有前序我们所需要的长期的专业训练,而让任何一个人觉得只要你会讲故事,就可以创造出相应的内容来表达你自己。这会带来什么样的影响?首先大家知道创作内容的成本极大降低了,创作内容的门槛降低了。我们知道创作内容方面只要门槛降低,创作内容的人数会急剧膨胀。举个例子,我小时候拍视频都是电视台记者扛几十公斤的摄像机拍,这时候创作者非常少。但是智能手机出现之后把拍摄者变成全中国十几亿人,人人可以拍视频,结果就是短视频行业的巨大发展。这一波AI把全领域的创作门槛都拉低了,结果是什么?整个内容行业会迎来一个巨大的爆发。同时,它还带来另外一个文化平权和打破垄断的作用。为什么?我在非洲待了蛮长时间,在尼日利亚的时候,了解到尼日利亚拍一部在院线上线电影的平均成本是两万美金到二十万美金之间,这样拍出来的片子和中国四五亿人民币拍出来的《流浪地球》、美国四五亿美金拍出来的“漫威”系列电影相比,是毫无竞争力的。但是在我们下一代AIGC技术出来之后,我们认为全世界所有的弱势文化的人都可以用非常低廉的成本,创造出媲美欧美强势文化的内容。这样的结果是什么?每个弱势文化的族群都可以通过AIGC技术来产生适合自己民族的文化、产生适合自己小语种的文化,这个对于全世界的文化平权是非常有意义的。这也就是第二条,让每个人更好塑造和表达自我,这也是研发人员在文生音乐、文生视频、文生小说、文生漫画等内容创作领域持续不断迭代改进的一个终极目的。以上是方汉演讲内容的完整整理。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)