Al is nothing without kemu3
1、今年争取多写多更,方便明年公众号出年度回顾时数据好看点,到时好意思发个朋友圈。
但过去两年多我基本都在用对话的方式来表达,不管是直播还是播客都是对创作者表达更加友好的方式,写作对我来说又的确太痛苦了。虽说公众号倡导的是再小的个体都可以有自己的品牌,但现在公众号已经变成没有长文章不好意思发的地方了。我只能先从一些零散观点表达重新开始写作训练。
2、第一财经最新一期《AI狂潮全记录》很不错。50 多页的梳理,把产业来龙去脉,中美明星公司,关键人物和各方势力梳理比较清楚,是本好的行业导览。比如看完很容易发现,大模型只能是巨头游戏,今天模型公司的融资和估值,全部都是由科技巨头定价和主导的。而在这中间,美中的差距远远大过移动互联网。
推荐买本纸刊,看着不易被打断,读完不亏。
3、关于AI的局限性,我发现张钹院士和李飞飞都提到一个共同点,就是还缺乏最基础的理论发现。
都说人工智能是第四次工业革命,但大模型卷了这么久,感觉今天还是黑盒还处在实验科学阶段,就是输入和输出看似逻辑正确其实没有好的解释原理。跟前面几次工业革命相比,还缺少力学、电学或计算机科学最基础的理论发现,可能还会经历一个较长的探索期,就像自动驾驶一样。
今天你让GPT等各类产品给你生成答案,你让他换一个,他立马会换一个,就他不知道哪个才是真正的标准答案,或者说他可以一本正经地胡说八道,他对他不懂的事情也会不断的进行阐述,自身其实并没有什么反思的能力。
全世界对大模型强大的生成能力、迁移能力、交互能力感到惊讶却无法解释,只能归结为“涌现”。为了人工智能产业的健康发展,必须将科学研究、技术创新、产业发展结合起来。要发展第三代人工智能,必须建立可解释和鲁棒的人工智能理论和方法,否则AI技术永远难以令人相信。
李飞飞说:AI还处于前牛顿时代,人类还没搞懂基本原理。
虽然近年来人工智能非常热门,出现了许多重大进展,但还是要提醒大家,人工智能仅有约60年历史,长远来看仍处于非常初期的阶段。她说,与物理学的发展对比,人工智能还没有达到“牛顿时代”,还没有出现一套像牛顿力学那样奠基性的理论,可能还处于“伽利略时代”,或“比伽利略时代还要洪荒”。
4、虽说大模型还是黑盒,但的确有相当一部分是不需要标准答案和正确答案的,比如写email和图像视频生成等。在需要标准答案的地方,也有可以在约束条件下对文本做总结分析的各种应用。
因为大模型是巨头游戏,2024年行业的关注点,应该会从基础模型转移到千千万万的AI原生应用上,要更多关注垂直领域,关注为模型做应用的创业公司。这阶段可能会更像十年前的移动互联网,市场在呼唤更多的天才产品经理。
但场景明显又跟移动互联网不同,比如 Monica 的肖弘认为,“这一次不应该类比移动互联网,因为移动互联网是场景变多了,从工作场景增加了很多娱乐场景,比如通信场景、电商场景、内容消费场景等等。这一次我觉得更应该比对的是上世纪电脑从计算器变成计算机带来的效率提升。”
关于大模型时代需要什么样的产品经理,可以见这期播客
张鹏、潘乱对谈白鸦、肖弘:大模型时代的产品经理,需要 Back to the Future
5、Al is nothing without kemu3
通义千问这个视频合成,让我想到9年前,柏林的dubsmash、福建的小偶、上海的musical. ly和台湾的17。
给各家做AIGC工具的团队出个主意,下一步做视频版鬼畜输入法,主打春节拜年神器,批量模板生成拜年工具概念的短视频。历史上被反复验证过,会有自传播的。
时代在变,工具在变,需求没变。
用户需求就在那里,每隔一段周期可以牵引一次。AI可以把效果做得更好,重做一轮。
由此翻到早年我整理的一些可H5化(公众号化)的工具类APP,当时是想得到验证的需求换种形势做一遍,今天应该可以用 AI 再把当年各种神器App 和增长玩法给做得更好。因为各类AIGC工具建设周期巨长,公司需要有短期果实才行,那就一边建设革命性工具,一边释放一些能力到这些玩法上。
不管是文字生成、图片生成、声音生成和视频生成,最重要的可能就是让用户觉得与我有关再拿出来分享,真的从用户的虚荣心/好奇心/玩性出发,基于声音、照片和视频多做事情,测试、挑战、炫耀和表情是重要方向。
当年字节收购Faceu就是因为觉得 faceu 跟抖音的产品形态太接近了,都是滤镜/玩法主导,供给端非常相似,然后规模又大。当然可能最关键的是规模大。
但AI的创造性是原来做滤镜没法比的,尤其是视频或者GIF生成这块。且大概率,今天AI必将产生跟相机一样深远的影响,而恰好过去十年移动互联网在内容生成端最大的变量就是手机摄像头。替代摄像头应该是AI能够抓到最大公约数的用户需求。
开个脑洞,当时我试过一个玩法,叫「把我唱给你听」。就是用户上传图片,然后机器自动识别,奉上由社区用户翻唱的一首歌。不知道今天是否有可能让A用户上传声音,然后变成其他用户向 A用户的数字分身发送一段文字或者图片,然后识别发送一段安慰的话之类。。但好像豆包都已经实现了。
简单来说,就是要让所有人都可以玩起来。
关键词就是
这个 玩 字
不是 刷
不是 看
不是 上
不是 用
尤其是这个阶段下,玩是主旋律,让更多人先通过玩体会到生成式AI的魅力。因为基础模型建好后本身有多样的效果,且这些效果是需要挖掘的,而这恰好就是生成式AI的天然强项,直接把可玩性扩充了一个数量级。
所以,可能就是把原来的想法都重做,且不是重做一遍,而是重做几十遍还不重样。
你这张旧船票,还能登上我的破船。
微信扫码关注该文公众号作者