2022年末,Chief Twit(Twitter老板)马斯克想要复活Vine。Vine是短视频应用的鼻祖,2012年6月公司创立,10月被Twitter收购,2013年1月产品上线,排名一度冲上App Store免费榜一位,之后败于和Instagram、Snapchat等巨头的竞争,最终沦为Twitter的弃子,2016年10月公告下线。Twitter用140个字符(+关注+转发+信息流)定义了微博客,Vine则用6秒视频(+循环)定义了短视频,开启了移动互联网短视频时代。虽然Vine失败了,但人民群众还是时常怀念起它——马斯克抱着水槽入驻Twitter的第二周,就在Twitter发起了一个“让Vine回归?”的投票,70%的网友,340多万人选择了“Y(是)”。相较之下,Vine的“中国传人”腾讯微视,命途更为多舛——经历了2017年的下线和2018年的重启,二次重生的微视依旧没掀起太大浪花。微视的第二次失败无需着墨太多。2017年抖音强势崛起,沉浸在王者荣耀单个皮肤一天卖到1.5亿人民币的腾讯并未太过留意。等到后院起火——腾讯系App用户使用时长大跌(减少部分接近于头条系App的增长),腾讯才后知后觉,着手对抖音的狙击。一方面,腾讯通过屏蔽抖音链接来堵,有用,但用处不大,以抖音为代表的头条系,最终还是成长为可与腾讯掰手腕的中国社交网络第二极;另一方面,腾讯寄希望于重启微视来疏,但“打败微信的,一定不是另一个微信”(马化腾说的),打败抖音的也一定不是另一个抖音,产品形态与抖音并无本质差别的重启微视,在短视频用户心智接近成熟的当时,注定也无力回天。微视的失败,并不像Vine,败于与巨头的缺少护城河的竞争。微视当时的对手是美拍和秒拍,它们虽然在与微视的竞争中稍占上风,但也仅止于此,它们并未成长为巨头,也从未培养起一个“普惠”、全民参与的短视频市场。微视的失败,也不像很多失败的产品,缺少对产品模式的深入思考。微视主打8秒短视频,关于“8秒”,微视产品负责人曾详细解释道:“首先,我们需要对短视频有时间限定,这样才能打造统一的整体化社区氛围;其次,时长关系到视频的大小,必须适应移动手机应用,要考虑用户的流量和资费,8秒钟的视频大小,约相当于微博发几张压缩过的图片;同时,研究显示,8秒钟是可以在人脑中形成印迹、传递足够信息量的时长。”
那么,微视(甚至美拍、秒拍)失败的根本原因是什么?“每个时代都给生活于此的人戴上无形的枷锁,我唯一能做的就是戴着镣铐起舞(Every era puts invisible shackles on those who have lived through it, and I can only dance in my chains)。”
微视上线的年代(2013年9月),智能手机刚开始普及,小米手机此时还因产能不足无法大规模供货而被调侃为“期货”,手机存量市场上,占据主流的还是功能机和低端智能机,而它们羸弱的性能,并不能有效支撑视频内容的生产和消费。此外,4G尚未商用(中国首张4G商用牌照要在微视上线3个月后的2013年底才得以发放),3G用户量少(用户占比不到三成),2G网速慢(下载峰值20Kb/s),移动数据费用高(流量包5元30Mb)等前置条件,决定了很少会有人“随时随地”地使用一款视频App,即便是短视频。投资领域有个广为人知的寓言:三个人坐电梯从1楼到10楼。一个人绕圈跑步,一个人趴着做俯卧撑,还有一个拿头撞墙。他们都到了10楼。有人问他们:你们是如何到10楼的?一个说,我是跑上来的;另一个说,我是做俯卧撑上来的;还有一个说,我是用头撞墙上来的。投资领域的“电梯”,一般指康波(即周金涛名言“人生发财靠康波”中的“康波”)或者周期。而微视所在的移动互联网领域,也存在这样一个“电梯”,经常被从业者有意无意忽略,取而代之的,是对自身努力的过度关注与放大。实际上,越是基础的东西,越容易沦为背景,被人所忽略。这些“基础”,可以成为“无形的枷锁”,也可以成为支撑上升的“电梯”。本文讨论的,就是移动互联网领域的重要“基础”:媒介。“媒介”的概念,来源自西方,对应英文的media,具有in the middle(在中间),go between(两者之间)的含义。我们谈起“媒介”时,一般侧重于媒介的工具属性,将媒介定义为存储与传送信息的物质。本文对媒介的界定更为宽泛,如手机、互联网、5G是媒介,文字、图片、音频、视频、内容(媒介是另一种媒介的内容,如口语是文字的内容,文字是视频的内容等)是媒介,甚至人类本身也可以视作一种媒介。因此,本文有关媒介的讨论,更倾向基于泛媒介论立场的麦克卢汉对于媒介的解释。麦克卢汉是只要讨论起媒介就始终绕不开的存在。相较于循规蹈矩地下定义,麦克卢汉更多地是通过输出有关媒介的先知式论断,如“媒介是人体的延伸”、“媒介即信息”,并加以详细阐述,无限趋近于媒介本身。媒介是人体的延伸。中文互联网关于媒介延伸论的最著名延伸,还是张小龙那句“手机是人的肢体的延伸”。张小龙在2017年的微信公开课上讲到:“手机是人的肢体的延伸,PC其实不是,PC是固定的。就像我只有两只手,手机是我的第三只手,或者说是我手的延伸,因为它可以帮助我触达一个更大的世界。PC也可以帮我们进入到一个更大的虚拟世界,但是手机是跟着你的手走的,所以它变成了你的加长的手,它和PC的区别是,我们对于手周边可以触达的东西能够感应到,这也是为什么手机里面的应用会有很多比PC里面的应用更丰富的形态。就像在微信里大家可以摇一摇,但你在PC时代不能把电脑摇一摇,在手机时代我们可以通过扫二维码感应周边,在PC时代你也不可能用PC扫一个二维码,这是真正的含义,就是手机不同于PC的真正含义。”
实际上,手机作为媒介,不仅是手这一器官的延伸,作为屏幕,是我们眼睛的延伸,作为电话,则是嘴和耳朵的延伸,作为计算机,还是我们大脑的延伸。也就是说,人类的身体器官,在媒介的作用下,可以实现一定程度的延伸。感官层面,媒介同样具有延伸的作用。动物和史前人类的五感(视觉、听觉、味觉、嗅觉和触觉),都是超短距的。媒介,特别是以电子媒介为代表的现代媒介的出现,使得人类的视觉和听觉大大延伸,比如我们现在足不出户就可以通过手机观看、收听Coldplay、BLACKPINK等艺人的演唱会。但视觉、听觉之外,五感中的味觉、嗅觉和触觉,至今还是很短程。媒介即信息。起始于2022年下半年(或者说起始于Twitter)的硅谷大裁员,2023年并没有好转的迹象。据不完全统计,仅2023年1月,就有326家科技公司宣布裁员,波及106950名员工。在这场如同鱿鱼游戏的裁员风暴中,很多人是通过邮件才得知自己被裁,在感到困惑沮丧的同时,又颇为愤慨,“像被打了一记耳光”。实际上,多数裁员公司给予员工的补偿并不算差,有的甚至可以说是丰厚,例如Google就提供了至少16周的薪水补偿(可以理解为N+4),2022年的奖金全额发放,6个月的医疗保险,外加颇具人情的就业服务、移民支持等条件。然而,裁员公司传达裁员信息的方式,又让员工觉得不近人情,可以说是出力不讨好喜事丧办了。个中缘由,是裁员公司忽略了信息之外还有信息——媒介。公司使用邮件这一媒介,单向传递无疑会对员工生活和下一份工作造成不小负面影响的裁员信息,员工接收到的信息,除了“被裁”,还有“我仿佛是个可以被随意处置的物品”,难免会让员工产生被物化的感觉,哲学意义上的人的主体性也被否定,最终导向了员工的不满和愤怒。媒介即信息,在更广泛意义上,或者说更媒介原教旨主义的解释,是媒介才是人类文化真正的内容,媒介之外空无一物。具体来说,任何一种媒介,不仅被动消极地传递信息,还会引入新的尺度,创造出全新的环境,积极主动地影响人类社会。例如,戏剧作为故事的媒介,就创造出一种全新的环境与体验——当我们观看戏剧时,我们是在戏剧之内,还是戏剧之外?又比如微信,微信的意义并不仅止于改变了我们传递信息、消费内容的方式,还在于微信重构了我们与自身、与他人、与世界的关系。这也是接下来要讨论的话题:媒介与内容、媒介与社交。2021年初火爆全球一码难求的Clubhouse,如流星般闪耀后飞速陨落,2021年二季度就已跌出美区App Store免费榜前400名,现在更是鲜有人提及。在Clubhouse邀请码被炒到上千元的时期,我在朋友圈表达了对这样一款语音社交软件在现今这个时代收获到如此巨量关注的不解和错位感,认为这款产品大概率同子弹短信、多闪一般昙花一现,但应者寥寥,大家更多的是从“存在即合理”(误)的角度,反推其存在的理由。实际上,如果从媒介的角度看待这款产品,Clubhouse的急速降温明日黄花并不难理解。如同上文提到的微视,Clubhouse也是一款不合时宜的产品。前者是在缺少理想媒介(4G、智能手机等)的情况下霸王硬上弓,后者则是在媒介条件已然成熟,可以支持视频、直播等内容形式的前提下自我阉割(仅支持语音,听后即焚)。越来越“热”的媒介。媒介按传递信息量的多寡,分为热媒介和冷媒介。热媒介传递的信息量较多,不确定性较低(按照香农的信息论,信息就是不确定性的消除),信息接收者无需调动更多感官,也不需发挥更多想象力就可以理解。冷媒介与之相反,传递的信息较少,清晰度低,需要接收者深度参与其中,运用想象填补缺失,增强解释。人类有历史以来,媒介技术就一直在迭代进化,经过非语言媒介、口语媒介、文字媒介、印刷媒介等阶段,以电子媒介为代表的现代媒介,总体发展趋势是越来越“热”,信息密度越来越高。随着移动通信技术的迭代、移动资费的降低以及手机性能的提升,移动互联网的媒介环境日臻完善,媒介可承载的信息也越来越多,主流的内容媒介,由文字,逐渐转向图片、音频,再到直播、视频。内容的生产、分发、消费等环节,也都发生了质的改变。这个过程中,有的产品顺应时代潮流,少数成长为移动互联网的“基础设施”;有的逆水行舟,多数被拍在了沙滩之上。1G(1987.11-2001.12):1G开启了移动通信时代,人类的语音通信从“点到点”延伸到“人到人”,手机开始成为人们获取信息的重要媒介。2G(1993.9-):2G实现了移动通信从模拟到数字的演进,在改善了语音通信质量的同时,还新增了短信、移动数据等基础功能。随着手机价格的降低、通信基础设施的完善,移动通信开始普及,梅特卡夫效应(网络价值与用户数的平方成正比)凸显。与普遍认知相异的是,移动数据并非3G才出现。2G时期,移动运营商为了满足人民群众日益增长的手机上网需要,已经利用部分语音信道提供了低速数据服务(如彩信、GPRS、EDGE)。通过GPRS、EDGE,用户可以访问WAP网站,浏览新闻、天气等以文字为主的内容,虽然速度很慢,体验也远说不上好,但移动互联网的雏形已经隐现。此时的互联网公司,受限于网络连接、移动终端等媒介条件,业务侧重点还在PC,移动端可做的不多。不多的业务之一,是寄人篱下,成为移动运营商的内容供应商——通过在移动运营商平台为手机用户提供资讯、小说、天气等增值服务,获取约定的分成收入。这个当时颇具试验性的业务,借鉴了日本的“i-mode”模式,其他国家并没有先例可循,上线后效果如何,“大家心里其实都没有底”(丁磊的评价)。然而,就是这样一个没有被寄予太多期望的业务,却意外迎来了爆发,不仅帮助刚成立的中国移动迅速打开了电信市场,还将后互联网泡沫时代的中国互联网公司从亏损的泥潭中拖了出来。只不过,高收益往往也意味着高波动高风险,随着移动运营商站稳脚跟,对内容供应商的整顿清退也提上了日程,互联网公司躺着数钱的好日子很快就结束了。另一条路径,是自立门户,搭建属于自己的移动产品体系。腾讯是第一批吃螃蟹的。早在2001年,腾讯就推出了“移动QQ”服务,用户通过缴纳每月5元的增值服务费,获取到使用短信发送、接受QQ消息的服务,实现手机与PC的互联互通(可以理解为2G时代的多端云同步)。只不过“移动QQ”并非腾讯的独立业务,而是与“移动梦网”(中国移动推出的增值服务平台)深度捆绑。2003年,App的概念尚未流行,腾讯便推出了自主研发的手机QQ App。手机QQ作为短信的补充(可使用移动数据免费发送信息,无需支付短信费用或额外增值费用),恰好满足了2G时代井喷的随时随地传递文字信息的用户需求,迅速成为当时手机用户的装机必备。手机QQ也因此成了腾讯当时最大的移动端流量池,为腾讯拿到了移动互联网的“预售票”。3G(2009.1-):3G提供了中高速的移动数据服务,伴随着更高性能更多功能(如后台多任务、GPS定位等)的智能手机的出现,移动通信开始与互联网深度融合,移动互联网时代正式拉开帷幕。3G是移动互联网的轴心时代,“基础设施”型的产品成群结队集涌现。微博是中国移动互联网第一个用户数突破1亿的产品,也是前微信时代,继门户、搜索之后的新互联网入口。微博借鉴了Twitter的产品形态。虽然Twitter诞生在移动互联网之前,但它的产品形态——140字符+关注+转发+信息流,却意料之外的如同榫卯结构般适配移动互联网。140字符限制。众所周知,140字符最初只是Twitter在媒介(短信)限制下的被动选择。Twitter一开始提供的是短信服务,如果超出160个字符,短信将被分割成多条发送(移动运营商限制短信最多160字符),导致短信费用的增加。基于用户成本的考量,Twitter决定将推文限制在140个字符,预留的20个字符用来传送用户名、@符号等信息。这个客观上略微有些不得已的选择,却机缘巧合地降低了用户通过手机发表观点、生产内容的门槛,弥合了传统互联网意愿表达和信息发布之间的缺口。微博沿用了这一设定(只不过微博是140个汉字,而非字符),使得“随时随地分享新鲜事”(微博slogan)成为可能。关注关系。主流社交平台一般有两种建立连接的方式,一种是双向加好友,如QQ、微信,只有成为好友,才能建立(私密)连接,交换信息;另一种是单向关注,如Twitter、微博,通过关注订阅,成为被关注者的粉丝,接收其(公开)“广播”的信息。关注关系将每个人都编织进一张巨型关系网络中,任何陌生人之间,理论上(六度空间理论)都可以通过六个以内的朋友建立联系。基于这张关系网络,所有公共事件,无论是突发新闻、热点事件,还是体育赛事、娱乐塌房,都可以以最快的速度传播扩散,微博、Twitter等社交平台也因此取代了传统新闻媒介,成为“世界上正在发生事件的‘第一块屏幕’”。转发。转发是典型的技术层面没有任何突破,只是对现有元素重新排列组合就实现了1+1>2效果的功能。对于不少人来说,即便是140字的微博,组织起来也很困难。转发的出现,使得表达的门槛进一步降低——利用转发,用户可以进行更为简单的基于原创内容的衍生创作,也可以不加任何评论单纯转发,而这也是一种态度的表达。从内容生产的角度来看,转发使得任何一篇微博,都如同一颗投入水池的石子,水波一层层漾开,新的转发和评论,以及基于新转发的后续转发和评论,也一层层生成和扩散。信息流。前信息流时代,信息是分散的,即便是同一网站的同类内容,也需要用户多次点击前往不同页面获取,例如早期的QQ空间,查看不同好友的更新,就需要依次访问好友的主页;信息的组织呈现形式,是标题,或标题+摘要列表(不是“流”,因为它是分页的),查看完整内容需点进详情页,浏览其他内容则需返回列表重新点击。信息流改变了内容的分发、组织与消费。在前算法推荐+前AIGC时代,微博的信息流基于关注关系,聚合了用户关注的所有UGC(User Generated Content,即普通用户生产的内容)、PGC(Professionally Generated Content,专业生产内容,可理解为黄V发布的内容)和OGC(Occupationally Generated Content,职业生产内容,可理解成蓝V生产内容),且得益于微博140字的限制,信息流可以完整呈现微博客的所有内容,用户要做的,只是向上滑动,无限刷新。微信是名副其实的国民应用。腾讯控股(00700.HK)2022年四季报显示,微信及WeChat的合并月活达13.1亿(WeChat数据未单独披露,有媒体估计1~2亿),而据工信部《2022年1-11月份通信业经济运行情况》报告,截至2022年11月,我国移动互联网用户数为14.63亿户,按上述口径粗略估算,有八成的移动互联网用户都在使用微信。在2007年的Macworld大会上,乔布斯宣布苹果将发布三款革命性产品:一款触摸屏iPod,一部革命性手机,以及一台突破性的互联网通信设备。我们现在当然知道,乔布斯说的其实是一款产品,即集成了上述所有功能的初代iPhone。3年后的2010年,微信立项的前一天,张小龙在腾讯微博上写到:“我对iPhone5的唯一期待是,像iPad(3G)一样,不支持电话功能。这样,我少了电话费,但你可以用kik跟我短信,用Google Voice跟我通话,用Facetime跟我视频。”
iPhone5并没取消电话功能,实际上,直到iPhone14也已发布的今天,苹果貌似也没这个打算。但张小龙提及的三个功能——基于移动数据的短信、语音通话和视频通话,如今不必再辗转三个App实现,微信如同重新定义了手机的初代iPhone,重新定义了IM(Instant Messaging,即时通讯),集成实现了上述所有功能。关于微信,有个经典的评价——微信为移动而生。这句话很多人讲,大家下意识也认同,但究竟如何理解,并没有很清晰——怎样才算为移动而生?有App就算吗?QQ算不算?
微信的产品设计,微信基于媒介所做的减法和加法,一定程度上回答了上述问题。微信的减法。微信没有“在线状态”,这是微信之于QQ的最大差别。通过放弃在线状态这一PC时代的IM标配,微信成功地将“(移动端)好友一直在线”的认知植入到用户的心智之中,引导用户像使用手机原生的短信、电话一样使用微信,不用再像操作QQ时那样,先观察好友头像点亮状态,判断好友是否在线,再决定是否发送信息。而支撑微信上述变化的,就是进化了的媒介。PC时代,人与人的连接是“点到点”的,或者说“PC到PC”的,但PC是固定的,我们在PC旁,就是在线的,离开了PC,也就离线了。2G时期,无法后台运行程序的手机(如诺基亚S40系统手机),高昂的移动数据资费等前置媒介条件,决定了用户虽然随时随地带着手机,但并不会一直在线。3G时代,中高速的移动数据,大幅降低的移动数据资费,以及支持多任务运行的智能手机的出现,使得用户一直在线成为可能,也让“为移动而生”的微信有了根本的立足点。微信的加法。微信在“拿到移动互联网船票”的道路上,有几个明确的里程碑:2011年5月,语音信息功能上线。用户增长井喷,日增量从一两万提升至五六万。2011年8月,“查看附近的人”上线。用户日增量提升至十万以上,“这个功能彻底扭转了(与米聊的)战局”(张小龙语)。2011年11月,“摇一摇”、“漂流瓶”上线。用户日增量达到二十万,“(与新浪)微博的战争已经结束了”(马化腾语)。微信的上述加法,无疑建立在手机这一媒介基础之上——语音信息,要求媒介可以随时随地收音;“查看附近的人”,要求媒介具备定位功能;“摇一摇”,则要求媒介可以进行字面意义上的摇一摇。除此之外,值得讨论的,还有2012年4月上线的“朋友圈”和8月上线的“公众号”。先说公众号。公众号的创新点不胜枚举,比如“10w+”,比如一天只能推送一次消息的订阅号设定等等,但真正让公众号脱颖而出的,还是“去中心化”的设计理念,以及文章融入微信消息流的内容分发逻辑。“去中心化”,指微信不会为公众号提供任何中心化的流量入口——一个新微信用户,如果没有关注任何公众号,在功能层面则感知不到任何公众号的存在。“去中心化”的产品理念,一方面传递出平台中立的信息——微信不做流量倾斜和主动推荐,所有人都处在同一起跑线之上(这一点在后来的“视频号”上也有所体现),这在一定程度上激活了内容创作者,尤其“自媒体”的创作积极性。另一方面,“去中心化”鼓励内容创作者专注优质内容生产——有且只有好的内容,才能经由微信成熟的熟人推荐机制,触达更广泛的人群,创造出更大的价值。公众号诞生之前,IM应用中新增内容模块的普遍解法是新增tab,或者设置专门入口。而微信的选择,是将公众号文章按照微信消息的规则进行处理,融入到消息流之中。对于内容生产者来说,文章以消息(媒介)的形式,即时推送至微信——移动互联网时代最大的互联网入口——的消息流中,文章触及目标读者的概率大大提高,也推动了内容生产者的运营积极性。而对于内容消费者来说,消息流聚合了包括公众号消息在内的所有信息,与世界连接,消费这一个流就可以了。再看朋友圈。朋友圈很容易被人忽略的一点是,它其实是个图片分享功能。微信团队对朋友圈的定位是一个“只能发照片,不能发纯文字”的“广场”,如果我们稍加留意,就会注意到朋友圈的内容发布入口,一直是用一个照相机icon指代,单击默认发图片(文字其实也可以发,只是入口更为隐蔽)。从数据上看,根据《2013年微信用户行为分析报告》,53.55%的微信用户会使用朋友圈分享图片,61.66%的用户会浏览查看朋友圈的图片。在绝对数量上,马化腾曾透露,微信朋友圈用户每天上传的图片数量有10亿张(2016年)。上面虽然都是朋友圈相关的数据,但这其实也是移动互联网时代内容呈现形式由文字向图片延伸的一个缩影。而随着媒介的更新迭代,这一进程还将加速。4G(2013.12-):4G曾被称作“长期演进方案”(LTE,Long Term Evolution),但由于移动互联网的快速发展推动了数据流量需求的爆炸式增长,“长期演进方案”生生演变成了“短期演进方案”。4G提供的是高速率、低延时的移动数据服务,伴随智能手机的大范围普及,移动互联网的主流内容呈现形式,由3G时代的文字、图片和音频,快速切换至信息密度更高,也更“热”的视频和直播。对此,一个绝佳的观测样本,是“时间黑洞”抖音。微视第一次通告下线的6个月之前,抖音上线了(2016年9月)。抖音起初像素级复刻了Musical.ly(比较有意思的是,Musical.ly之后还被字节收购了,仿佛重演了QQ和ICQ的剧本),采用了全(竖)屏、单列的视频呈现形式,一打开App就自动播放视频,上滑直接切换到下一个。抖音如今被称作“时间黑洞”,人均使用时长高达140分钟/天(极光大数据2022年三季度数据),与上述界面交互不无关系。首先,全屏、单列的视频呈现,决定了我们在手机媒介上的“视域”,会被视频完全覆盖占据,其他信息均被悄无声息地隐藏,而我们的注意力,则被动态的视频完全捕获。其次,一打开就自动播放的设计,使得我们可以快速进入到抖音给我们塑造的“拟态环境”中,打开这个App,就等同于我们主动踏入这间如同蚕蛹般的“信息茧房”。而上滑屏幕,直接切换到下一个视频的极简交互设计,会让我们对接下来看到什么抱有期待,这种类似于摇骰子的未知性,激发了我们的好奇心,也促进了我们体内多巴胺的分泌,而多巴胺这种神经介质,具有抑制理性、激活欲望的功能,可以推动我们进入到一种专注,或者说上瘾的状态。只是,如同上文提到的“打败微信的,一定不是另一个微信”,打败Musical.ly的,一定也不是另一个Musical.ly,更何况Musical.ly在国内推出的Muse一直也不温不火。抖音的胜负手,是字节跳动已然在今日头条上验证有效的算法推荐。算法推荐像是UGC的必然选择。多数UGC平台,如Facebook、Twitter、微博,甚至PGC占主导的微信公众号,一开始都是采用时间倒序的排序方式,把最新内容放在最前,其他按时间依次排列,但平台发展到一定阶段,都不约而同殊途同归地转向了算法推荐。究其原因,一方面,随着关注账号的增多,用户的管理维护成本直线上升,超过一定阈值,有价值的内容的密度将可感知地降低,用户关注的越多,看的反而越少。另一方面,更大的时代背景是硬件设备、网络连接、应用服务等不同类型媒介的迭代进化,推动了全球数据量(包括文字、图片、视频等内容)井喷式增长。4.4ZB(1ZB=1024EB=1024²PB=1024³TB=1024⁴GB)到2016年,这一数字就已跃升至16.1ZB,年复合增长率高达54.1%。换句话说,就是内容产出在加速,数量已经多到我们看不过来了。而算法推荐,一定程度上起到了筛选器的作用。推荐算法的总体思路是“物以类聚,人以群分”,通过计算出用户感兴趣的内容并“投喂”,达到提升内容消费效率,增进平台留存的目的。4G时代的改变,除了沉浸式的内容消费体验、算法推荐,还有门槛下探到“有手机摄像头就能参与”的内容生产。相较于组织一段文字,或者拍出一张说得过去的照片,短视频和直播的表达更为简单直接,想要表达什么,打开摄像头就好。于是,我们开始看到遍布全球的华人的日常,也看到环线之外的残酷底层物语。以往互联网中沉默的大多数,借助新的媒介,开始发声,走向前台。短视频和直播,也逐渐取代了以Twitter、微博为代表的微博客,成为“世界上正在发生事件的‘第一块屏幕’”。5G(2019.6-):5G具有“高速率、低时延和大连接”的特点,覆盖了增强型移动宽带(eMBB)、海量机器类通信(mMTC)和高可靠低时延通信(uRLLC)等场景。5G商用之前,曾被寄予厚望,A股就翻来覆去炒了很多轮,直到预期兑现,或者说逻辑证伪。不过没有分歧的是,5G时代并没有新的内容媒介出现,也没有太多让人印象深刻的产品。播客App小宇宙算一个。但小宇宙的内容媒介——播客/语音,决定了这款产品注定是款“小而美”的应用,而不会成长为一个日活过亿的国民产品。内容,一般按生产者的不同,分为上文提到的UGC、PGC和OGC(现在还要加上AIGC)。如果从内容消费者能动性角度出发,内容还可以分成娱乐向内容和学习向内容。前者不需耗费太多脑力,容易沉浸,后者则需花费脑力理解。如果我们画一个坐标轴,横轴左侧是内容生产,右侧是内容消费,竖轴的上方是学习向内容,下方是娱乐向内容。在坐标轴的四个象限中,播客均不占优势。内容生产方面,不管是学习向内容,还是娱乐向内容,播客都强依赖于设备(如降噪麦克风)和环境(如安静的密闭空间)。作为媒介的语音,也不同于文字、图片和视频,并不能随时随地、没有门槛地产出可消费的内容。这决定了播客的创作者只能是一个小范围人群,播客的选题也受限于这部分人的审美。就像有农民工写诗写小说、摄影、拍短视频、开直播,但很少听到有农民工做播客。内容消费方面,播客的主战场是娱乐向内容,这点集中体现在播客的使用场景上。几乎所有的播客用户,谈到自己使用播客的场景时,都跳脱不出通勤、睡前、做家务的范围。换句话说,就是用户几乎不会为播客单独开辟一个场景,而是将播客作为其他场景的附属,消费一些轻度娱乐向内容,分散一小部分多余的注意力。究其原因,还是语音的不确定性(比如,周迅在《看海》里唱的“上岸后贝qiào的孤单”就让小时候的我困惑了很久),导致了播客松散的内容结构和不可能太高的信息密度,进而决定了用户如果有时间,流量也充足,娱乐向会去刷更为直观、信息密度更高、也更不费脑子的抖音;学习向则可以去看确定性更高的文字,或者已然包含了语音的视频(视频=图像+音频+字幕)。语音调用的,是人类的听觉,而视频,是视觉(和听觉)。但人类,天生是视觉动物,相信眼见为实。从神经学角度看,视觉带给动物的信息,远多于其他感官,例如恒河猕猴一半的大脑都分配给了视觉。而人类大脑所拥有的视觉处理中心,在比例上又远超其他动物。有研究表明,人类接收到的信息,83%源自视觉,11%为听觉,嗅觉为3.5%,触觉和味觉占比2.5%。可以说,我们的大脑天生是用来处理视觉信息的。5G时代(其实和5G也没什么关系),还出现了一个令人讶异(对某些人来说——比如又化身为“最恐人工智能的碳基生物”的马斯克——是恐惧)的变化,那就是蹒跚了半个多世纪的人工智能,突然之间,加速了。仅2023年3月,就有GPT-4、Midjourney V5、Microsoft 365 Copilot、NVIDIA AI Foundations、Google Bard等十多款核弹级产品亮相发布。业界也开始略过尚未捂热的AIGC(AI Generated Content,人工智能生产内容),直接讨论起AGI(Artificial general intelligence,通用人工智能)。但多年之后,当人们回忆起这个接近于奇点降临的时刻,记起的应该还是OpenAI的GPT(包括ChatGPT、GPT-4等)。GPT与现阶段更为常见的Bert同源,都是基于Google在2017年提出的Transformer模型构建,只不过GPT是生成式的,即给定一定文字,让模型预测接下来会是什么,类似于“顺口溜”,而Bert是遮住(mask)一句话中的随机几个单词进行预测,更像是“完形填空”。G:Generative,生成式。上文已经提到,生成式通俗点说就是“顺口溜”,或者你也可以把GPT看作一个rapper,它的主要工作和特长就是押韵。这其实也是ChatGPT时不时一本正经胡说八道,和(ChatGPT刚推出来时)简单算术都算错的原因——从原理上看,GPT自始至终都没有“理解”输入的文本,它只是单纯地接话把子。P:Pre-Training,预训练。预训练是机器学习的一种方法,简单来说,就是基于大规模语料库,预先训练模型,使其具备一定的通用能力。预训练和用户使用关系不大,ChatGPT、GPT-4都是封装好的产品,用户“开箱即用”,这就像用户不必了解手机的通信原理,也能正常使用手机一样。但预训练模型往往存在数据实时性问题,也可能导向ChatGPT的一本正经胡说八道。ChatGPT对此的解释是:我是一个基于GPT-3.5模型的大型语言模型,我的知识截止于2021年底或2022年初,也就是说,我所了解的任何信息、事件或事实都是截止于那个时候的。T:Transformer,是GPT的模型底座。Transformer由编码器(Encoder)和解码器(Decoder)两部分组成。根据OpenAI2018年公布的GPT论文(Improving Language Understanding by Generative Pre-Training),GPT的基础原理就是把Transformer的解码器拿出来,在没有标注的大量文本数据上,训练语言模型,从而获得一个预训练模型,然后再在子任务上做微调(Fine-tuning),最终获得每一个任务所需要的分类器。综上,我们可以将GPT解释为:基于Transformer的生成式预训练模型。其实,最让我感兴趣的,并不是GPT的文本生成、多轮对话、文本摘要等能力,而是这些非线性发展、骤然“涌现”(GPT-3后突然出现)的能力究竟如何得来?GPT的实现原理其实并不难解释,但在原理和结果之间,貌似始终横亘着一条深不见底不可逾越的鸿沟,就像我始终没能理解一个“押韵程序”,如何在没有“理解”的情况下,准确回答6-8岁孩子答对率仅65%,9-14岁孩子答对率在92%的(经改写的)Sally-Anny问题(一个经典的心智测试)的?通过了这个测试,说明GPT至少具备二阶以上的意向性,而这,是以往人类学意义上人类真正区别于动物的地方。根据微软研究院对GPT-4的测试,“GPT-4在许多任务上达到或超过了人类水平,但总体而言,它的智能模式明显不像人类……GPT-4挑战了很多关于机器智能的假设,并表现出突发的行为和能力,其来源和机制目前还很难准确辨别”。这个“大”,不是指人类大脑的重量——人类大脑平均重1.3kg,虽然较同类如黑猩猩(0.25kg)重了许多,但和真正的巨兽如非洲象(4.2kg)、鲸鱼(9kg)相比,还是差了不少;也不是指人类大脑的神经元数量规模——虽然人类大脑拥有自然界已知的最多的神经元(约115亿),但这说明不了太多问题,因为虎鲸也有约110亿个神经元。人类大脑的“大”,是说人类大脑偏离预期(通常指偏离身体大小)的程度,远远超出其他动物——比同类(非人类灵长类动物)高出差不多2倍,比偏离程度仅次于人类的宽吻海豚,也要高出50%。这意味着,人类的大脑在承担基础的身体管理、维护、监控功能之外,还有闲置的资源做更多的事情。但这么“大”的大脑,绝不是没有代价的。一个成年人的大脑,重量仅占体重的2%,但却消耗掉人体20%的能量(胎儿、一岁以内婴儿消耗可达60%),每克脑组织所消耗的能量是肌肉组织的近20倍。毫不夸张地说,我们活着,就是为了供养大脑。那么,人类进化出这样一个巨废燃料的大脑的原因到底是什么?根据邓巴(就是那个提出邓巴数的罗宾·邓巴)的“社会脑理论”,只有更“大”的大脑,才能支持灵长类动物进行更为复杂活跃的社交互动,从而维系更大规模的群体,更好地解决躲避捕食者(群居使得捕食者更容易被发现)、获取食物、保护后代等一系列事关生存与繁殖的重要问题。从进化的角度看,高密度的社交互动也是灵长类动物区别于其他物种的主要优势,而人类则将这一优势推向了一个新的高度。人猿尚未分道扬镳时,人类的祖先作为灵长类家族的一员,将梳毛作为媒介,向伙伴传递善意,拉帮结派。对于大多数动物来说,梳毛(清除泥块、食物残渣)是为了卫生,但灵长类动物花在梳毛上的时间,远远超过了卫生所需,占到了醒着时间的20%。事实上,梳毛除了清理作用,还会促进体内内啡肽的大量分泌,这种天然的镇静剂具有镇痛和缓解紧张的作用,简单来说就是很享受。被梳理的一方,在享受之后,往往也会投桃报李。通过相互梳毛,双方建立起的连接与信任,又会为更大范围的群体维系提供基础。但随着群体的扩大,只有十根手指的人类祖先,逐渐意识到梳毛是梳不过来了。一开始,人类还寄希望于晚上增加篝火,延长梳毛的时间。但随着群体成员的进一步增加,在史前某个时刻,人类认识到必须要舍弃掉梳毛这一“传统落后”的社交方式了。取代梳毛的,是语言(或者说口语)。如果把交谈看做“梳毛”的一种,那么语言可以支持我们同时为好几个人“梳毛”。虽然没有确切时间,但从早期人类化石舌下神经管和胸神经管的特征来看,人类早在50万年前就学会了说话。相较于梳毛,语言作为媒介极大地提升了人类社交互动的效率。一方面,语言的进化,使得人类整合大量社交关系成为可能,而这一点是通过谈论不在场者的信息(八卦)实现的;另一方面,语言创造了故事,故事(大多数与我们的身世有关)作为至关重要的社会粘合剂,可以让我们了解自己所处的群体,产生归属感。但语言也不总是正向的。语言出现后,我们总是在语言之中,通过语言理解我们所处的世界,与他人互动,而无法超越语言理解一个未经中介的世界,也始终难以触达康德所谓的物自体(things in themselves)。语言之后,文字作为一种新的媒介,在约5000年前登上历史的舞台。在电子媒介出现之前,语言具有时间和空间上的短程问题——刚说的话,转瞬即逝;在上海喊了一嗓子,北京无人知晓。文字解决了上述问题,通过将信息固化在石板、竹简(偏时间)或纸(偏空间)上,信息可以长久保存、广泛传播。有史以来第一次,人们可以通过送出实物的信,和别人分享信息,建立连接,而不必靠信使传达口信。湖北省云梦县睡虎地十一号秦墓的墓主人,是一个名叫“喜”的秦朝地方小吏。他生于公元前262年,比秦始皇大3岁,死于秦朝统一中国之后的公元前217年。喜的陪葬品中,有一部多达五十枚竹简的《编年记》,记录了喜一生之中的重大事件。在《编年记》“廿八年”(公元前219年)下,喜写下了四个字:“今,过安陆”。“今”是“今上”的简称,指秦始皇,“安陆”是喜所在的地方,这句话翻译成白话文,就是“秦始皇,经过安陆”。这次相遇,发生在秦始皇东巡期间,秦始皇东巡的目的之一,是看望士兵与官吏(“以省卒士”),喜大概率是见到了“今上”的,并且将这件事作为重大事件,记录在自己的《编年记》中。让我意外的是,这简短却又颇具实感的4个字,在2000多年后的今天,读起来仍会有与那个时代那个场景,甚至与喜连接的感觉。再往后(尤其是工业革命之后),随着“电力”的兴起,电子媒介的更迭日新月异,硬件上我们有了电脑、手机、电子穿戴设备,软件上我们有了微博、微信、抖音,人与人的连接变得越来越及时便捷,理论上人与人之间的联结也应更为紧密,但事实恰恰相反,孤独反而成为了一种“流行疾病”。根据脉脉数据研究院的调查,61.47%的职场人士平时会感觉孤独,不孤独的人仅占38.53%。事实上,“孤独”是一个很现代的概念。启蒙运动之前,人们很少感觉到孤独。那时的人们,生活在一个可以说是魅惑的世界中,他们相信举头三尺有神明,相信小鬼阎王,相信万物皆有灵。一旦遇到问题,人们首先想到的是求助于神灵,比如上京赶考前去孔庙祈福,生不出孩子去拜送子观音。这些超验,是前现代人精神生活的重要组成部分,也是他们安身立命的根本。从这个意义上来说,前现代人是被“镶嵌”在这个世界中的,因此也无所谓孤独。启蒙运动、宗教改革、科学革命、工业革命等一系列变革的发生,使得人们对世界的认识发生了根本的改变。人们越来越倾向以理性化的方式探索世界与自己,逐渐意识到扫把星只是拖着尾巴的彗星,并不会预示天灾人祸,天狗食日只是正常的日食现象,不是皇帝失德上天震怒。最终,新兴的现代科学取代了传统的迷信和宗教,只留下冷冰冰的数据和物理规律,世界被“祛了魅”。“世界的祛魅”,对于个体的直接影响,是个人被从统一的世界中“抠”了出来,失去了以往牢固、长远的纽带,这种无依无靠的感觉,最终就导向了孤独。“世界的祛魅”是现代社会学奠基人之一马克斯·韦伯提出的命题,除此之外,他还提过“现代的铁笼”、“诸神之战”、“工具理性与价值理性”等概念。如果从工具理性的角度看待媒介与社交的关系,电子媒介已经发展到支持人们随时随地收发包括文字、语音、图片、视频在内的海量消息与内容,其实是大幅提升了个体之间社交效率,对于排解孤独应当具有正向作用。但从价值理性的角度分析,电子媒介虽然简化了人类社会异常复杂的人际关系,让社交变得简便,但这其实只是一种自欺欺人,电子媒介的出现,让我们不再关注“附近”,也放弃了更直接也更传统的面对面交流,可是,从根本上说,我们还只是长着石器时代原始人大脑的现代人。主要参考资料:
[1]《符号学:原理与推演》,赵毅衡,南京大学出版社
[2]《理解媒介:论人的延伸》,马歇尔·麦克卢汉,译林出版社
[3]《进化心理学》,戴维·巴斯,商务印书馆
[4]《大众传播理论》,刘海龙,中国人民大学出版社
[5]《刘擎西方现代思想讲义》,刘擎,新星出版社
[6]《社群的进化》,罗宾·邓巴,四川人民出版社
[7]《人类的算法》,罗宾·邓巴,四川人民出版社
[8]《社交天性》,马修·利伯曼,浙江人民出版社
[9]《社交媒体简史》,汤姆·斯丹迪奇,中信出版社
[10]《微信背后的产品观》,张小龙,电子工业出版社
[11]《腾讯传》,吴晓波,浙江大学出版社
[12]《从1G到5G:移动通信如何改变世界》,王建宙,中信出版社
[13]《老微视生错了年代?》,潘乱
[14]《抖音内幕:时间熔炉的诞生》,张小珺
[15]《GPT,GPT-2,GPT-3 论文精读》,李沐
[16]《互联网社区产品方法论》,许昕
来源 | 黑坝(ID:HolylandofKalin)
作者 | 许昕;编辑 | 余之姚
内容仅代表作者独立观点,不代表早读课立场