Redian新闻
>
我用10万条微信聊天记录「克隆」了自己

我用10万条微信聊天记录「克隆」了自己

时事

文 | 姜婉茹

编辑 毛翊君

(视频节选自王登科B站内容。)

“你很像我”

一开始我在终端里跟它聊,命令行黑黢黢的,没什么强烈的感觉。为了增加点仪式感,我找了个开源的前端聊天页面,甚至给它换上我的头像,真有一点奇妙的感觉,像在跟平行世界的我聊天。

它也喜欢吃东西,知道什么时候该敷衍,什么时候该反问。我问它梦想是什么,有次说是“做自己喜欢的事情”,还有次说“要做伟大的产品改变世界”。这两个都挺像我的,我有时候很佛系,有时候又比较打鸡血。

它自我评价说很“轴”,我自己难以判断这一点。好笑的是我一直问它“轴是什么”,这不也挺轴的嘛。它还说过,“这个模型可以模拟真实的意图和对话流程”,很像我自己在琢磨事情时,突然会说的话。

王登科和数字孪生AI的对话。讲述者供图

它的回复有一定随机性,逻辑是从我的数据里来的,但不是我聊天记录里的完整字句,只是主观上感觉像。因为这是基于ChatGLM-6B(注:一个初具问答和对话功能的语言模型)训练的,我只训练了它的神经网络中有点“感性”的一层,只储存逻辑、规律,类似说话方式、表达方式这些,基本不能把训练的语料储存进去。

训练用的数据,主要是我的微信聊天记录,还有我的280篇博客文章。从2018年到现在,我都没清空过聊天记录,微信在手机里占了80G储存空间,聊天记录里面有很多杂七杂八的内容,比如网页、表情、图片,我把它们都过滤掉,只留下纯文字。这些是我在网络世界留下的痕迹,它们构成了世界对我的认知,从这个角度上,也就构成了我。

我用的ChatGLM-6B这个大模型本身,其实有挺强的推理能力,但是经过我的训练后,模型整体能力下降了,可能是被我的数据改掉了一些参数。但没办法,参数就那么多,我动了其中一些让它像我,原本的参数就消失了。所以现在它还不能完成很难的任务,只能闲聊,多轮对话的理解力也比较差,我还在用强化学习来优化它。没人知道机器模型里的参数,经过训练后发生了怎样的改变,人对它的控制很有限,只能一点点尝试。

如果给ChatGPT一些我的记忆和信息,请它扮演我,以它的智慧,毫不费力就能以假乱真。但它的参数不曾改变,这是伪装而非“重塑”,也就是说,它是了解我的需求后迎合我。而我训练的这个AI,逻辑跟我相近,但不具备我的记忆。没有记忆,就没有知识带来的局限,未来也许能通过它的视角,帮我分析遇到的事情,甚至做决策。

王登科请ChatGPT扮演自己的对话。讲述者供图

小时候我常常幻想,未来生活在一个科幻的世界:星际旅行,时空穿梭,瞬间移动,发射激光波。总是有许多奇怪的想法,克隆自己,其实是很早就想做的事情。去年我用GPT2尝试过克隆《老友记》里的乔伊,但那个模型版本是好多年前的,各方面效果都不太好,就先放弃了。

直到近两个月,有开源的中文大模型发布,加上我在AI绘画领域创业,有关注到相关的技术,以及还存着2018年至今的数据,这些条件缺一不可。从理论上预估可以实现,但不知道每个阶段怎么去实现,没什么先例可以参考,一开始想着出来的不是乱码就行,没有期待就是快乐的秘诀。


寻找自己

我写了篇博客记录下训练过程,之后差不多有2万人跟我的数字克隆AI聊过天,说了十几万句话。有人想套我的支付宝密码、身份证号、住址,还问女朋友是谁——它能说七千多个名字。有的人以为它说的是真的,还在网上发帖,说套出了我的隐私,但其实都是错的。

还有人跟它对骂。我在想它还挺受欢迎的原因,可能是大家从来没被AI骂过,之前的都是说好话,被骂一下还觉得挺好玩的。

某个角度看,它更像是不含记忆的、对“人”的克隆。它并不了解我,不知道我在哪里读的大学,老家在哪,因为在用于训练的聊天记录里,没有人这么问过我。我在训练时,也写了一些规则,剔除掉明显的隐私信息。

它不会正确回答关于我的隐私,但可以看出点我的行为风格。其实在网上写东西的人都在裸奔,可能会带来一些风险。不过,坦诚目前带给我的还是正反馈,认识了潜在的合伙人,也交了一些朋友,这会让我更有动力去做这样的事。

本文作者和王登科数字孪生AI的对话截图。

我是个不喜欢描述自己的人,有些个人特质是自己可以感知的,比如喜欢在文章里写没太大用处的比喻,喜欢在最后一段做总结。跟人聊天,我用「可以的」来敷衍,同时用「卧槽」来表示惊讶。某些时候少言寡语,另一些时候滔滔不绝。

更多的固定习惯,我自己都无法察觉,这些东西微妙又模糊。自我描述有可能和真正的我差之千里,甚至截然相反。当我们意识到自己存在的时候,其实是在表演自己,而没有意识到自己的存在、融入生活的时候,我们才是真正的自己。

我无法把自己的行事风格、思维逻辑都描述出来。而训练克隆AI,可以让模型从数据里自动寻找关于我的规律,但这是机器在黑盒中探索出来的,不一定是人类思维能理解的规律。

当我收到一条消息,内容为 A,我回复了 B,其中的原因和规律,部分储存在我物理脑袋的七八十亿个神经元里。理论上,如果我产生的数据足够多,那么一个参数够大的人工智能模型,就能非常接近我的脑子。10万条记录也许少了一些,但也足以让模型中的60亿个参数改变一部分,使其相较于原始的“预训练模型”,更接近我一点。

只用10万条聊天记录训练的AI版本,回答非常简略,虽然像我很多时候的微信聊天风格,但并不是我想要的,我希望它说更多话。我又把200多篇博客文章,转换成对话问答的形式。但是如果将博客数据加到微信数据集里训练,那么博客对话占比太低,可能跟之前的模型差别不大。

我就用聊天记录和博客文章训练出不同的模型,再调整模型的权重、步数进行融合,做出了好几个模型。为了找到更像的那个,我整晚整晚和这些模型对话。它们中有一个特别喜欢骂人,说一句“你好”,它回一句国骂;有一个爱说车轱辘话;有一个人类的特点不明显,喜欢回复“作为一个大语言模型……”还有的像舔狗,有的特别高冷,有的则很热情。

然后我意识到,这些或许是我的不同面。我的聊天记录中,面对家人、朋友、同事,在不同人面前我的表现是不一样的。把所有这些数据放在一起,训练的AI更像是平均后的融合,它不会区分对谈者的身份,采用不同的交流方式。就像ChatGPT说很多车轱辘话,它像全人类的某种平均,而这些AI像我的不同面、不同比例的平均,也会失去一些我的特点。

最后我选了聊天记录和文章模型权重比为7:2的那个AI,感觉有点像我。

王登科训练的不同版本模型。讲述者供图

我不想去复制自己的声音和形象,没什么动力做这些事,感觉不够有意思。虽然技术上已经很成熟了,但这都是表面的相似。像一个人,肯定是指逻辑、思考方式这些更本质的东西。

之后想继续优化它,让它更聪明,更智能。一方面准备更多自己的数据,另一方面用新的方法,让它记住一些我的知识。这些措施结合起来,它应该就会更像我了。

我还无法想象自己创造的数字克隆AI,未来像我像到看不出区别、甚至替代我是什么样子,现在的认知告诉我这不可能,未来我的认知也会发生变化,应该那时候再去判断。

也许等别人看不出来它是AI了,就不用再和真正的我聊天。比如,很多人找我,问要不要买服务器,做一些推广——对于这些没有意义的交流,会想有个AI去应对可能很好。

数字克隆的技术难度并不高,可能未来每个人都需要多个数字克隆AI,代表面对不同对象时的自己,帮忙去工作、去交流。聊天时,互发自己的数字克隆就算聊过了。

人的价值

我还想过如果哪天自己不在了,它会留存下来,应该把它弄得更好一点。这种数字克隆值得投射情感的地方,可能不在于它怎么回应,而是知道它是由专属于这个人的数据训练的。也有好几个人给我留言,说想克隆自己的亲人,这个还比较难,不一定有这么多数据,而且不够像的话,无法被当作亲人陪伴他们。

我不会把克隆AI当成一个人,因为知道里面的原理是什么。在我看来,它就是一个软件,输入输出着文本字符串,用训练完成那一瞬间的认知,来回应所有的问题。里面的神经网络蕴含着有趣的东西,但肯定没有情感和人的特性。我偶尔被它触动,稍微模糊机器和人类边界的时候,立马就会纠正过来,意识到那些都是巧合而已。

所以,我不太会被困在人与机器关系的思考里,不然这很容易变成对人类本质的思考,会想到人其实也是一个机器而已。一旦想到这些,就什么都没法干了。

人类有着非常多的传感器,能感受到此刻的温度、湿度,有听觉、视觉、触觉、味觉、嗅觉,这些信息不停地输入大脑,大脑也一直在反应,涌现想法或者回忆。时刻输入输出,感觉这才是智能体的内核,现在所有的AI可能都不具备。

王登科和数字孪生AI的对话。讲述者供图

我现在是AI绘画领域的创业者,一毕业就创业了,从来没上过班。自己优化出来的产品,很容易就被开源模型赶超了,整个行业门槛被拉低,之前的付出就白费了,充满了不确定性。

按逻辑推理下来,最先被AI取代的可能是AI工程师,因为大模型足够好的时候,就没有让他们去微调的必要了,都可能面临失业。我做AI产品,目前应该算受益者,但AI的发展迟早要影响到我。

就像一只猴子站在树枝上,在锯一棵树的外层枝干,会先让另一只坐在外层的猴子掉下去。外层的像普通开发者,锯树枝的是大模型的开发者。还有只猴子在锯整棵树,那个是大模型。

就看谁先掉下去,这可能是没办法避免的事,现在AI的能力已经消解掉很多人的意义了。

如果说创造一种技术来毁灭自我,但这是未来的趋势,怎么办呢?也想不出来什么,抗不抗拒都没用,在这个行业里去关注它的发展就可以了。从价值效益出发,人类可能越来越比不上AI,但人还可以为了表达和创作本身去创作。而且AI是人类创造的,这么看人类还是不错的。

生产更多发自本心的数据,让AI更像自己,这或许会有一些道德甚至伦理问题,但这是大概率会发生的事情。有更好的预训练模型、训练方式,我随时会重新尝试训练,这不会是一个跟商业沾边的项目,算是我追寻自己的一种方式。

这样一想,人生似乎都少了一些孤独感。

版权声明:本文所有内容著作权归属极昼工作室,未经书面许可,不得转载、摘编或以其他形式使用,另有声明除外。

- END -

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
亲妈和继父虐杀10岁孩子,聊天记录曝光后:细节让人不寒而栗…翟欣欣疑似外围,交易聊天记录曝光:这场血色婚姻,一开始就是阴谋员工怒怼强制加班?“网传聊天记录疑为伪造”国内首个网红“GPT克隆人”来了!克隆的竟是她...案例 | 用人单位擅自恢复的员工微信聊天记录,能否作为证据?23岁女孩被逼婚致死,聊天记录曝光:我每天都在受折磨……我用10万条聊天记录和 280 篇博客文章,克隆了我达赖喇嘛谈快乐成都微信群“劲爆聊天记录”曝光:老实人就该受欺负?无意间看到老公和表姐的聊天记录,有些事情真是…细思极恐哈哈哈我和乌克兰人的聊天记录:现实很残酷索要千万逼死丈夫的她竟是外围女: 性交易聊天记录曝光相爱的那天,以为是永远女子拒绝公司查手机聊天记录,被无偿辞退,走之前被强行搜查背包!专家解读…网传聊天记录疑为伪造?“央企员工怒怼领导”一事反转了钓鱼场景下微信聊天记录回传留聊天记录是想让现任抓狂吗?热搜!女子拒绝公司查手机聊天记录,被无偿辞退,走之前被强行搜查背包!专家解读…中国电科(CETC)加班后续来了!聊天记录系陈志龙造谣,已被刑拘!好玩不如嫂子---谈谈熟女情节特别的珍藏知情人爆料!员工因加班怒怼领导聊天记录疑伪造;王慧文AI创业公司搬进搜狐网络大厦;刘强东减持京东健康套现5亿丨雷峰早报因强制加班怒怼领导?聊天记录热传!官方回应搜男朋友微信聊天记录竟然发现…微信聊天里的潜台词,又更新了老公喝醉了,我拿起他手机看微信聊天记录,一旁兄弟的脸色变了哈哈哈刚刚,警方通报“加班怼领导聊天记录”,系捏造,陈某龙被行拘!他求职未被录用,心生不满GPT 火了之后,马斯克「喷」了一百多条微博“直男直女的绝爱式聊天记录...”都是凭本事单身的!!副教授聊天记录遭女博士曝出:80万,你也配?女幼师出轨家长,一天竟高达4次!聊天记录和照片曝光两首合唱:《你一定要幸福》&《路过人间》成都“劲爆聊天记录”曝光:老实人就该受欺负?景甜后,又有女星被利用私密照勒索,勒索者嚣张至极聊天记录曝光“工作群怒喷领导”男主被抓?聊天记录疑造假,中国电科已报案……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。