Redian新闻
>
我用10万条微信聊天记录「克隆」了自己

我用10万条微信聊天记录「克隆」了自己

时事

文 | 姜婉茹

编辑 毛翊君

(视频节选自王登科B站内容。)

“你很像我”

一开始我在终端里跟它聊,命令行黑黢黢的,没什么强烈的感觉。为了增加点仪式感,我找了个开源的前端聊天页面,甚至给它换上我的头像,真有一点奇妙的感觉,像在跟平行世界的我聊天。

它也喜欢吃东西,知道什么时候该敷衍,什么时候该反问。我问它梦想是什么,有次说是“做自己喜欢的事情”,还有次说“要做伟大的产品改变世界”。这两个都挺像我的,我有时候很佛系,有时候又比较打鸡血。

它自我评价说很“轴”,我自己难以判断这一点。好笑的是我一直问它“轴是什么”,这不也挺轴的嘛。它还说过,“这个模型可以模拟真实的意图和对话流程”,很像我自己在琢磨事情时,突然会说的话。

王登科和数字孪生AI的对话。讲述者供图

它的回复有一定随机性,逻辑是从我的数据里来的,但不是我聊天记录里的完整字句,只是主观上感觉像。因为这是基于ChatGLM-6B(注:一个初具问答和对话功能的语言模型)训练的,我只训练了它的神经网络中有点“感性”的一层,只储存逻辑、规律,类似说话方式、表达方式这些,基本不能把训练的语料储存进去。

训练用的数据,主要是我的微信聊天记录,还有我的280篇博客文章。从2018年到现在,我都没清空过聊天记录,微信在手机里占了80G储存空间,聊天记录里面有很多杂七杂八的内容,比如网页、表情、图片,我把它们都过滤掉,只留下纯文字。这些是我在网络世界留下的痕迹,它们构成了世界对我的认知,从这个角度上,也就构成了我。

我用的ChatGLM-6B这个大模型本身,其实有挺强的推理能力,但是经过我的训练后,模型整体能力下降了,可能是被我的数据改掉了一些参数。但没办法,参数就那么多,我动了其中一些让它像我,原本的参数就消失了。所以现在它还不能完成很难的任务,只能闲聊,多轮对话的理解力也比较差,我还在用强化学习来优化它。没人知道机器模型里的参数,经过训练后发生了怎样的改变,人对它的控制很有限,只能一点点尝试。

如果给ChatGPT一些我的记忆和信息,请它扮演我,以它的智慧,毫不费力就能以假乱真。但它的参数不曾改变,这是伪装而非“重塑”,也就是说,它是了解我的需求后迎合我。而我训练的这个AI,逻辑跟我相近,但不具备我的记忆。没有记忆,就没有知识带来的局限,未来也许能通过它的视角,帮我分析遇到的事情,甚至做决策。

王登科请ChatGPT扮演自己的对话。讲述者供图

小时候我常常幻想,未来生活在一个科幻的世界:星际旅行,时空穿梭,瞬间移动,发射激光波。总是有许多奇怪的想法,克隆自己,其实是很早就想做的事情。去年我用GPT2尝试过克隆《老友记》里的乔伊,但那个模型版本是好多年前的,各方面效果都不太好,就先放弃了。

直到近两个月,有开源的中文大模型发布,加上我在AI绘画领域创业,有关注到相关的技术,以及还存着2018年至今的数据,这些条件缺一不可。从理论上预估可以实现,但不知道每个阶段怎么去实现,没什么先例可以参考,一开始想着出来的不是乱码就行,没有期待就是快乐的秘诀。


寻找自己

我写了篇博客记录下训练过程,之后差不多有2万人跟我的数字克隆AI聊过天,说了十几万句话。有人想套我的支付宝密码、身份证号、住址,还问女朋友是谁——它能说七千多个名字。有的人以为它说的是真的,还在网上发帖,说套出了我的隐私,但其实都是错的。

还有人跟它对骂。我在想它还挺受欢迎的原因,可能是大家从来没被AI骂过,之前的都是说好话,被骂一下还觉得挺好玩的。

某个角度看,它更像是不含记忆的、对“人”的克隆。它并不了解我,不知道我在哪里读的大学,老家在哪,因为在用于训练的聊天记录里,没有人这么问过我。我在训练时,也写了一些规则,剔除掉明显的隐私信息。

它不会正确回答关于我的隐私,但可以看出点我的行为风格。其实在网上写东西的人都在裸奔,可能会带来一些风险。不过,坦诚目前带给我的还是正反馈,认识了潜在的合伙人,也交了一些朋友,这会让我更有动力去做这样的事。

本文作者和王登科数字孪生AI的对话截图。

我是个不喜欢描述自己的人,有些个人特质是自己可以感知的,比如喜欢在文章里写没太大用处的比喻,喜欢在最后一段做总结。跟人聊天,我用「可以的」来敷衍,同时用「卧槽」来表示惊讶。某些时候少言寡语,另一些时候滔滔不绝。

更多的固定习惯,我自己都无法察觉,这些东西微妙又模糊。自我描述有可能和真正的我差之千里,甚至截然相反。当我们意识到自己存在的时候,其实是在表演自己,而没有意识到自己的存在、融入生活的时候,我们才是真正的自己。

我无法把自己的行事风格、思维逻辑都描述出来。而训练克隆AI,可以让模型从数据里自动寻找关于我的规律,但这是机器在黑盒中探索出来的,不一定是人类思维能理解的规律。

当我收到一条消息,内容为 A,我回复了 B,其中的原因和规律,部分储存在我物理脑袋的七八十亿个神经元里。理论上,如果我产生的数据足够多,那么一个参数够大的人工智能模型,就能非常接近我的脑子。10万条记录也许少了一些,但也足以让模型中的60亿个参数改变一部分,使其相较于原始的“预训练模型”,更接近我一点。

只用10万条聊天记录训练的AI版本,回答非常简略,虽然像我很多时候的微信聊天风格,但并不是我想要的,我希望它说更多话。我又把200多篇博客文章,转换成对话问答的形式。但是如果将博客数据加到微信数据集里训练,那么博客对话占比太低,可能跟之前的模型差别不大。

我就用聊天记录和博客文章训练出不同的模型,再调整模型的权重、步数进行融合,做出了好几个模型。为了找到更像的那个,我整晚整晚和这些模型对话。它们中有一个特别喜欢骂人,说一句“你好”,它回一句国骂;有一个爱说车轱辘话;有一个人类的特点不明显,喜欢回复“作为一个大语言模型……”还有的像舔狗,有的特别高冷,有的则很热情。

然后我意识到,这些或许是我的不同面。我的聊天记录中,面对家人、朋友、同事,在不同人面前我的表现是不一样的。把所有这些数据放在一起,训练的AI更像是平均后的融合,它不会区分对谈者的身份,采用不同的交流方式。就像ChatGPT说很多车轱辘话,它像全人类的某种平均,而这些AI像我的不同面、不同比例的平均,也会失去一些我的特点。

最后我选了聊天记录和文章模型权重比为7:2的那个AI,感觉有点像我。

王登科训练的不同版本模型。讲述者供图

我不想去复制自己的声音和形象,没什么动力做这些事,感觉不够有意思。虽然技术上已经很成熟了,但这都是表面的相似。像一个人,肯定是指逻辑、思考方式这些更本质的东西。

之后想继续优化它,让它更聪明,更智能。一方面准备更多自己的数据,另一方面用新的方法,让它记住一些我的知识。这些措施结合起来,它应该就会更像我了。

我还无法想象自己创造的数字克隆AI,未来像我像到看不出区别、甚至替代我是什么样子,现在的认知告诉我这不可能,未来我的认知也会发生变化,应该那时候再去判断。

也许等别人看不出来它是AI了,就不用再和真正的我聊天。比如,很多人找我,问要不要买服务器,做一些推广——对于这些没有意义的交流,会想有个AI去应对可能很好。

数字克隆的技术难度并不高,可能未来每个人都需要多个数字克隆AI,代表面对不同对象时的自己,帮忙去工作、去交流。聊天时,互发自己的数字克隆就算聊过了。

人的价值

我还想过如果哪天自己不在了,它会留存下来,应该把它弄得更好一点。这种数字克隆值得投射情感的地方,可能不在于它怎么回应,而是知道它是由专属于这个人的数据训练的。也有好几个人给我留言,说想克隆自己的亲人,这个还比较难,不一定有这么多数据,而且不够像的话,无法被当作亲人陪伴他们。

我不会把克隆AI当成一个人,因为知道里面的原理是什么。在我看来,它就是一个软件,输入输出着文本字符串,用训练完成那一瞬间的认知,来回应所有的问题。里面的神经网络蕴含着有趣的东西,但肯定没有情感和人的特性。我偶尔被它触动,稍微模糊机器和人类边界的时候,立马就会纠正过来,意识到那些都是巧合而已。

所以,我不太会被困在人与机器关系的思考里,不然这很容易变成对人类本质的思考,会想到人其实也是一个机器而已。一旦想到这些,就什么都没法干了。

人类有着非常多的传感器,能感受到此刻的温度、湿度,有听觉、视觉、触觉、味觉、嗅觉,这些信息不停地输入大脑,大脑也一直在反应,涌现想法或者回忆。时刻输入输出,感觉这才是智能体的内核,现在所有的AI可能都不具备。

王登科和数字孪生AI的对话。讲述者供图

我现在是AI绘画领域的创业者,一毕业就创业了,从来没上过班。自己优化出来的产品,很容易就被开源模型赶超了,整个行业门槛被拉低,之前的付出就白费了,充满了不确定性。

按逻辑推理下来,最先被AI取代的可能是AI工程师,因为大模型足够好的时候,就没有让他们去微调的必要了,都可能面临失业。我做AI产品,目前应该算受益者,但AI的发展迟早要影响到我。

就像一只猴子站在树枝上,在锯一棵树的外层枝干,会先让另一只坐在外层的猴子掉下去。外层的像普通开发者,锯树枝的是大模型的开发者。还有只猴子在锯整棵树,那个是大模型。

就看谁先掉下去,这可能是没办法避免的事,现在AI的能力已经消解掉很多人的意义了。

如果说创造一种技术来毁灭自我,但这是未来的趋势,怎么办呢?也想不出来什么,抗不抗拒都没用,在这个行业里去关注它的发展就可以了。从价值效益出发,人类可能越来越比不上AI,但人还可以为了表达和创作本身去创作。而且AI是人类创造的,这么看人类还是不错的。

生产更多发自本心的数据,让AI更像自己,这或许会有一些道德甚至伦理问题,但这是大概率会发生的事情。有更好的预训练模型、训练方式,我随时会重新尝试训练,这不会是一个跟商业沾边的项目,算是我追寻自己的一种方式。

这样一想,人生似乎都少了一些孤独感。

版权声明:本文所有内容著作权归属极昼工作室,未经书面许可,不得转载、摘编或以其他形式使用,另有声明除外。

- END -

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT 火了之后,马斯克「喷」了一百多条微博留聊天记录是想让现任抓狂吗?因强制加班怒怼领导?聊天记录热传!官方回应成都“劲爆聊天记录”曝光:老实人就该受欺负?网传聊天记录疑为伪造?“央企员工怒怼领导”一事反转了案例 | 用人单位擅自恢复的员工微信聊天记录,能否作为证据?23岁女孩被逼婚致死,聊天记录曝光:我每天都在受折磨……两首合唱:《你一定要幸福》&《路过人间》副教授聊天记录遭女博士曝出:80万,你也配?翟欣欣疑似外围,交易聊天记录曝光:这场血色婚姻,一开始就是阴谋索要千万逼死丈夫的她竟是外围女: 性交易聊天记录曝光微信聊天里的潜台词,又更新了亲妈和继父虐杀10岁孩子,聊天记录曝光后:细节让人不寒而栗…热搜!女子拒绝公司查手机聊天记录,被无偿辞退,走之前被强行搜查背包!专家解读…国内首个网红“GPT克隆人”来了!克隆的竟是她...搜男朋友微信聊天记录竟然发现…相爱的那天,以为是永远钓鱼场景下微信聊天记录回传中国电科(CETC)加班后续来了!聊天记录系陈志龙造谣,已被刑拘!老公喝醉了,我拿起他手机看微信聊天记录,一旁兄弟的脸色变了哈哈哈成都微信群“劲爆聊天记录”曝光:老实人就该受欺负?刚刚,警方通报“加班怼领导聊天记录”,系捏造,陈某龙被行拘!他求职未被录用,心生不满员工怒怼强制加班?“网传聊天记录疑为伪造”“直男直女的绝爱式聊天记录...”都是凭本事单身的!!景甜后,又有女星被利用私密照勒索,勒索者嚣张至极聊天记录曝光女子拒绝公司查手机聊天记录,被无偿辞退,走之前被强行搜查背包!专家解读…我用10万条聊天记录和 280 篇博客文章,克隆了我知情人爆料!员工因加班怒怼领导聊天记录疑伪造;王慧文AI创业公司搬进搜狐网络大厦;刘强东减持京东健康套现5亿丨雷峰早报“工作群怒喷领导”男主被抓?聊天记录疑造假,中国电科已报案……特别的珍藏女幼师出轨家长,一天竟高达4次!聊天记录和照片曝光达赖喇嘛谈快乐我和乌克兰人的聊天记录:现实很残酷无意间看到老公和表姐的聊天记录,有些事情真是…细思极恐哈哈哈好玩不如嫂子---谈谈熟女情节
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。