Redian新闻
>
我写了篇论文分析老公婚前婚后的语言变化,结论是……

我写了篇论文分析老公婚前婚后的语言变化,结论是……

其他

今年 7 月 10 日是我和老公结婚一周年纪念日。从年初开始,我就一直在思考该送他什么礼物——既有创意又能让他喜欢。4 月初,小红书上一则“学霸给女友写了一篇缓解身材焦虑的论文”的帖子,让我顿生灵感:我也要给老公写一篇 paper!


这有一层“双关”的妙意:在一些文化里,结婚一周年被称作 Paper Anniversary(纸婚),夫妻双方会互赠纸制品作为礼物,paper 完美贴合主题。


paper anniversary 的礼物常常是卡片或一本书 | Unsplash


本着对老公的爱与对学术的热忱,我开始了为期三个月的论文准备。期间,先后经历了确定主题和研究方法、自学中文自然语言处理、研究分析、写初稿、找朋友们 peer review ,以及展示的全套过程。


  确定主题与方法  


万事开头难。


写论文对我来说并不陌生,简直刻在 DNA 里。本科开始,我就跟着教授做科研,研究生阶段独立完成研究课题,经历答辩、学术演讲无数。


但在没有任何方向的前提下,写一篇论文可不容易。之中,最困难的是确定一个可行的研究主题。这个小项目不同于我之前的任何科研,它需要我“凭空”想出一个题材以及研究目的,以便之后确定具体的研究方法。


我尝试打开谷歌学术,搜索与“婚姻关系与幸福感”相关的文献,前后浏览了大概十篇。阅读整理之后我发现,相关论文几乎都是社会学背景的,研究过程及结论多数是基于对参与者的面试和访谈。


Unsplash


礼物讲究“惊喜”,访谈类的方法显然不可行。在不需要老公参与、不被发觉的情况下,怎样做才能达到同样的研究效果呢?


这时灵感乍现,我想到可以用自然语言处理技术对我俩的聊天记录进行文本分析。这样一来,既避免了他直接参与(所有聊天记录都储存在我手机里)导致“打草惊蛇”,又和我从事的职业紧密相关,对我来说应该会更得心应手。


这个过程中涉及到不少我已有的技能。对于自然语言处理,我选择使用 Python 语言。作为数据科学家,我本身对于 Python 比较熟悉,而且在 Github 上能搜索到的,针对简体中文的语言包基本都是基于 Python 。


行文和内容编辑用的则是 Latex 的编辑器 Overleaf 。我过往大多数学术论文都是用 Latex 完成编辑,它可以自动排版,让整个 paper 看上去自带高大上的光环——最终效果也的确如此,乍一看仿佛真是一篇已经正式发表出来的论文。


论文开头 | 作者供图


  数据分析  


整篇论文的重中之重,在于数据分析环节


第一步是收集数据,这往往也是数据科学家们最头疼的一步。初始数据通常庞杂、未经整理,像座年久失修的旧仓库,科学家需要进行数据清理,抽取出自己真正需要的部分。


我一开始的想法是把 2021 年所有的微信聊天记录都提取出来,但后来遗憾发现微信没有直接提取数据的功能,只能通过最原始的方法——手动复制粘贴。


这是一项漫长的劳作,手动随机复制粘贴婚前婚后各 100 条消息,期间一直在点击鼠标和键盘,我的手一度很酸想要放弃另图他路,但想到了对老公与数据科学的爱,还是选择继续……


经过两周时间,我收集了 200 条消息——实际上这也非常符合一个数据分析项目的时间分配,之前我所做的任何相关项目,基本都要花将近一半时间去进行数据的收集与处理。


Giphy


下一步就是将初始数据变成一个可分析的小数据库。这两百句对话中,有很多于分析无益的干扰信息,需要把它们剔除。


我用了自然语言处理中常用的一些方法。


主要分为三步。第一步是分词 (Tokenization) ,即把一句话分成若干单独的词汇,将每个词汇作为一个信息单元进行分析。这是中文的特点,不像英文现成的单词,中文是由连贯的“字”组成的语言——在机器眼中,是无从区别的


我花了不少时间,在 Github 上找到一个现有的中文分词组件,叫“结巴”,帮助我进行分词。


第二步是去除停用词 (Remove Stop Words) , 即去除频率较高但是对于语言分析没有实际性帮助的词,比如“是的”、“好的”、“还有”;除此之外,第三步时我还去除了由单个中文字组成的词(例如:我,你,好),这些单字词帮助组成了完整的句子,但我个人觉得,对于分析不会提供太重要的作用。


上述步骤帮助我获得了一个有意义的数据集(DataSet)。清理后剩下的实词大概有 500 个。可以开始分析了。


数据分析主要分为两大部分。第一部分是运用频率最高的热点词汇 (Top Words),比较婚前婚后高频词的不同。这一部分我运用了可视化词云 (Word Cloud) ,直观展示高频词汇的出现。


第二部分是对文本进行情感分析 (Sentiment Analysis)。我使用了一个已经训练好的开源模型,来预测每个单词的情感。这个模型会在 0 到 1 的区间对词汇进行打分,0 表示最负面的情绪,1 表示最正面的情绪。


继而,通过预测的情感数值,我使用了统计学中常见的 t 检验 (t-test) 来分析婚前婚后情感数值的平均值,看是否存在显著差异。


该开源模型使用的训练数据来自电商评分网站 | Giphy


值得一提的是,通过对最初始数据分布的分析,我发现整个研究数据严格意义上并没有符合正态分布,所以并不能够进行 t 检验。不过考虑到老公对于统计学知识的局限性,为便于他理解,我还是采用了这种最常见的检测方式。


研究结果显示,有一些高频词在我们婚前婚后贯穿始终,比如“宝贝”、“回家”、“狗子”(指我们的宠物狗 Fuwa 和 Waffle )、“照顾”(通常是指他照顾我)。


不同的则是,婚后,他对我有了个新的昵称 “Cutie”(可爱),叫我“老婆”的次数也明显增加,因为在我正式成为他的妻子之后,不仅可以更加“名正言顺”地叫我“老婆”,这也是他对我“撒娇”和示爱的最明显表达。 :)


高频词分析结果的可视化图形,左为婚前,右为婚后 | 作者供图


另一点值得注意的是,“辛苦”这样的负面情绪词,婚后不再继续出现在高频词列表中;“我爱你”的频次则变得更高了。整体而言,婚后的情感数值平均得分也比婚前要更高。


研究结论:婚姻使我们变得更加幸福且对未来生活充满了信心,让我更加坚定选择与我老公结婚是我这一生中最重要也最正确的决定。


高频词柱状图,左边为婚前,右边为婚后 | 作者供图


  Peer Review  


写好初稿后,我遵循学术惯例,打算找朋友们 peer review(同行评议)。最初,我很担心小伙伴们会出于种种理由而拒绝,因为毕竟是要读一篇比较学术的 paper ,且要提出建议。但出乎意料,大家对这篇 paper 都特别上心,不仅帮我改语法还提出了很多研究方向上的建议。最后连我在工作中的 manager 也加入了 peer review 的队伍,我真的很感动。


婚前婚后用词的情感数值得分结果,左为婚前,右为婚后 | 作者供图


  成果展示  


正式给老公展示这篇 paper 之前,在某次约会中,我给他透露了一些线索。


当时我让他去猜,给的提示是与我们纪念日主题(paper)有关,但即使这样,他也一直没有猜出来。当最终我告诉他礼物是一篇学术论文的时候,他十分惊讶与感动、疑惑又不解,好几分钟才缓过神来——这几个月以来我都是在晚上偷偷准备这份礼物,他完全没有觉察到。


结婚纪念日前一天晚上,约会结束回到家,时间与气氛正正好,我感到,是时候把这三个月的成果展示出来了。


虽然提前知道了形式,但看到 paper 的那一刻,我老公还是非常惊喜。他是一个特别容易感动的人,所以当他看完摘要时,已经感动到痛哭流涕(略有夸张的成分,但眼角有湿润)。他认认真真地读了整篇文章,并表示这是他读过的最好的、最独一无二的 paper。


我们毕业啦!| 作者供图 


  后记  


我俩的相知相识,可以说始终与学术紧密交织在一起。我们相识于校园——本科都在多伦多大学,我就读的是工业工程专业,他学的是机械工程。


2015 年暑假,我们在一次共同参加的研讨会上偶然认识,不经意间了解到彼此都在准备考驾照,就相约暑假里一起学习路考知识,从而渐渐彼此熟悉。


在学生时代,他就很热衷于作我的“听众”,在演讲前听我练习。每次我在他面前讲起一些学术相关的术语,他虽然听不懂,但也觉得很厉害。


再后来,我们本科毕业,我选择继续攻读研究生,去安大略省卫生厅担任数据科学家;他则选择了直接工作,如今在一家工程咨询公司中担任环境噪音与声学工程师。


2021 年 7 月 10 日,正值我们在一起整整六周年的日子,因为疫情阻碍,我们在加拿大无法回国,国内的家人们也无法到来,于是我和老公决定在多伦多举办一场小型婚礼,邀请了少量在加拿大的朋友,通过线上直播的方式将这个喜讯与国内亲人们分享。自此,我俩正式成为了夫妻。


婚礼现场跟我们的两只狗狗在一起 | 作者供图


这篇 paper 的完成让我收获了很大的成就感。虽然它与能够发表的 paper 还相差甚远,更像是我为他写的一封情书,但确实让我亲历了一回自己定义“研究课题”,然后一步步实现的过程。也让我第一次发现原来数据科学和论文都可以如此浪漫!


自然语言处理和统计分析都属于数据科学的范畴。我本身的专业和工作都是和数据相关,通过这个项目,操练了旧技能的同时,我还学到了不少新知识,对于自身的职业发展也很有帮助,算是一个意外之喜。


我在小红书(@爱吃豆沙包的豆纸)上分享了给老公写论文这件事,意外走红,拥有了近 15 万的阅读量,和将近 7000 次的点赞与收藏,网友纷纷对“写论文”表现出了兴趣。


我相信,不管有没有科研背景,每个人都可以用论文的结构和形式去“测量”自己的生活,因为我们所做的任何的事情都可以按照起因/经过/结果/总结来概括。


人们将一周年称为 paper anniversary,是认为新婚是简单、脆弱却又充满了可能性的;再往下,是棉布、皮革、亚麻……乃至银婚、金婚,象征着越来越坚固的感情。因此我想,十年之后,可以再来写一篇十年的回顾性研究,回头看看我们走过的路,以及每个时间段的心路与历程。


参考文献

[1] Neutrino. (2020). jieba. https://github.com/fxsjy/jieba. GitHub.

[2] Wang, R. (2020). Snownlp. https://github.com/isnowfy/snownlp. GitHub.

[3] Gove, W. R., Hughes, M., & Style, C. B. (1983). Does marriage have positive effects on the psychological well-being of the individual? Journal of health and social behavior,(), 122–131.

[4] McDowall, D., McCleary, R., & Bartos, B. J. (2019). Interrupted time series analysis. Oxford University Press.


作者:Bean

编辑:翁垟


本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
对预训练语言模型中跨语言迁移影响因素的分析无论是否达到目标,都要学会面对结果 | 人间日签国内首次!这家中国企业的语言AI实力被公认全球No.2!仅次于谷歌夫妻婚后同房越来越少?!老公有这种表现,绝对有猫腻!临怀素《冬熟帖》记婚前嘘寒问暖,婚后怎么连共情都不会了?离谱!超美女生订婚照被网友评论是某会所8号女技师事件爆议绝!比Grammarly好用10倍的神器,让我写出了一稿过的英语论文!张文宏团队对于2022年上海Omicron疫情的首篇论文,到底说了什么?和我在加州的海边走一走,那成都呢?周末愉快 菜地马克谈天下(295) 聊聊广播女皇Delilah如何花光6000亿?富婆被老公出轨离婚后放飞,花式花钱太凡尔赛懂你的消费焦虑,所以写了篇抖音818好物攻略不同孩子的英文分级读物怎么选?看完这篇,你也能成为惊艳众人的妈圈领袖一锅意大利面,能水出多少篇论文?阿里“通义”大模型炸场WAIC,背后要从一篇论文讲起发现肺结节去查个肿瘤标志物能给出良恶性结论吗?肺结节单发多发哪个有危险?结论出乎意料知乎3000万热帖:结婚后的你,后悔了吗?辉瑞新冠药Paxlovid治疗阳转阴后复阳?他用自己写了篇论文当妈后,我写了 100 万字的日记(企业分析)如何下手开始企业分析?--- 从底层逻辑向上做企业分析(第一课)贾浅浅写了什么诗?谈谈诗歌、语言和意义的瓦解新冠周报丨​针对Omicron BA.4/5,三大顶刊这个一致结论令人更担忧阅读、思考、表达、讨论,对孩子至关重要的语言能力,请从现在开始培养!国际手语日 | 原来手语也有不同语种?一起了解无声世界里的语言bié:讲音乐的语言,融入广袤的世界「结婚前,我在他的包里发现了治早泄的药……」永远3岁!Cell子刊:揭示无论是20岁还是84岁,肝脏的年龄都在三岁以下中介的语言知网认错!同一篇论文存在收费与免费两种情况,就连钟南山也被“套路”了我家孩子说话到底晚不晚?看完这份超详细的语言发展攻略,心里有数了(0-6岁父母收藏)背包徒步-因纽国家森林荒野( Inyo National Forest – Wilderness)(下)“因为一双鞋,老公把我抛弃”:毁掉婚姻的不是出轨,不是贫穷,而是……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。