苏杰文本侦察学发现:《儿子韩寒》作者非韩仁均# WaterWorld - 未名水世界
D*o
1 楼
儿子韩寒》作者不是韩仁均的证据,以复旦大学古籍所苏杰博士的思路证明
------------ 中国商军
今天,看到复旦大学砖头苏杰博士写的《(三重门)作者身份的语言学分析》一文,保
韩人士一片尖叫,最有典型的是鸡蛋大学的严锋叫兽:“哇,真正的校勘学专家,复旦
古籍所得苏杰老师出手了。这一篇可以完爆所有质疑派的狗屁“文本分析”。”更有叫
嚣者云:“真是个脑残,不懂就好好学学,或者请教一下你们的教主他的文本分析是啥
玩意儿,可以让方舟子PK苏教授嘛。他还敢像把生物化学说成生物医学那样糊弄人?毕
竟跨学科太远了。哦,万能的教主呀,阿门”......
对此、偶只感到悲怆。虽然偶也是跨学科跨专业,偶专业一直是经济或管理,但区别是
受过世界著名大学研究方法的规范训练。这不妨碍偶跨专业研究,因为科学的研究方法
都是同样的定性或定量分析,只是分析内容不同,瓶子都一样,里面装的可以千变万化。
当然,苏博士作文的前半部很好,至少不用偶来普及语言分析对作者身份鉴别的常识了
。苏博士搬了一个老外,以为可以唬人。偶也不知道他是否真读过这个老外的论文,还
是选择性失明?明明老外在论文强调了要注意“共享”(注:只分析文本)文字比对的
数量及比例,可是苏博士仅仅用5个词语就盲目轻率下结论。偶也不知道这个博士的论
文是怎么做?如果也是这么草率下结论,那么他论文不用看,一定是个水货。
经〈中国学术期刊网络出版总库〉查询,发现苏博士的论文有13篇,原来是古籍研
究的啊?难怪了,按天朝官方的要求,搞古籍的人不要求英语,所以前面的那个老外的
论文的内容,估计苏博士选择性失明了。
《儿子韩寒》作者不是韩仁均的证据
苏博士的方法原理是很不错的,毕竟这些在西方已经有很多年的研究。虽然国内也正在
发展,尤其是语言学的定量化研究,但是还是有很多成果,比如对〈红楼梦〉的作者鉴
别,比如中国科学院声学所、武汉大学信息管理学院的研究就颇有成效。偶今天不作“
文献回顾”了,有兴趣的人士,都自己去找文献看吧。
这里,还是非常感谢苏博士,因为他交代了语言学对作者身份鉴别的科学性,保韩人士
至少目前是十分相信这一技术,否则就是偶费劲口舌,也是对牛弹琴,因为他们习惯双
重标准、习惯选择性失明。
好吧,首先是肯定这一技术。
其次呢,苏博士的分析过程也是不错的。
但是苏博士在分析过程中犯忌了。对一个几万几十万字的作品,用词语成千上万的,仅
仅使用5个词语就“权威”地下结论,这不免太片面!Malcolm Coulthard(2004)特别
强调,分析文本词语选择时,要注意词语的数量、比例及长度(注:英语单词长度不同
,也就是单词中字母的数量,但汉语则少有这方面的问题),请苏博士再好好读一读经
典著作吧!尤其是Malcolm Coulthard编写的〈Theory and practice of forensic
stylistics〉。另外,厦门大学中文系〈现代汉语常用词表〉课题组(2008)公布的研
究说:“现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008
个”,可是我们鸡蛋大学的苏杰博士(2012)却说“我们发现,(三重门)和韩仁均作
品在常用词语的使用频率有着非常明显的差异”,在5万多的常用词语中苏博士却只使
用了5个词语:没想到、不幸、谁知、光、这人。这样的分析结论离谱就可想而知,偶
也不在此罗嗦什么论证,只要正常人就明白,韩粉如有不明白,请主动与苏博士联系补
课吧。
到此,也有人脑子比较轴的问,“我就是相信苏博士的分析”。那好吧,偶就再陪你玩
一会儿。
下面作一个假设:
假设:苏杰博士在《(三重门)作者身份的语言学分析》是十分正确的,也是行之有效
的。
既然这个假设成立,那么理论上应该是可以分析推广的,而不是只限于苏杰博士的case
.偶这么一说,可以马上有人跳出来说:任何理论都是有适用范围的,不可能无限扩大
。也不可能适用所有作品所有作者的语言鉴别研究。哈哈,是害怕偶构陷吗?
接下来,偶还是用苏杰博士方法分析他的文中举例的CASE,即《三重门》、《儿子韩寒
》、还有韩仁均的故事会类型作品。偶所用的资料是包括苏博士提供的
1、《三重门》(去掉一些乱码后,有效文字153562)、
2、《儿子韩寒》(有效文字46336),
3、由于网上的韩1的故事会作品都影象版,无法电脑处理数据,而偶找到韩1文字版的
作品仅有《捉鸟记》、《黄主任的担心》、《暗号照旧》。(三作品总有效文字是:
5862)
这里要强调一下论证前提:
1、《三重门》的作者有争论。
2、韩仁均故事会的作品作者绝对是韩仁均的,我想这个无论倒韩、还是保韩的都应该
承认,否则你不要往下面看了,滚吧!
3、根据苏博士的论证过程可知:由于“没想到”、“谁知”这两词三重门与韩1作品均
有,认为显示不同的词语偏好,但苏博士没说什么偏好(注:偶认为他不懂怎么分析了
);然后认为“光”、“不幸”、“这人”三词,《三重门》比较滥用,而韩仁均的作
品中使用的几乎为0。
据此,苏博士的下结论的前提是:韩父不使用的,而《三重门》用的,所以两作品不是
同一作者。
4、《儿子韩寒》这个作品,保韩在全部都相信是署名的作者韩仁均,而倒韩的目前也
是大部分人认为是韩仁均写的。
因为有一部分不信《儿子韩寒》的署名作者,那么这部分人(尤其是本人)的直觉是不
是有问题呢?请看偶的论证证据:
一、《儿子韩寒》的作者到底是谁?
偶也从汉语常用词语中先找了如下7个词(比苏博士的3个多了近一倍啊,哈哈)对
以上作品进行词频统计:一时间、一愣、还以为、只见、生怕、尴尬地、不再。
结果如下:
三重门 儿子韩寒 韩仁均故事会
一时间、 2 0 1
一愣、 2 0 1
还以为、 2 0 1
只见、 9 0 4
生怕、 8 0 1
尴尬地 2 0 5
不再 11 0 2
诸位看清楚啦:这几个词的使用特点相当明显地说明了,三重门的作者与署名韩仁均的
故事会作品是同一人,而与《儿子韩寒》的作者根本就不是一个人。
别太奇怪啊!这就是苏博士的理论证明的,韩粉们,你们去鸡蛋大学找苏杰博士吧,抽
耳光是起码的吧?哈哈。
当然,在此,偶还是要给韩粉一点信心,偶上述的论证是不严密的,论证的可信度也就
是笑话了。正常的作品分析,不能只使用“不用词”(这是苏杰博士使用的方法),而
是还要包括低频词、高频词,同时考虑词语的在作品中总的使用比例,(苏杰博士,好
好学学吧。)
下面是另外两个词语的总频率(作品的次数/作品总字数)
三重门 儿子韩寒 韩仁均故事会
也不 0.000547 0.000842 0.000512
不知 0.000332 0.000194 0.000341
大家看仔细啊,《三重门》与韩仁均故事会作品的频率几乎相等啊!而与《儿子韩寒》
的使用频率上相差很大,
韩粉们,现在相信了吧?哈哈哈哈哈。
不过,不要灰心,偶这里还是要给你们一点信心的,偶上述的两种方法的结论还是不严
密的,因为没有考虑作品中总使用词语及这些词语的使用的信度与效度。
也就是说,据此判断《儿子韩寒》的真正作者是片面的?
但是,(中国人一说但是,结果就完了,尤其是领导评论下属工作时,偶经常用的哦)
但是《儿子韩寒》的作者确实是有疑问。也就是可能存在其它人参与代笔或润色的可能
。这个偶会在将来某个时间给出具体严密的论证。
二、《三重门》是不是老舍、周立波代笔、还是赵长天、饶雪漫,或者李承鹏呢?
哦,别惊吓。偶这里说的周立波,不是目前电视秀里的那个上海小别三,是指曾经
比较有名的“五毛”作家,《山乡巨变》、《暴风骤雨》的作者周立波(对不起,周老
在天堂也中枪了,另外还老舍先生也对不住了。)。至于赵长天等人呢,大家都知道是
谁吧?不知道的人就别往下看了,滚!!!!
看了“一”的论述,有人又似乎象小品中被脑筋急转弯忽悠的范伟一样,突然明白地:
“你刚才用来分析的词语的不是苏杰博士原先用”
呀,真是的,没错!一不小心掉陷阱里了。
那好吧,偶就不再挖坑了,就还是用苏杰博士的词语作分析。
以苏博士推论,对《三重门》作者的鉴别的有效词是3个:不幸、这人、光(副词)。
理由是这3词在《三重门》作品中很多次使用。
偶找了老舍的《四世同堂》、周立波的《山乡巨变》、以及赵长天的《秋水长天》、饶
雪漫《我不是坏女生》、李承鹏李可乐寻人记》与《三重门》对比
不幸 这人 光(副词)
三重门 26 22 11
四世同堂 2 53 13
山乡巨变 20 5 5
秋水长天 2 2 4
我不是坏女生 1 3 1
李可乐寻人记生 13 6 2
各位,根据苏杰博士的3个词在上述6作品中都有使用,可否感觉,其它五位与《三重门
》之间是否有代笔嫌疑呢?
吓,老舍、周立波自然是不可能滴,那么另外三个作者呢?天哪,仔细一看赵长天、饶
雪漫、李承鹏都是保韩的作家(这样选择,韩粉总应该相信自己派系中的人吧。),他
们为什么要保韩呢?是不是《三重门》有部分是他们代笔或润色呢?嘻嘻,这是秘密,
偶暂时不告诉你!!
非常感激各位有耐心看到这里,但是偶在此,还是要告诉你,“二”的论证也是不严密
的,也是比较荒谬的,尤其把老舍、周立波也拉进来,不是吗?笑话而已!
偶在此再次声明,偶上述论证还是漏洞百出的,
但是,(哦,又是但是。),赵长天、饶雪漫、李承鹏三位作者是不是真得与《三重门
》代笔或润色不相干呢?
但是,上述三作家、以及挺韩的其它作家如叶XX、李海X、方X、李X、幕容XX、那X、宁
XX、路XX等等,与署名韩寒的作品之间能否真得不相干?目前真得不能轻易下结论,至
少按照经济学的利益相关者定理,是无法摆脱嫌疑滴。
偶也会在将来的适当时候公布答案。
由于以上在晚上匆匆忙忙写就,也来不及“叫对”了,相信有智商的人还是能看个明白
滴。
偶天亮了还得工作,先睡觉去了,公司的公务还得远程处理一堆。
另外,偶还有一个忠言提醒苏杰博士:你在文章中还说“这学期我有一门课-西方校勘
学”,我不知道你目前是学生还是老师?如果是学生,请好好听课,别半桶水出去唬人
;如果是老师,还是不要教啊,否则有“失明”特征的可能会误人子弟。当然,偶也知
道,国内博士,尤其是这类文科博士在研究方法上的训练是十分不够的,很多专业根本
没有这门课。而国内博士的一些“所谓”研究方法,定性的很多,定量的几乎没有。所
以出来的学生也就几乎是吹牛皮很不错,逻辑性很差,根本经不起批判。
最后再声明:本文根据苏杰原理的论证是偏颇的,结论的可信度是不足的。而关于韩寒
代笔门的更严密的论证则等偶有时间继续无私奉献。
------------ 中国商军
今天,看到复旦大学砖头苏杰博士写的《(三重门)作者身份的语言学分析》一文,保
韩人士一片尖叫,最有典型的是鸡蛋大学的严锋叫兽:“哇,真正的校勘学专家,复旦
古籍所得苏杰老师出手了。这一篇可以完爆所有质疑派的狗屁“文本分析”。”更有叫
嚣者云:“真是个脑残,不懂就好好学学,或者请教一下你们的教主他的文本分析是啥
玩意儿,可以让方舟子PK苏教授嘛。他还敢像把生物化学说成生物医学那样糊弄人?毕
竟跨学科太远了。哦,万能的教主呀,阿门”......
对此、偶只感到悲怆。虽然偶也是跨学科跨专业,偶专业一直是经济或管理,但区别是
受过世界著名大学研究方法的规范训练。这不妨碍偶跨专业研究,因为科学的研究方法
都是同样的定性或定量分析,只是分析内容不同,瓶子都一样,里面装的可以千变万化。
当然,苏博士作文的前半部很好,至少不用偶来普及语言分析对作者身份鉴别的常识了
。苏博士搬了一个老外,以为可以唬人。偶也不知道他是否真读过这个老外的论文,还
是选择性失明?明明老外在论文强调了要注意“共享”(注:只分析文本)文字比对的
数量及比例,可是苏博士仅仅用5个词语就盲目轻率下结论。偶也不知道这个博士的论
文是怎么做?如果也是这么草率下结论,那么他论文不用看,一定是个水货。
经〈中国学术期刊网络出版总库〉查询,发现苏博士的论文有13篇,原来是古籍研
究的啊?难怪了,按天朝官方的要求,搞古籍的人不要求英语,所以前面的那个老外的
论文的内容,估计苏博士选择性失明了。
《儿子韩寒》作者不是韩仁均的证据
苏博士的方法原理是很不错的,毕竟这些在西方已经有很多年的研究。虽然国内也正在
发展,尤其是语言学的定量化研究,但是还是有很多成果,比如对〈红楼梦〉的作者鉴
别,比如中国科学院声学所、武汉大学信息管理学院的研究就颇有成效。偶今天不作“
文献回顾”了,有兴趣的人士,都自己去找文献看吧。
这里,还是非常感谢苏博士,因为他交代了语言学对作者身份鉴别的科学性,保韩人士
至少目前是十分相信这一技术,否则就是偶费劲口舌,也是对牛弹琴,因为他们习惯双
重标准、习惯选择性失明。
好吧,首先是肯定这一技术。
其次呢,苏博士的分析过程也是不错的。
但是苏博士在分析过程中犯忌了。对一个几万几十万字的作品,用词语成千上万的,仅
仅使用5个词语就“权威”地下结论,这不免太片面!Malcolm Coulthard(2004)特别
强调,分析文本词语选择时,要注意词语的数量、比例及长度(注:英语单词长度不同
,也就是单词中字母的数量,但汉语则少有这方面的问题),请苏博士再好好读一读经
典著作吧!尤其是Malcolm Coulthard编写的〈Theory and practice of forensic
stylistics〉。另外,厦门大学中文系〈现代汉语常用词表〉课题组(2008)公布的研
究说:“现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008
个”,可是我们鸡蛋大学的苏杰博士(2012)却说“我们发现,(三重门)和韩仁均作
品在常用词语的使用频率有着非常明显的差异”,在5万多的常用词语中苏博士却只使
用了5个词语:没想到、不幸、谁知、光、这人。这样的分析结论离谱就可想而知,偶
也不在此罗嗦什么论证,只要正常人就明白,韩粉如有不明白,请主动与苏博士联系补
课吧。
到此,也有人脑子比较轴的问,“我就是相信苏博士的分析”。那好吧,偶就再陪你玩
一会儿。
下面作一个假设:
假设:苏杰博士在《(三重门)作者身份的语言学分析》是十分正确的,也是行之有效
的。
既然这个假设成立,那么理论上应该是可以分析推广的,而不是只限于苏杰博士的case
.偶这么一说,可以马上有人跳出来说:任何理论都是有适用范围的,不可能无限扩大
。也不可能适用所有作品所有作者的语言鉴别研究。哈哈,是害怕偶构陷吗?
接下来,偶还是用苏杰博士方法分析他的文中举例的CASE,即《三重门》、《儿子韩寒
》、还有韩仁均的故事会类型作品。偶所用的资料是包括苏博士提供的
1、《三重门》(去掉一些乱码后,有效文字153562)、
2、《儿子韩寒》(有效文字46336),
3、由于网上的韩1的故事会作品都影象版,无法电脑处理数据,而偶找到韩1文字版的
作品仅有《捉鸟记》、《黄主任的担心》、《暗号照旧》。(三作品总有效文字是:
5862)
这里要强调一下论证前提:
1、《三重门》的作者有争论。
2、韩仁均故事会的作品作者绝对是韩仁均的,我想这个无论倒韩、还是保韩的都应该
承认,否则你不要往下面看了,滚吧!
3、根据苏博士的论证过程可知:由于“没想到”、“谁知”这两词三重门与韩1作品均
有,认为显示不同的词语偏好,但苏博士没说什么偏好(注:偶认为他不懂怎么分析了
);然后认为“光”、“不幸”、“这人”三词,《三重门》比较滥用,而韩仁均的作
品中使用的几乎为0。
据此,苏博士的下结论的前提是:韩父不使用的,而《三重门》用的,所以两作品不是
同一作者。
4、《儿子韩寒》这个作品,保韩在全部都相信是署名的作者韩仁均,而倒韩的目前也
是大部分人认为是韩仁均写的。
因为有一部分不信《儿子韩寒》的署名作者,那么这部分人(尤其是本人)的直觉是不
是有问题呢?请看偶的论证证据:
一、《儿子韩寒》的作者到底是谁?
偶也从汉语常用词语中先找了如下7个词(比苏博士的3个多了近一倍啊,哈哈)对
以上作品进行词频统计:一时间、一愣、还以为、只见、生怕、尴尬地、不再。
结果如下:
三重门 儿子韩寒 韩仁均故事会
一时间、 2 0 1
一愣、 2 0 1
还以为、 2 0 1
只见、 9 0 4
生怕、 8 0 1
尴尬地 2 0 5
不再 11 0 2
诸位看清楚啦:这几个词的使用特点相当明显地说明了,三重门的作者与署名韩仁均的
故事会作品是同一人,而与《儿子韩寒》的作者根本就不是一个人。
别太奇怪啊!这就是苏博士的理论证明的,韩粉们,你们去鸡蛋大学找苏杰博士吧,抽
耳光是起码的吧?哈哈。
当然,在此,偶还是要给韩粉一点信心,偶上述的论证是不严密的,论证的可信度也就
是笑话了。正常的作品分析,不能只使用“不用词”(这是苏杰博士使用的方法),而
是还要包括低频词、高频词,同时考虑词语的在作品中总的使用比例,(苏杰博士,好
好学学吧。)
下面是另外两个词语的总频率(作品的次数/作品总字数)
三重门 儿子韩寒 韩仁均故事会
也不 0.000547 0.000842 0.000512
不知 0.000332 0.000194 0.000341
大家看仔细啊,《三重门》与韩仁均故事会作品的频率几乎相等啊!而与《儿子韩寒》
的使用频率上相差很大,
韩粉们,现在相信了吧?哈哈哈哈哈。
不过,不要灰心,偶这里还是要给你们一点信心的,偶上述的两种方法的结论还是不严
密的,因为没有考虑作品中总使用词语及这些词语的使用的信度与效度。
也就是说,据此判断《儿子韩寒》的真正作者是片面的?
但是,(中国人一说但是,结果就完了,尤其是领导评论下属工作时,偶经常用的哦)
但是《儿子韩寒》的作者确实是有疑问。也就是可能存在其它人参与代笔或润色的可能
。这个偶会在将来某个时间给出具体严密的论证。
二、《三重门》是不是老舍、周立波代笔、还是赵长天、饶雪漫,或者李承鹏呢?
哦,别惊吓。偶这里说的周立波,不是目前电视秀里的那个上海小别三,是指曾经
比较有名的“五毛”作家,《山乡巨变》、《暴风骤雨》的作者周立波(对不起,周老
在天堂也中枪了,另外还老舍先生也对不住了。)。至于赵长天等人呢,大家都知道是
谁吧?不知道的人就别往下看了,滚!!!!
看了“一”的论述,有人又似乎象小品中被脑筋急转弯忽悠的范伟一样,突然明白地:
“你刚才用来分析的词语的不是苏杰博士原先用”
呀,真是的,没错!一不小心掉陷阱里了。
那好吧,偶就不再挖坑了,就还是用苏杰博士的词语作分析。
以苏博士推论,对《三重门》作者的鉴别的有效词是3个:不幸、这人、光(副词)。
理由是这3词在《三重门》作品中很多次使用。
偶找了老舍的《四世同堂》、周立波的《山乡巨变》、以及赵长天的《秋水长天》、饶
雪漫《我不是坏女生》、李承鹏李可乐寻人记》与《三重门》对比
不幸 这人 光(副词)
三重门 26 22 11
四世同堂 2 53 13
山乡巨变 20 5 5
秋水长天 2 2 4
我不是坏女生 1 3 1
李可乐寻人记生 13 6 2
各位,根据苏杰博士的3个词在上述6作品中都有使用,可否感觉,其它五位与《三重门
》之间是否有代笔嫌疑呢?
吓,老舍、周立波自然是不可能滴,那么另外三个作者呢?天哪,仔细一看赵长天、饶
雪漫、李承鹏都是保韩的作家(这样选择,韩粉总应该相信自己派系中的人吧。),他
们为什么要保韩呢?是不是《三重门》有部分是他们代笔或润色呢?嘻嘻,这是秘密,
偶暂时不告诉你!!
非常感激各位有耐心看到这里,但是偶在此,还是要告诉你,“二”的论证也是不严密
的,也是比较荒谬的,尤其把老舍、周立波也拉进来,不是吗?笑话而已!
偶在此再次声明,偶上述论证还是漏洞百出的,
但是,(哦,又是但是。),赵长天、饶雪漫、李承鹏三位作者是不是真得与《三重门
》代笔或润色不相干呢?
但是,上述三作家、以及挺韩的其它作家如叶XX、李海X、方X、李X、幕容XX、那X、宁
XX、路XX等等,与署名韩寒的作品之间能否真得不相干?目前真得不能轻易下结论,至
少按照经济学的利益相关者定理,是无法摆脱嫌疑滴。
偶也会在将来的适当时候公布答案。
由于以上在晚上匆匆忙忙写就,也来不及“叫对”了,相信有智商的人还是能看个明白
滴。
偶天亮了还得工作,先睡觉去了,公司的公务还得远程处理一堆。
另外,偶还有一个忠言提醒苏杰博士:你在文章中还说“这学期我有一门课-西方校勘
学”,我不知道你目前是学生还是老师?如果是学生,请好好听课,别半桶水出去唬人
;如果是老师,还是不要教啊,否则有“失明”特征的可能会误人子弟。当然,偶也知
道,国内博士,尤其是这类文科博士在研究方法上的训练是十分不够的,很多专业根本
没有这门课。而国内博士的一些“所谓”研究方法,定性的很多,定量的几乎没有。所
以出来的学生也就几乎是吹牛皮很不错,逻辑性很差,根本经不起批判。
最后再声明:本文根据苏杰原理的论证是偏颇的,结论的可信度是不足的。而关于韩寒
代笔门的更严密的论证则等偶有时间继续无私奉献。