复旦古籍所苏杰博士：《三重门》作者身份的语言学分析 - 未名空间MITBBS历史存档

复旦古籍所苏杰博士：《三重门》作者身份的语言学分析# WaterWorld - 未名水世界

p*r2012-03-06 08:03

1 楼

韩寒被质疑有人代笔，到现在已经快两个月了。其间断断续续，我大致看了两方的主要
论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人，
他们的理性和克制，也给我留下了很深的印象。质疑者有不少分析论证，有相当强的说
服力。相比之下，韩寒的表现却令人大跌眼镜。由于手头的工作比较忙，一直没时间看
韩寒父子的相关作品，不过，我心中的天平，已经向质疑者一方倾斜了。
新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是
textual criticism，也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个
案与同学们分析讨论，于是找来《三重门》和韩仁均的有关作品，从质疑者的立场出发
，进行比对分析。结果出乎我的意料。我心中的天平，开始向韩寒一方倾斜。
谁都无法证明？
面对代笔质疑，韩寒晒出手稿。质疑方说，手稿太干净了，不像创作稿；所以，即使笔
迹是韩寒的，也不能证明文字是他撰写的。这种说法也不是没有道理。
最近，韩寒在接受《中国新闻周刊》采访时说，这是“谁都无法证明的东西”，“如果
这个事情可以成立的话，那这就意味着，全中国只要看哪个作家不顺眼，然后就可以说
，你的文章不是你写的，那这个作家就百口莫辩。作家这个行业很特殊，因为他们都是
在家里写，对于一个作家来说，这种质疑成立的话，那这个作家就不用混了，我觉得他
就直接完蛋了，他的职业生涯就不用继续了”。
这未免有点危言耸听。文本的作者身份，真的没有办法证明吗？
当然不是。近几十年，欧美各国有一个方兴未艾的边缘学科，叫“司法语言学”（
Forensic Linguistics）。司法语言学家的主要工作之一，就是通过语言分析、文本鉴
别，确定文本的作者身份。下面我先参考马尔科姆·库尔撒德（Malcolm Coulthard）
的经典论文《个人语言特点和作者身份认定》（Author Identification,Idiolect and
Linguistic Uniqueness），对这一方面的理论和实践作一简单的介绍。
语言指纹
语言学家解决作者归属问题的理论出发点是，在操同一种语言的庞大人群中，每一个个
体的言说和写作，都有其独一无二的特点，英语叫idiolect。
每一个人都有自己多年建立起来的一个常用词汇集合（或者叫常用词表）。这个词表，
与其他人所建立起来的常用词表可加以区分。这种区分，不仅表现为每个人的词表所包
含的词语项不相一致，还表现为每个人对不同词语项有着不同的偏好。
打个比方。大卖场里的货物不下几万种，理论上我们都是可以选购的，也就是说，这是
open selection；但我们经常买的，也就不满一百种吧。这每一种选择（selection）
，都是出于我们的偏好和习惯，体现了一定的个性。单一的“选择”（selection），
譬如有人每个月都会买雀巢咖啡，区分度不是很大，因为有不少人也会有同样的“选择
”。可是，如果多个“选择”形成一个集合（co-selection），那么区分度就会很大，
甚至是独一无二的。譬如经常买雀巢咖啡+涪陵榨菜+中华牙膏+绍兴黄酒+弥猴桃+喜跃
猫粮的，整个大卖场记录里，恐怕就只有一个家庭。
“因而虽然从理论上讲，任意说话者/书写者在任意时间可以使用任意的词语，但在实
际上会有典型性的个人化的好尚拣择。这意味着应该有可能设计出一种‘语言指纹’的
识别方法，换句话说，特定说话者/书写者在语言上所形成的印象是可以用来进行身份
辨认的，就像签名一样。”
把基于co-selction的个人语言的独一无二的特点（idiolect）称作“语言指纹”，这
很形象。但是，我们也应注意“语言指纹”与生理指纹之间的重要不同。
“生理指纹的价值在于，每个样品都是可以通过比对进行同一认定的，也是穷尽性的，
也就是说，包含了对于个体身份进行同一认定所需要的所有信息。相比之下，语言样本
，即使是很大的语言样本，也只能提供相关个人语言特点的非常局部的信息。”因而我
们目前还不可能建立一个“语言指纹库”，并在此基础上对争议文本进行比对检测。
虽说如此，但“语言指纹”的识别方法也不是全无作为。因为实际案例中常常有一些线
索，可以将所要比对的文本样本局限在几个人（通常是两个人）之间，从而大大地简化
了问题。实践中有一些通过“语言指纹”对作者身份做出同一认定的著名案例。
UNA炸弹客案
美国有一个人，在1978年至1995年之间，每年一次，向多个地方邮寄炸弹，先后炸死3
人，炸伤23人。最初看不出有什么规律，几年后FBI注意到，受害人都是在大学或者航
空公司工作，因而取“大学”（University）和“航空”（Airline）的首字母，称神
秘人为UNA炸弹客。
1995年，6家报刊机构同时收到自称是UNA炸弹客的人寄来的一个35000词的文章，题目
是“工业社会及其未来”。该人提出，如果文章可以发表，就停止邮寄炸弹。
1995年8月，《华盛顿邮报》增刊发表了这一文章。三个月后，有一个人联系FBI说，从
文章中的一处特别措辞来看，这个文章像是他十多年未见过的兄弟写的。他以前注意到
这一措辞，印象深刻。FBI通过搜索，在蒙大拿州荒野中的一个小木屋里找到并逮捕了
这个人的兄弟。
这个嫌疑人叫泰德·卡茨斯基（Ted Kaczynski），1942年生于芝加哥，极端环保分子
。幼称神童，16岁考入哈佛大学，后获得数学博士学位。25岁被加州大学伯克莱分校聘
为助理教授，两年后辞职，在蒙大拿州的荒野中的一个没有电没有自来水的小木屋里，
过着野人一般的生活。
FBI在小木屋里发现了卡茨斯基所写的几篇文章，其中一篇是十年前在报纸就同一主题
发表的大约300词的文章。FBI分析专家认为35000词的文章和300词的文章存在语言上存
在重大相似性，有相同的常用实词、虚词以及固定短语共12个：at any rate（无论如
何）；clearly（显然）；gotten（得到）；in practice（实际上）；moreover（再者
）；more or less（或多或少）；on the other hand（另一方面）； presumably（大
概）；propaganda（宣传）；thereabouts（所在）；以及由词根argu（“论-”）和
propos（“指-”）所派生的一些词语。于是专家认定，这两篇文章的作者是同一个人。
被告律师也请了一个语言学专家，这个语言学专家反驳道，这些相同的词语不说明任何
问题，因为任何人在任何时候都有可能使用任何词语，所以词汇的重叠不具有甄别意义。
FBI专家用互联网搜索进行了检验。当时互联网的规模比现在要小得多，但即便如此，
他们也发现了有三百万个网页包含这十二个词语中的有一个或者多个。不过，当他们搜
索包含所有这十二个词语的网页，却只得到69个；经过仔细考察，这69个网页都是《华
盛顿邮报》那篇35000词文章的网络版！
这一事实充分说明个人词汇选择集合的独一无二性，证明了利用这一个人语言特点对文
本的作者归属问题进行司法鉴定的可行性。
这方面的案例还有不少，不过我觉得仅此一例已能说明问题。
下面我以《三重门》和韩仁君作品作为文本样本，对其常用词汇集合进行初步的调查和
分析。
材料与调查
关于《三重门》的质疑，可以概括为两句话：一，韩寒可能不是《三重门》正真的作者
；二，韩仁均是嫌疑最大的代笔者。我们先来检验第二句话。我们尽量多地搜集韩仁君
公开发表的文字，将其作为文本样本，与《三重门》进行比对，看两者常用词汇是否一
致。
这里列出我们所用的材料，并尽可能附上网络资源，以便大家检核。
《三重门》，16万字。来源：http://ishare.iask.sina.com.cn/f/6938109.html?from=like
韩仁君作品，约11万字。包括以下：
《说说我自己》，来源：http://blog.sina.com.cn/s/blog_4701280b0102e0eu.html
《儿子韩寒》，来源：http://msn.qidian.com/ReadBook.aspx?bookid=1338594
《捉鸟记》、《黄主任的担心》、《暗号照旧》，来源：http://www.douban.com/group/topic/27264737/
《难成着属》（上），来源：http://club.kdnet.net/dispbbs.asp?boardid=1&id=8107705&page=1&1=1#8107705
《潇洒走一回》、《小康村里好事多》、《排队奇闻》、《难得糊涂》、《巧熄鞭炮声
》，来源：http://www.tianya.cn/publicforum/content/free/1/2369122.shtml
《抢夺冠名权》、《拿不出》、《笨贼》，来源：http://www.tianya.cn/publicforum/content/free/1/2368869.shtml
《临时爸爸》、《争取》，来源：http://blog.sina.com.cn/s/blog_56e2963a010111up.html
《从留级到休学》、《长在肚子上的西瓜秧》，来源：学术期刊网
《压在箱底的花棉袄》、《养猪难卖》、《罚款》、《心灵感应》、《两家人和一群鸡
》（即韩仁均微博所谓“鸡不可失”），来源：期刊《故事会》、《现代农村》。
通过对以上材料的调查比对，我们发现，《三重门》和韩仁均作品在常用词语的使用频
率有着非常明显的差异。以下是几个例子。
【没想到】《三重门》13例，韩仁均作品3例（其中1例是引用韩寒的话）。
《三重门》
韩仁均作品
1．没想到林雨翔天生——应该是后天因素居多——对书没有好感。
2．万没想到这位语文教师早雨翔一步失了节，临开学了不翼而飞。
3．雨翔发自肺腑地“啊”一声，问：“梁梓君，没想到没想到！你现在在哪里？”
4．雨翔望着星空，说： “其实我不想来这里，我也没想到会来这里。”
5．万没想到被林雨翔先用掉，只好拼了老命跑。
6．雨翔道：“没想到人这么少，而且虫那么多——”
7．学生都为之一振，万没想到钱校长道：“但是，我还要强调几点……”
8．雨翔大大地窘迫，没想到自己已经酸到这个地步。
9．钱荣没想到 “哭妹” 真哭了。
10．（社长）说：“好！没想到！你太行了。你比我行！”
11．没想到万山大惊失色。
12．我做得一点兴趣都没有，睡了一个钟头，没想到还能及格！
13．钱荣说：“没想到啊，一个男的深情起来这么……”
1．《儿子韩寒》：“韩寒说，我只是看到它很好玩，没想到它会拉屎，要是它不拉屎
多好。”
2．《难得糊涂》：“他更没想到，通过这次照相，自己又学到了文化馆摄影老师没有
传授的本事。”
3．《小康村里好事多》：“没想到村民们怎么也不答应。”
【谁知】《三重门》1例，韩仁均作品15例。
《三重门》
韩仁均作品
1．“谁知谢景渊道：‘老师凶点也是为我们好……’”
1．《儿子韩寒》：“谁知这天韩寒正好丢了钥匙，结果这天他在房门外的楼梯上蜷缩
了一夜。”
2．《儿子韩寒》：“谁知他倒是一样东西都没有丢失。”
3．《儿子韩寒》：“谁知‘好好吃’太不易了，第二回重蹈覆辙。”
4．《儿子韩寒》：“谁知韩寒中午放学到我的办公室时挺高兴，似乎不计‘前嫌’了
。”
5．《儿子韩寒》：“谁知护士见状说，手掌跟部会更痛。”
6．《儿子韩寒》：“谁知韩寒竟奇迹般地走了过来，居然会走路了。”
7．《儿子韩寒》：“谁知，韩寒向老师借来笔和纸，马上画了一幅画。”
8．《黄主任的担心》：“谁知刚伸出一半，里面就‘呼’地窜出个什么来，差点撞上
黄主任的头。”
9．《难成眷属》：“谁知那小手用劲往回一缩，传来‘哇’地一声哭叫。”
10．《难成眷属》：“谁知今天因为小珊失散而又和肖丽意外地想见了。”
11．《难成眷属》：“谁知老太太好事做到底，实行一条龙服务。”
12．《排队奇闻》：“谁知道小伙子一个转身又回到女同胞的队伍里。”
13．《难得糊涂》：“谁知这时从人群中挤出一个人来。”
14．《养猪难卖》：“谁知收猪的汉子突然蹦出一句话来：‘这猪不收！’”
15．《小康村里好事多》：“谁知市里这回却认真了起来。”
副词【光】《三重门》11例，韩仁均作品0例（有1例，是引用他人作品）。
《三重门》
韩仁均作品
1．光专家头衔就有两个。
2．梁梓君说这种信纸不用写字，光寄一张就会十拿九稳泡定。
3．林父光家教就请掉五千多元钱，更将雨翔推上绝路。
4．市南三中旁光明目张胆的电脑房就有五家。
5．光上课下课就十来万字。
6．可见思念之情不光是存在于头脑之中还存在于脚上，心有所属脚有所去。
7．人不能光靠爱活下去。
8．雨翔笑道：“光你挤出的汗也够我洗个淋浴！你受得了？”
9．雨翔听了暗笑，道：“他们光身上的衣服都要二三百块钱一件呢。”
10．钱荣说：“光读书不能称鸿儒……”
11．光凭这点，它应该在中国文学史中占一席之地！
1．《儿子韩寒》：“你可别光盯着黑板，考虑什么中心呀选材呀，你得仔细打量一下
讲台上的语文老师。”
（备注：这是引用2000年第8期《少年文艺》载广东兴宁一中林苑宁同学写的《教你作
文——有感于应试作文》。）
【不幸】《三重门》22例。韩仁君作品0例。
《三重门》
韩仁均作品
1．后来不幸收到出版社的退稿信函。
2．不幸财力有限，搬不远。
3．不幸坏马吃回头草这类事情和精神恋爱一样，讲究双方面的意愿。
4．不幸估计不足，差点跳水里，踉跄了一下。
5．不幸被一个国家先用了。
6．那才女收到雨翔表哥的文约，又和雨翔表哥共进一顿晚餐，不幸怀春，半夜煮文烹
字，终于熬出了成品。
7．梁梓君硬是加快速度，终于有了临产的感觉，却不幸生下一个怪胎。
8．梁梓君不幸误以为林雨翔是个晦迹韬光的人，当林雨翔还有才华可掘。
9．不幸掷艺不精，扔得离目标相去甚远，颇有国家足球队射门的英姿。
10．不幸老K平日树敌太多，后排两个被他揍过的学生也虎视眈眈着。
11．不幸“丰富生活”的口号仿佛一条蛔虫，无法独立生存，一定要依附在爱国主义教
育上。
12．不幸随着时间的推移，这笑脸变成不稳定结构，肌肉乱跳。
13．林雨翔握紧拳，刚要张口，终于不幸，大坏气氛的事情发生了，Susan早雨翔一步
，说：“有什么事么？没有的话我回家了？”
14．不幸忙中出错，原来空出一块地方准备插一幅图，事后遗忘。
15．不幸的是慕名来靠这座山的人也越来越多。
16．不幸的是雨翔误入歧途。
17．两节数学课还算是数学老师慈悲为怀，隔壁二班，抽签不幸，碰上一个数学班主任
……
18．雨翔始料未及，不幸考了个鲜红，四十五分。
19．免得说起来是不幸被动被甩。
20．不幸的是对钱荣垂涎的女孩子大多都骚。
21．钱姚斗得正凶时，林雨翔不幸生了在市南三中的第一场病。
22．林雨翔天生不会嘲讽人，说：“你的英语真的很不错啊。”理想的语言是抑扬顿挫
的挖苦，很不幸的，情感抒发不当，这话纯粹变成赞扬。

【这人】《三重门》26例，韩仁君作品0例。
《三重门》
韩仁均作品
1．林雨翔这人与生具有抗议的功能，什么都想批判。
2．林父这人爱书如命。
3．说雨翔这人“正复为奇，善复为妖”。
4．林雨翔觉得罗天诚这人的性格很有研究价值。
5．林雨翔心里在恣声大笑，想这人装得像真的一样。
6．林雨翔暗吃一惊，想难怪这人不是大雅不是大俗，原来乃是大笨。
7．你这人也太自私了。
8．卡夫卡这人不仅病态，而且白痴。
9．说牛炯这人文章不好就借什么“东日”“一波”“豪月”来掩饰。
10．牛炯这人凶悍得很。
11．你这人脑子是不是抽筋了！
12．背后骂林雨翔这人自私小气。
13．林雨翔突然想这人也许正是“鲁迅文学院”里“走出”的可以引以骄傲的校友。
14．林雨翔拍手说：“好！这人的下场就是这样的！活该！”
15．这人是学校副校长兼政教处主任。
16．第二个讲话的是体育组教研组长刘知章，这人不善言谈。
17．使钱荣这人更显神秘。
18．不相信林雨翔这人如此多灾多难。
19．还有一派前卫的文笔，如“这人真是坏得太可以了，弄得我很受伤”。
20．谭伟栋这人似乎被一号室的感化改造了。
21．雨翔对这人早已好感全无。
22．万山这人虽然学识博雅。
23．雨翔“哇”了一声，说这人写的情书和大学教授写的散文一样。
24．雨翔深知钱荣这人到结账时定会说没带钱。
25．而且钱荣这人比美国政府还会赖债。
26．为了让学生了解Bell这人，无谓把Bell拼了一遍。

分析与结论
【没想到】和【谁知】在语义上有交叠。《三重门》和韩仁均对于这两个词语的使用，
此长彼消，在一定程度上互为补充，显示出不同的词语偏好。
副词【光】、【不幸】、【这人】，《三重门》用得很多甚至有点滥。比如有几例“不
幸”，改为“怎奈”可能更恰当；有几例“这人”，完全是冗辞。相比之下，韩仁均作
品中这三个词语用得极少甚至几乎不用（现有材料未见用例）。这应当是韩仁均与《三
重门》作者在常用词表方面的显著差异。
两点说明。一，韩仁均作品和《三重门》都是叙事文字，所叙述的内容、所反映的生活
有相当大的重叠面，语言具有很强的可比性。
二，《三重门》和韩仁均作品都是公开发表的文字，中间都有编辑过手。编辑的影响（
如果有的话），主要是减少文本语言的个性而不是相反。我们可以对编辑因素不予考虑。
从韩仁君作品与《三重门》在常用词表上的不同和偏好，我们可以初步得出结论，排除
韩仁君代写《三重门》的可能性。
当然，我们调查的范围绝不仅限于这几个词。之所以列出这几个词语，是出于以下三点
考虑：一，这几个词语比较典型；二，我有其它的用意，这个后面会谈到；三，这几个
词语已足以说明问题。在司法鉴定中，排除比认定同一要容易的多。用DNA（区分度很
高）进行同一认定，也只是表述为99.99%，但血型（区分度很低）的不同，就可以直接
排除嫌疑。
在对《三重门》和韩仁均的不同用语习惯进行局步的揭示之后，我们用备受争议的韩寒
新概念作文做个检验，看看更接近哪一个。
如前所说，【没想到】、副词【光】、【不幸】、【这人】，这四个词语在《三重门》
中频频出现，在韩仁均作品中极少甚至几乎不出现。而经过检索，我们发现，这四个词
语在篇幅不长的韩寒“新概念”作文中却出现了三个，具体如下：
《书店（一）》：“光介绍什么叫‘猪’就用了六七页。”
《书店（一）》：“光画面质量就让人心寒——齐天大圣非人非猴。”
《书店（一）》：“也有专门研究称谓的，告诉你女人无论老少，一律‘小姐’，佩服
自己怎么没想到，‘小姐’、‘大姐’乱叫。”
《杯中窥人》：“作为一个中国人，很不幸得先学会谦虚。”
《书店（二）》：“领头签名的人比较不幸。”
前几天，最早质疑韩寒的麦田在微博中说：“《杯中窥人》和《三重门》是同一作者，
并且，不是韩仁均。”我们的调查分析，印证了麦田的感觉。
那么，《三重门》的作者是不是现在写博客的韩寒？要在语言上进行同一认定，还要做
进一步的调查分析。不过，经过初步的考查，我觉得，很有可能。这里仅举一例，以逗
其绪。
【杀戮】
韩寒《我的2011》：“我逐渐觉得，一个好的写作者在杀戮权贵的时候，也应该杀戮群
众。”
关于“杀戮”这一措辞，网上的评论，有说“霸气外露”（《南方人物周刊》），有说
“重口味”，总之，不同寻常。
百度了一下，用“杀戮”表示严厉批判的意思，似乎始于韩寒，也大致仅限于韩寒。
网络上使用“杀戮”一词人也有一些，比如电子游戏“打怪”，比如微博“拉黑”，都
有人用“杀戮”，表示“灭”掉，使其不再在眼前出现。虽然被“杀戮”的对象是虚幻
的东西，但是“杀戮”一词仍然是用其词典义项。用“杀戮”表示严厉批判，比起词典
义项，则是拐了个不小的弯儿，非常特别。
《三重门》：“林父一时愤怒，把整个出版界给杀戮了，说：‘现在这种什么世道，出
来的书都是害人的！’”
《杯中窥人》：“李敖尚好，国民党暂时磨不平他，他对他看不顺眼的一一戮杀，对国
民党也照戮不误。”
另有网络校园小说缪歌《多种元素》：“慢慢地读了这些人的书，让我感触最大的是李
敖。他对自己看不惯的一一杀戮，就连国民党也在所难免。可谓前无古人后无来者。”
但这显然是在韩寒《杯中窥人》相应文字的基础上进行的改写。
尽管搜集到的韩仁君的作品大概已占其所发表文字的80%以上，但这毕竟还不是穷尽性
的调查。我的例证和结论，欢迎大家核对，质疑。随着材料的增多，我的例证有可能需
要修正，甚至结论也需要重写。但是我相信，用这种语言学的分析方法，是可以对《三
重门》以及相关作品的作者身份做出认定的。
结束语
方舟子不计成败利钝，对真相近乎偏执地追求，对于学术腐败造假流行的中国社会而言
，有着十分重要的意义。因为方舟子，多少人如芒刺在背，悄悄改回自己的简历。“设
使国家无有孤，不知当几人称帝，几人称王”。
韩寒以前曾公开表示对方舟子的支持和赞赏，并开玩笑说，如果方舟子质疑自己，自己
就什么都承认。可是，当方舟子的矛头指向自己时，还真的就成了严峻的考验。
方舟子跟薛涌有过几次交锋，“新语丝”网站“立此存照”栏目有几十篇批评、声讨薛
涌的帖子。可是薛涌却在很多问题上声援方舟子，为方舟子呐喊。方舟子的峭直，薛涌
的雅量，都让我感佩。
麦田、方舟子等人质疑韩寒，是合理的，并不是构陷，是在追求真相，而不是要搞臭谁
。这一事件走到今天这个地步，跟韩寒的应对不当有很大的关系。作为一个影响力巨大
，享受了名声和利益的公众人物，面对质疑，应当诚恳认真地应对（Honesty is the
best policy）。然而韩寒却悬赏用钱砸人，尖刻轻薄地嘲笑谩骂，或者用韩寒的话叫
“杀戮”。几年前的网络骂战，韩寒一支健笔，曾横扫江湖；然而——
这人光杀戮，没想到不幸……
我从《三重门》中找出这十个字，求证真相。这十个字算是韩寒的文字胎记，也是暗示
着这场文运劫数的谶语。我愿以此讽劝韩寒，请韩寒三思。
另外，听说韩寒再次起诉至法院，我颇不以为然，为之踌躇良久。江湖事，江湖了。名
满天下，纵横江湖的大侠，今日被人质疑武功，却到县衙大堂击鼓鸣冤，请青天大老爷
作主。用韩寒自己的话来说，真的很不“酷”。
高晓松微博说，韩寒最近也意识到自己的膨胀，有许多反省。那我就再进一言：
救寒莫如重裘，止谤莫如自修。

p*d2012-03-06 08:03

2 楼

現在都有搜索替代，把所有“沒想到”改成“不承想”只需要一秒鐘。所以這種分析到
底有多大價值，其實可議。

M*f2012-03-06 08:03

3 楼

刚看到网上有人把这个工作做全了。
http://book.163.com/12/0307/09/7S02843900924JJM.html

★ 发自iPhone App: ChineseWeb - 中文网站浏览器

【在 p********r 的大作中提到】

: 韩寒被质疑有人代笔，到现在已经快两个月了。其间断断续续，我大致看了两方的主要
: 论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人，
: 他们的理性和克制，也给我留下了很深的印象。质疑者有不少分析论证，有相当强的说
: 服力。相比之下，韩寒的表现却令人大跌眼镜。由于手头的工作比较忙，一直没时间看
: 韩寒父子的相关作品，不过，我心中的天平，已经向质疑者一方倾斜了。
: 新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是
: textual criticism，也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个
: 案与同学们分析讨论，于是找来《三重门》和韩仁均的有关作品，从质疑者的立场出发
: ，进行比对分析。结果出乎我的意料。我心中的天平，开始向韩寒一方倾斜。
: 谁都无法证明？

M*22012-03-06 08:03

4 楼

精彩！学习了！
花时间在那些垃圾堆里找线索，很辛苦！

B*o2012-03-06 08:03

5 楼

very good... we need the truth.

j*02012-03-06 08:03

6 楼

这个才叫文本分析，靠用词signature。
方舟子那个叫狗屁文本分析，尼玛一个学化学的天天叫板各种文字专家，真把自己当上
帝了

s*b2012-03-06 08:03

7 楼

看了半天，找到的用词例子，最多出现22例，在16万字的文章。
这个文字的signature 有没有标准阿？比如1万字出现多少次，才算显著，
否则，这个也太小概率了

【在 p********r 的大作中提到】

: 韩寒被质疑有人代笔，到现在已经快两个月了。其间断断续续，我大致看了两方的主要
: 论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人，
: 他们的理性和克制，也给我留下了很深的印象。质疑者有不少分析论证，有相当强的说
: 服力。相比之下，韩寒的表现却令人大跌眼镜。由于手头的工作比较忙，一直没时间看
: 韩寒父子的相关作品，不过，我心中的天平，已经向质疑者一方倾斜了。
: 新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是
: textual criticism，也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个
: 案与同学们分析讨论，于是找来《三重门》和韩仁均的有关作品，从质疑者的立场出发
: ，进行比对分析。结果出乎我的意料。我心中的天平，开始向韩寒一方倾斜。
: 谁都无法证明？

K*72012-03-06 08:03

8 楼

这个帖子用同样分析方法，得出相反结论

【在 p********r 的大作中提到】

: 韩寒被质疑有人代笔，到现在已经快两个月了。其间断断续续，我大致看了两方的主要
: 论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人，
: 他们的理性和克制，也给我留下了很深的印象。质疑者有不少分析论证，有相当强的说
: 服力。相比之下，韩寒的表现却令人大跌眼镜。由于手头的工作比较忙，一直没时间看
: 韩寒父子的相关作品，不过，我心中的天平，已经向质疑者一方倾斜了。
: 新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是
: textual criticism，也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个
: 案与同学们分析讨论，于是找来《三重门》和韩仁均的有关作品，从质疑者的立场出发
: ，进行比对分析。结果出乎我的意料。我心中的天平，开始向韩寒一方倾斜。
: 谁都无法证明？

w*u2012-03-06 08:03

9 楼

脑残

【在 B****o 的大作中提到】

: very good... we need the truth.

w*u2012-03-06 08:03

10 楼

苏文科博士大概不懂得什么叫做false positives
和multiple comparisons
两个26万的文本，可以非常容易的挑出几个词(say, 5)，在A文不出现
而在B文出现。
就如同一个村子足够大，哪怕在很偏远的地方，
也总能找到几个收入超过北京普通家庭收入的家庭。

【在 p********r 的大作中提到】

: 韩寒被质疑有人代笔，到现在已经快两个月了。其间断断续续，我大致看了两方的主要
: 论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人，
: 他们的理性和克制，也给我留下了很深的印象。质疑者有不少分析论证，有相当强的说
: 服力。相比之下，韩寒的表现却令人大跌眼镜。由于手头的工作比较忙，一直没时间看
: 韩寒父子的相关作品，不过，我心中的天平，已经向质疑者一方倾斜了。
: 新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是
: textual criticism，也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个
: 案与同学们分析讨论，于是找来《三重门》和韩仁均的有关作品，从质疑者的立场出发
: ，进行比对分析。结果出乎我的意料。我心中的天平，开始向韩寒一方倾斜。
: 谁都无法证明？

w*u2012-03-06 08:03

11 楼

signature个既把
ctrl+H A词-->B词
况且，这位文科苏博士，大概不知道
韩寒一家的人的病史：装B
要检验他们家，没考虑这点，所有的推测都站不住脚

【在 j****0 的大作中提到】

: 这个才叫文本分析，靠用词signature。
: 方舟子那个叫狗屁文本分析，尼玛一个学化学的天天叫板各种文字专家，真把自己当上
: 帝了

l*k2012-03-06 08:03

12 楼

所以就算查不出来，也有可能作假。如果查出来了，那就是连搜索替代都懒得搞的红果
果的作假。
你是这个意思么？

【在 p**********d 的大作中提到】

: 現在都有搜索替代，把所有“沒想到”改成“不承想”只需要一秒鐘。所以這種分析到
: 底有多大價值，其實可議。

p*r2012-03-06 08:03

13 楼

文章里已经给出了小说的出处和链接，应该不会作假；你自己也可以去上面核对，看他
到底有没有搜索替代。

【在 p**********d 的大作中提到】

: 現在都有搜索替代，把所有“沒想到”改成“不承想”只需要一秒鐘。所以這種分析到
: 底有多大價值，其實可議。

p*r2012-03-06 08:03

14 楼

他们这个学科应该有标准的，而不是单纯统计学意义上的分析。他上面举那个美国的例
子里也是，为什么专家选那些词汇，肯定是有讲究的。
但作者没法在这里写出来，毕竟是一门学科，三言两语概括不出。

【在 s****b 的大作中提到】

: 看了半天，找到的用词例子，最多出现22例，在16万字的文章。
: 这个文字的signature 有没有标准阿？比如1万字出现多少次，才算显著，
: 否则，这个也太小概率了

p*i2012-03-06 08:03

15 楼

你這個邏輯很適合搞莫須有罪名的人用啊。
也許作者哪天心血來潮，把“當初”改成“過去”，就算跟另一個人的用詞習慣雷同，
也純屬巧合。成千上萬個詞，只要堆積證據，正反都有可能。

【在 l********k 的大作中提到】

: 所以就算查不出来，也有可能作假。如果查出来了，那就是连搜索替代都懒得搞的红果
: 果的作假。
: 你是这个意思么？

p*r2012-03-06 08:03

16 楼

他质疑为什么选用那几个词，相信任何一名读者都有这个疑问。作者这个学科肯定是有
标准的，他在学校给学生上课肯定也是教这些东西。但一来他没有义务免费在网上普及
，二来也没办法三言两语用一篇文章就能解释的清楚。这个苏博士写的文章，都是基于
他的专业范围内讨论的，写得还是比较严谨的，有一定的借鉴作用。
你贴的文章感觉严谨程度就低很多了。这名作者不知道该用什么研究方法，用了好些个
概念，A学科的内容借鉴一点、B学科的内容借鉴一点，最后搞出一个截然相反的结论。
但这样的论证明显是站不住脚的。

【在 K****7 的大作中提到】

: 这个帖子用同样分析方法，得出相反结论

M*f2012-03-06 08:03

17 楼

同意这个，而且苏杰仅仅是举了几个词例，还有很多没必要一一公布的。苏杰据我所知
是个非常严谨的学者。我相信他们有成熟的研究方法而且是经过大量实证有效的。如果
仅仅是为了挺寒而乱发文章，那不是毁自己名声砸自己饭碗么？
反驳苏杰的那个作者，完全就是看了原文就自己搞几个词也来冒充科学分析。

【在 p********r 的大作中提到】

: 他们这个学科应该有标准的，而不是单纯统计学意义上的分析。他上面举那个美国的例
: 子里也是，为什么专家选那些词汇，肯定是有讲究的。
: 但作者没法在这里写出来，毕竟是一门学科，三言两语概括不出。

l*k2012-03-06 08:03

18 楼

没错，所以查找替换不能作为支持或者反对作假的证据。数字时代，作假太容易了。照
片、录音、影像，全部可以造假。

【在 p***i 的大作中提到】

: 你這個邏輯很適合搞莫須有罪名的人用啊。
: 也許作者哪天心血來潮，把“當初”改成“過去”，就算跟另一個人的用詞習慣雷同，
: 也純屬巧合。成千上萬個詞，只要堆積證據，正反都有可能。

g*s2012-03-06 08:03

19 楼

父与子一起生活，老爸看着儿子成长，两个人看的文学作品有很多重叠，日常写作里的
用词习惯太相似了，想找出不同点真不容易。
搜索替代？搞错了吧，原方在那里，又不是对自己的Word文档搜索替代。

M*f2012-03-06 08:03

20 楼

搜索替代？太荒唐了吧。敢情韩寒或者他父亲十多年前就已经是校勘学专家或者跟苏杰
已经沟通好了？

d*82012-03-06 08:03

21 楼

他要严谨就应该把他的理论用第二次（验证其他韩寒作品），并且自洽。

【在 M******f 的大作中提到】

: 同意这个，而且苏杰仅仅是举了几个词例，还有很多没必要一一公布的。苏杰据我所知
: 是个非常严谨的学者。我相信他们有成熟的研究方法而且是经过大量实证有效的。如果
: 仅仅是为了挺寒而乱发文章，那不是毁自己名声砸自己饭碗么？
: 反驳苏杰的那个作者，完全就是看了原文就自己搞几个词也来冒充科学分析。

f*h2012-03-06 08:03

22 楼

Ding.

【在 K****7 的大作中提到】

: 这个帖子用同样分析方法，得出相反结论

c*k2012-03-06 08:03

23 楼

最起码应该搞几个control吧

【在 d*********8 的大作中提到】

:
: 他要严谨就应该把他的理论用第二次（验证其他韩寒作品），并且自洽。

M*f2012-03-06 08:03

24 楼

有人已经这样做了，用的完全是苏杰已发表的文章里选的那几个词。然后分析了韩寒的
其他作品，甚至包括其他作者的作品。（http://book.163.com/12/0307/09/7S02843900924JJM.html）
-----------------------------------------------------------------------
语言学分析:韩寒与韩仁均作品分离度高达90%
2012-03-07 09:55:03　来源: 网易读书　有50人参与手机看新闻转发到微博(0)
韩寒的七本书（包括《三重门》）和韩仁均的作品（11万字）的平均分离度高于90%；
而韩寒自身作品之间的平均分离度只有30%。因此，韩寒绝大部分作品（包括《三重门
》）的作者不是韩仁均是显著的。
注解1：”频率“ - 16万字（和《三重门》等长）中该此出现的次数。
注解2：分析材料。（2.1）《三重门》和韩仁均作品的分析结果来自苏杰。（2.2）韩
寒的7本书是在网上所找到的韩寒的全部长篇作品。另外两本《通稿2003》和《就这么
漂来漂去》只有两万字左右，篇幅太短，未作分析。（2.3）非韩氏作品例子是从挑战
者@中国商军的例子中随机取样的。
注解3：分析方法。（3.1）核心技术的韩寒5词文学指纹（谁知-光-这人-没想到-不幸
）是由苏杰提取的。
（3.2）每个词分离度（韩寒 VS韩仁均）最大额度分配如下：反类：30%，“谁知”；
零类：20%， “光”，“这人”，“不幸”；大小类：10%，“没想到”。韩寒自身作
品比对，因只有大小类，故每个词分离度最大额度均为20%。（3.3）每一个指纹词频率
差1-4时，分离度为0%；5-8时为该词分离度最大额度之半，9为该词分离度最大额度。
所以，若5个指纹词的频率差都10以上则分离度是100%。这是以12为基数的数值，此数
值和基数成正比。注意这100%是分离度相对指数，并非绝对的概率置信度。
结论：
1）韩寒的七本书（包括《三重门》）和韩仁均的作品（11万字）的平均分离度高于90%
；而韩寒自身作品之间的平均分离度只有30%。因此，韩寒绝大部分作品（包括《三重
门》）的作者不是韩仁均是显著的。
2）苏杰提出的韩寒5词文学指纹-（这人，光，不知道，谁知，不幸）不仅能有效地分
辨韩寒和韩仁均的作品，还能分辨他们与其他小说家的作品。其他小说家的作品比对《
三重门》和韩仁均的作品，分离度也接近80%。
3）苏杰提出的韩寒5词文学指纹，是从《三重门》和韩仁均的作品（11万字）提取的。
如果说5词文学指纹对《三重门》而言，苏杰有边射箭边画靶子凑数据之嫌疑，那么《
三重门》之外的六部韩寒的作品对于该指纹完全是一个随机的抽样，从而验证了该指纹
的有效性、敏感性和可靠性。
（文章来源于网友村支书的博客）
(本文来源：网易读书 )

【在 d*********8 的大作中提到】

:
: 他要严谨就应该把他的理论用第二次（验证其他韩寒作品），并且自洽。

w*o2012-03-06 08:03

25 楼

这种研究是需要前提的
首先，相互比较的作品要创作于同一年代。作者的写作风格，用词偏好会随着时间变化。
其次，相互比较的作品要有差不多的篇幅。短篇和长篇的用词可能明显不同。短篇的作
者更容易注意到用词的重复，从而尽量避免。
俺是中间派，纯粹从理工科思维论证一下这种方法的严密性

【在 p********r 的大作中提到】

: 韩寒被质疑有人代笔，到现在已经快两个月了。其间断断续续，我大致看了两方的主要
: 论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人，
: 他们的理性和克制，也给我留下了很深的印象。质疑者有不少分析论证，有相当强的说
: 服力。相比之下，韩寒的表现却令人大跌眼镜。由于手头的工作比较忙，一直没时间看
: 韩寒父子的相关作品，不过，我心中的天平，已经向质疑者一方倾斜了。
: 新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是
: textual criticism，也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个
: 案与同学们分析讨论，于是找来《三重门》和韩仁均的有关作品，从质疑者的立场出发
: ，进行比对分析。结果出乎我的意料。我心中的天平，开始向韩寒一方倾斜。
: 谁都无法证明？

n*22012-03-06 08:03

26 楼

老方你不是科学代表吗？

l*s2012-03-06 08:03

27 楼

这个语言学分析方法出发点是好的
但是不太适合用这种只靠个别词的内省式分析的方法
这也是目前国内很多语言学研究的主流方法之一
但是缺少相关数理统计的支持就靠分析个别词而得出结论未免有些证据不足
我觉得不如就用bag-of-words 特征用KNN 来做cluster
或者建立language model 比较不同
或者用一个什么SVM、MaxEnt之类的classifier做
不过这样一来好多篇章层次上的信息就容易漏掉
或者可以借鉴一下Halliday的篇章分析方法。不过如何量化实现自动计算，就又是个问
题了

w*e2012-03-06 08:03

28 楼

SB分析
It only proves that the "fingerprints" he chose are a bad ones.
Why not choose "这个" ? I bet it is 95%+ match !

【在 K****7 的大作中提到】

: 这个帖子用同样分析方法，得出相反结论

d*u2012-03-06 08:03

29 楼

这小子，这毕业论文写的太烂了。不过，可以毕业了。

c*e2012-03-06 08:03

30 楼

欲加之罪何患无辞。

【在 w********u 的大作中提到】

: signature个既把
: ctrl+H A词-->B词
: 况且，这位文科苏博士，大概不知道
: 韩寒一家的人的病史：装B
: 要检验他们家，没考虑这点，所有的推测都站不住脚

T*S2012-03-06 08:03

31 楼

【在 p********r 的大作中提到】

: 韩寒被质疑有人代笔，到现在已经快两个月了。其间断断续续，我大致看了两方的主要
: 论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人，
: 他们的理性和克制，也给我留下了很深的印象。质疑者有不少分析论证，有相当强的说
: 服力。相比之下，韩寒的表现却令人大跌眼镜。由于手头的工作比较忙，一直没时间看
: 韩寒父子的相关作品，不过，我心中的天平，已经向质疑者一方倾斜了。
: 新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是
: textual criticism，也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个
: 案与同学们分析讨论，于是找来《三重门》和韩仁均的有关作品，从质疑者的立场出发
: ，进行比对分析。结果出乎我的意料。我心中的天平，开始向韩寒一方倾斜。
: 谁都无法证明？

w*u2012-03-06 08:03

32 楼

做一下憨憨或者他爹的作品的對照吧
很簡單，把《三》分成若干部分，比如4部分，然後看每部分出現所謂的signature詞語
的次數是不是一樣的先。
他爹的，作品，似乎有好幾部，就看看他爹的作品，signature是一樣頻率。
這位文科蘇博士，好像不懂什麽叫null hypothesis, 什麽叫control-case
超低能，盡搞笑

【在 M******f 的大作中提到】

:
: 有人已经这样做了，用的完全是苏杰已发表的文章里选的那几个词。然后分析了韩寒的
: 其他作品，甚至包括其他作者的作品。（http://book.163.com/12/0307/09/7S02843900924JJM.html）
: -----------------------------------------------------------------------
: 语言学分析:韩寒与韩仁均作品分离度高达90%
: 2012-03-07 09:55:03　来源: 网易读书　有50人参与手机看新闻转发到微博(0)
: 韩寒的七本书（包括《三重门》）和韩仁均的作品（11万字）的平均分离度高于90%；
: 而韩寒自身作品之间的平均分离度只有30%。因此，韩寒绝大部分作品（包括《三重门
: 》）的作者不是韩仁均是显著的。
: 注解1：”频率“ - 16万字（和《三重门》等长）中该此出现的次数。

v*x2012-03-06 08:03

33 楼

这么水的文章当论文的话，高中也毕不了业。

【在 d****u 的大作中提到】

: 这小子，这毕业论文写的太烂了。不过，可以毕业了。

k*92012-03-06 08:03

34 楼

就一想出名的读书读傻了的

【在 w********u 的大作中提到】

: 做一下憨憨或者他爹的作品的對照吧
: 很簡單，把《三》分成若干部分，比如4部分，然後看每部分出現所謂的signature詞語
: 的次數是不是一樣的先。
: 他爹的，作品，似乎有好幾部，就看看他爹的作品，signature是一樣頻率。
: 這位文科蘇博士，好像不懂什麽叫null hypothesis, 什麽叫control-case
: 超低能，盡搞笑

w*u2012-03-06 08:03

35 楼

連null 都沒測試過
就出來show
居然那麽多人說，這才是分析……
腦殘太多了

【在 k********9 的大作中提到】

: 就一想出名的读书读傻了的

M*n2012-03-06 08:03

36 楼

文科的博士竟然就是这么做研究的。
长见识哦。

p*r2012-03-06 08:03

37 楼

1、人家只是从分析中拿出部分结果作为例子，不是只选了几个词；
2、这是另外一种学科，有自己的理论体系。作者自己也举例很多年前FBI已经在应用了
。很多人还局限于自己本专业的那点东西……学统计的说要搞什么什么model，学生物
化学的说该设实验对照组……拜托别老盯着自己学的那点东西成么？就会那么点东西还
以为任何事情都能用你学科那点方法解决……眼界思路开阔点行么？别做井底之蛙
3、这是篇科普文，旨在扫盲，而且措辞已经非常严谨了。某些人还真较真当学术论文
……笑

w*u2012-03-06 08:03

38 楼

谁跟你说对照是化学、生物专有的？
文盲太可怕的。

【在 p********r 的大作中提到】

: 1、人家只是从分析中拿出部分结果作为例子，不是只选了几个词；
: 2、这是另外一种学科，有自己的理论体系。作者自己也举例很多年前FBI已经在应用了
: 。很多人还局限于自己本专业的那点东西……学统计的说要搞什么什么model，学生物
: 化学的说该设实验对照组……拜托别老盯着自己学的那点东西成么？就会那么点东西还
: 以为任何事情都能用你学科那点方法解决……眼界思路开阔点行么？别做井底之蛙
: 3、这是篇科普文，旨在扫盲，而且措辞已经非常严谨了。某些人还真较真当学术论文
: ……笑

w*u2012-03-06 08:03

39 楼

这种东西最搞笑之处，就是一方面强调“科普”、“扫盲”
一方面又冠上“复旦大学博士”、好像还是90年代，
大伙把复旦当作学术权威、金字招牌
一方面“措辞严谨”
一方面，“拿出部分结果作为例”
搞笑，先证明，singature词语在一个作者的作品上是有一定的连贯性、一致性
而在韩寒和汉人均署名的作品上，却没有连贯性、一致性
并且，signature candidates的选择，不影响这种结果
甚至最好测试一下其他几个作者，发现也成立
否则，拜托，别用“复旦大学文科博士”来制造笑话

【在 p********r 的大作中提到】

: 1、人家只是从分析中拿出部分结果作为例子，不是只选了几个词；
: 2、这是另外一种学科，有自己的理论体系。作者自己也举例很多年前FBI已经在应用了
: 。很多人还局限于自己本专业的那点东西……学统计的说要搞什么什么model，学生物
: 化学的说该设实验对照组……拜托别老盯着自己学的那点东西成么？就会那么点东西还
: 以为任何事情都能用你学科那点方法解决……眼界思路开阔点行么？别做井底之蛙
: 3、这是篇科普文，旨在扫盲，而且措辞已经非常严谨了。某些人还真较真当学术论文
: ……笑

I*M2012-03-06 08:03

40 楼

8楼被hll的忽视了。。。lz看过了么

w*u2012-03-06 08:03

41 楼

谁跟你说对照是化学、生物专有的？
文盲太可怕的。

【在 p********r 的大作中提到】

: 1、人家只是从分析中拿出部分结果作为例子，不是只选了几个词；
: 2、这是另外一种学科，有自己的理论体系。作者自己也举例很多年前FBI已经在应用了
: 。很多人还局限于自己本专业的那点东西……学统计的说要搞什么什么model，学生物
: 化学的说该设实验对照组……拜托别老盯着自己学的那点东西成么？就会那么点东西还
: 以为任何事情都能用你学科那点方法解决……眼界思路开阔点行么？别做井底之蛙
: 3、这是篇科普文，旨在扫盲，而且措辞已经非常严谨了。某些人还真较真当学术论文
: ……笑

k*u2012-03-06 08:03

42 楼

其实根本不需要这么复杂
三重门随便看两段就知道是小屁孩的语言，有些段子不是90年代末上中学的人写不出来
。虽然力装成熟，但是时代标记明显。再看老韩写的那些东西，就是一《故事会》文体
。可能有很多人不知道什么是《故事会》文体。这种文体跟《读者》文体一样，曾经风
靡一时，主要流行在80年代。当然风格跟《读者》截然不同，主要是贴近农民语言。《
故事会》已经很久不流行了，所以现在很多人以为能在故事会上发表文章，就一定是小
说家。可是你要是曾经是《故事会》的忠实读者，就知道那种作家根本写不出三重门这
种东西。

【在 p********r 的大作中提到】

: 韩寒被质疑有人代笔，到现在已经快两个月了。其间断断续续，我大致看了两方的主要
: 论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人，
: 他们的理性和克制，也给我留下了很深的印象。质疑者有不少分析论证，有相当强的说
: 服力。相比之下，韩寒的表现却令人大跌眼镜。由于手头的工作比较忙，一直没时间看
: 韩寒父子的相关作品，不过，我心中的天平，已经向质疑者一方倾斜了。
: 新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是
: textual criticism，也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个
: 案与同学们分析讨论，于是找来《三重门》和韩仁均的有关作品，从质疑者的立场出发
: ，进行比对分析。结果出乎我的意料。我心中的天平，开始向韩寒一方倾斜。
: 谁都无法证明？

p*r2012-03-06 08:03

43 楼

“科普”、“扫盲”，作者用尽量通俗的语言把他的专业进行了说明和介绍，相信任何
没有专业背景的人都能读懂。
“措辞严谨”，他引用的小说、学术论文，都给出了出处，如果有人有疑问，可以去查
小说原文、去查文献。
我不明白你有什么不明白的地方，人家作者说的也很明白“……当然，我们调查的范围
绝不仅限于这几个词。之所以列出这几个词语，是出于以下三点考虑……”
人家拿这个作为一个案例研究，也是用来给学校里交了学费的学生们上课或者学术用的
。没必要也不可能用网络发帖的形式发出来。试想，假如你是个化学专业的学生，化学
科普性的东西你可以发帖发出来，但涉及到你的具体研究，比如那个物质怎么分解的、
哪个蛋白具体怎么合成，你网络发帖发出来给大家看吗？你自己都做不到，凭什么要求
人家做到。
最后，同为理科生，为你这种不论内容如何就否定鄙视文科人的行为表示反感和厌恶。

【在 w********u 的大作中提到】

: 这种东西最搞笑之处，就是一方面强调“科普”、“扫盲”
: 一方面又冠上“复旦大学博士”、好像还是90年代，
: 大伙把复旦当作学术权威、金字招牌
: 一方面“措辞严谨”
: 一方面，“拿出部分结果作为例”
: 搞笑，先证明，singature词语在一个作者的作品上是有一定的连贯性、一致性
: 而在韩寒和汉人均署名的作品上，却没有连贯性、一致性
: 并且，signature candidates的选择，不影响这种结果
: 甚至最好测试一下其他几个作者，发现也成立
: 否则，拜托，别用“复旦大学文科博士”来制造笑话

p*r2012-03-06 08:03

44 楼

看过了，这种文章花点时间你我都写的出来。

【在 I*M 的大作中提到】

: 8楼被hll的忽视了。。。lz看过了么

p*r2012-03-06 08:03

45 楼

难不成我还全列出来啊？举俩例子不就行了么。
这上面较真，有毛病……

【在 w********u 的大作中提到】

: 谁跟你说对照是化学、生物专有的？
: 文盲太可怕的。

D*a2012-03-06 08:03

46 楼

人家明明是想把复杂事情说明白，那个二傻子没搞明白，非得想搞复杂了，别理那傻逼了

【在 p********r 的大作中提到】

: “科普”、“扫盲”，作者用尽量通俗的语言把他的专业进行了说明和介绍，相信任何
: 没有专业背景的人都能读懂。
: “措辞严谨”，他引用的小说、学术论文，都给出了出处，如果有人有疑问，可以去查
: 小说原文、去查文献。
: 我不明白你有什么不明白的地方，人家作者说的也很明白“……当然，我们调查的范围
: 绝不仅限于这几个词。之所以列出这几个词语，是出于以下三点考虑……”
: 人家拿这个作为一个案例研究，也是用来给学校里交了学费的学生们上课或者学术用的
: 。没必要也不可能用网络发帖的形式发出来。试想，假如你是个化学专业的学生，化学
: 科普性的东西你可以发帖发出来，但涉及到你的具体研究，比如那个物质怎么分解的、
: 哪个蛋白具体怎么合成，你网络发帖发出来给大家看吗？你自己都做不到，凭什么要求

p*r2012-03-06 08:03

47 楼

嗯，《故事会》小学的时候订过好几年。
韩寒写作主要还是装逼和卖钱为主，快餐式消费

【在 k**u 的大作中提到】

: 其实根本不需要这么复杂
: 三重门随便看两段就知道是小屁孩的语言，有些段子不是90年代末上中学的人写不出来
: 。虽然力装成熟，但是时代标记明显。再看老韩写的那些东西，就是一《故事会》文体
: 。可能有很多人不知道什么是《故事会》文体。这种文体跟《读者》文体一样，曾经风
: 靡一时，主要流行在80年代。当然风格跟《读者》截然不同，主要是贴近农民语言。《
: 故事会》已经很久不流行了，所以现在很多人以为能在故事会上发表文章，就一定是小
: 说家。可是你要是曾经是《故事会》的忠实读者，就知道那种作家根本写不出三重门这
: 种东西。

w*u2012-03-06 08:03

48 楼

連null都沒測試，就拿幾個詞出來show
邏輯性超級搞笑
無知程度接近小學生
這就是“復旦文科博士”？

【在 p********r 的大作中提到】

: “科普”、“扫盲”，作者用尽量通俗的语言把他的专业进行了说明和介绍，相信任何
: 没有专业背景的人都能读懂。
: “措辞严谨”，他引用的小说、学术论文，都给出了出处，如果有人有疑问，可以去查
: 小说原文、去查文献。
: 我不明白你有什么不明白的地方，人家作者说的也很明白“……当然，我们调查的范围
: 绝不仅限于这几个词。之所以列出这几个词语，是出于以下三点考虑……”
: 人家拿这个作为一个案例研究，也是用来给学校里交了学费的学生们上课或者学术用的
: 。没必要也不可能用网络发帖的形式发出来。试想，假如你是个化学专业的学生，化学
: 科普性的东西你可以发帖发出来，但涉及到你的具体研究，比如那个物质怎么分解的、
: 哪个蛋白具体怎么合成，你网络发帖发出来给大家看吗？你自己都做不到，凭什么要求

w*u2012-03-06 08:03

49 楼

所以說低級、肉麻、矯情

【在 p********r 的大作中提到】

: 嗯，《故事会》小学的时候订过好几年。
: 韩寒写作主要还是装逼和卖钱为主，快餐式消费

k*u2012-03-06 08:03

50 楼

可能方舟子小时候上课外阅读课只看科学画报，从来不看故事会
所以搞不清故事会写的都是一些家长里短，老王老李智擒色狼的故事。

【在 p********r 的大作中提到】

: 嗯，《故事会》小学的时候订过好几年。
: 韩寒写作主要还是装逼和卖钱为主，快餐式消费

p*r2012-03-06 08:03

51 楼

你学统计的？在读还是工作了？
你再好好读读作者的文章。作者研究的是什么？是不是该检测显著性？

【在 w********u 的大作中提到】

: 連null都沒測試，就拿幾個詞出來show
: 邏輯性超級搞笑
: 無知程度接近小學生
: 這就是“復旦文科博士”？

p*r2012-03-06 08:03

52 楼

呵呵呵，是啊，不然他也不会说出“中学的课堂怎么可能睡觉？韩寒的文章一定是代笔
的”这种搞笑言论

【在 k**u 的大作中提到】

: 可能方舟子小时候上课外阅读课只看科学画报，从来不看故事会
: 所以搞不清故事会写的都是一些家长里短，老王老李智擒色狼的故事。

w*u2012-03-06 08:03

53 楼

读多一遍，就认同复旦文科博士的逻辑？
你写论文submit多两遍就被nature science接收吗？
作者没有任何其他证据
摆明就是要通过统计一些所谓signature词在
韩草包署名作品和韩人均署名作品的频率的不同
来说明问题不可能是韩人均所作
这里的问题是：
1，所谓signature 词语，如何确定，如何选定？明显，这是没有死规则的。所以，有
两种选法，一种是靠经验主义；一种是不按照任何经验主义，随机选取足够多的词语，。
2，哪怕signature的选定，没有异议，是fair的。你要先证明这些词语，在韩寒署名作
品中具有连贯性，即频率是基本一致的，显示了韩寒署名作品，语言的连贯性和一致性
。同样的试验，要在韩人均署名作品中，test一遍，表明，所有韩人均的作品，这些词
汇出现频率也是稳定的。然后再比较，韩寒和他爹的各自频率。最好，拿些其他作者的
作品，证明这个方法是可行的。
3，哪怕上面两点都通过了，这个用word frequency的分析，也不能说明这个作品就是
一个人，或者就不是一个人的所作。因为体裁不一样，用词不一样，很正常。同一个人
，前后几年，或者十几年后，写作风格，语言特点有变化，很正常。而且，有些人在某
部作品中，是故意装B卖弄，会特别用一些很装B的词语。
综上，复旦文科博士的分析，不堪一击。当然，他的分析既不能说明韩寒是草包，也不
能说明他不是草包。只能说明，这个复旦博士本身是草包。

【在 p********r 的大作中提到】

: 你学统计的？在读还是工作了？
: 你再好好读读作者的文章。作者研究的是什么？是不是该检测显著性？

A*12012-03-06 08:03

54 楼

另一片补充的文章被你无视了？
那一片里面有正负对照证明用这5个signuture词语分析的validation

，。

【在 w********u 的大作中提到】

: 读多一遍，就认同复旦文科博士的逻辑？
: 你写论文submit多两遍就被nature science接收吗？
: 作者没有任何其他证据
: 摆明就是要通过统计一些所谓signature词在
: 韩草包署名作品和韩人均署名作品的频率的不同
: 来说明问题不可能是韩人均所作
: 这里的问题是：
: 1，所谓signature 词语，如何确定，如何选定？明显，这是没有死规则的。所以，有
: 两种选法，一种是靠经验主义；一种是不按照任何经验主义，随机选取足够多的词语，。
: 2，哪怕signature的选定，没有异议，是fair的。你要先证明这些词语，在韩寒署名作

t*v2012-03-06 08:03

55 楼

复旦垃圾博士炮制的垃圾
FBI明确说相同主题non-fiction
小说能用来分析吗？
小说都是在模仿故事人物口吻
给农民和小朋友看的故事会和模仿围城装逼的三重门用词能一样吗
而且三重门是在模仿围城，语言特点肯定接近围城
比如‘这人’
三重门用了近30次，围城里出现40次，韩仁均一次没用过
【没想到】
三重门13次，围城9次，韩仁均故事会3次
【谁知】
三重门1次，围城0次，韩仁均故事会15次
【这人】
三重门26次，围城38次，韩仁均故事会0次
【不幸】
三重门26次，围城8次*，韩仁均故事会0
围城里不幸出现5次，3次副词，但是‘不幸’是钱钟书常用副词，和围城一起收录的4
篇散文里‘不幸’每篇都出现，而且不止一次。写在人生边上灵感猫上帝的梦
这说明什么？只能说明三重门在模仿围城，不能说明不是一个人写的
高鹗模仿曹雪芹续红楼梦，遣词造句肯定与曹雪芹类似，但是高鹗家信里可能根本不用
这些字
鲁迅杂文比如野火和aQ正传用词也会不一样
丁玲三十年代初萨菲女士日记上海小资性苦闷小说，和四十年代农村土改革命太阳照在
伤感和尚，和八十年代丁玲清除资产阶级精神污染里代表文联做的政府政策报告用词也
不一样。一个作家做不到这点，还混个屁。

w*u2012-03-06 08:03

56 楼

right
这个复旦文科博士，真的说明，文科数学学到初二是不够的

【在 t****v 的大作中提到】

: 复旦垃圾博士炮制的垃圾
: FBI明确说相同主题non-fiction
: 小说能用来分析吗？
: 小说都是在模仿故事人物口吻
: 给农民和小朋友看的故事会和模仿围城装逼的三重门用词能一样吗
: 而且三重门是在模仿围城，语言特点肯定接近围城
: 比如‘这人’
: 三重门用了近30次，围城里出现40次，韩仁均一次没用过
: 【没想到】
: 三重门13次，围城9次，韩仁均故事会3次

w*u2012-03-06 08:03

57 楼

语言学分析……还叫做扫盲……你是当大家都没读过研究生啊？
说明了，就是绑架了复旦和博士两个招牌
给他荒谬的论证和结论背书

【在 p********r 的大作中提到】

: “科普”、“扫盲”，作者用尽量通俗的语言把他的专业进行了说明和介绍，相信任何
: 没有专业背景的人都能读懂。
: “措辞严谨”，他引用的小说、学术论文，都给出了出处，如果有人有疑问，可以去查
: 小说原文、去查文献。
: 我不明白你有什么不明白的地方，人家作者说的也很明白“……当然，我们调查的范围
: 绝不仅限于这几个词。之所以列出这几个词语，是出于以下三点考虑……”
: 人家拿这个作为一个案例研究，也是用来给学校里交了学费的学生们上课或者学术用的
: 。没必要也不可能用网络发帖的形式发出来。试想，假如你是个化学专业的学生，化学
: 科普性的东西你可以发帖发出来，但涉及到你的具体研究，比如那个物质怎么分解的、
: 哪个蛋白具体怎么合成，你网络发帖发出来给大家看吗？你自己都做不到，凭什么要求

t*v2012-03-06 08:03

58 楼

我也在中文系混过
不过后来到美国和法国读博士
然后偶又读个计算计硕士
校雠学古籍所做的都是木乃伊级别的汉代宋代研究套路
把几个手抄本放在一起比较看哪个手抄本更象真的
一个手抄本里句尾没有‘焉’，一个手抄本里句尾有‘焉’
这些学者就是考证这个焉是不是衍文
他们懂狗屁新方法啊
统计专业去研究这个也比复旦木乃伊古籍专家靠谱
这些人对新方法完全是霸王硬上弓
外语差，没有统计学和计算机知识
生吞活剥
一用就驴头不对马嘴
贻笑大方
只能骗骗韩粉

o*n2012-03-06 08:03

59 楼

我怎么觉得你还是没看懂作者的逻辑啊，
比如说，证明你是你父母所生，即使血型，肤色，眼珠颜色都对上了，也未必能证明，
但要证明你不是你父母所生，只要任意一种对不上，就能证明了。
我想说的意思，你看得明白吗？

，。

【在 w********u 的大作中提到】

: 读多一遍，就认同复旦文科博士的逻辑？
: 你写论文submit多两遍就被nature science接收吗？
: 作者没有任何其他证据
: 摆明就是要通过统计一些所谓signature词在
: 韩草包署名作品和韩人均署名作品的频率的不同
: 来说明问题不可能是韩人均所作
: 这里的问题是：
: 1，所谓signature 词语，如何确定，如何选定？明显，这是没有死规则的。所以，有
: 两种选法，一种是靠经验主义；一种是不按照任何经验主义，随机选取足够多的词语，。
: 2，哪怕signature的选定，没有异议，是fair的。你要先证明这些词语，在韩寒署名作

p*r2012-03-06 08:03

60 楼

他不列，不代表他没有。要是完整的一套研究做下来，我相信他会选择在学术期刊上发
表，而不是网络发帖。试问：你会把你搞出的研究用发帖的形式放在网上吗？
那些词语如何选定确实不知道，毕竟我们是外行。但人家作为一个学科的存在，必定是
有自己的一套理论体系。你如果没有学过，请不要妄下断语，说什么“明显这是没有死
规则”的这种话，太有失水准。
你的1234还是按照自己学科的思路在套别人的。就好比青椒有红的有绿的有黄的还有其
他颜色的，不能因为你只吃过绿青椒，就说人家其他颜色的都不是青椒，或不是好青椒。
前面的回帖有人转载了网易的一篇验证文，你要challenge可以去challenge那个，应该
还能有你用武之地。
最后，我让你多读是为了让你看明白看仔细。可惜你还是没有。作者说的很明白：“每
一个人都有自己多年建立起来的一个常用词汇集合（或者叫常用词表）。这个词表，与
其他人所建立起来的常用词表可加以区分。这种区分，不仅表现为每个人的词表所包含
的词语项不相一致，还表现为每个人对不同词语项有着不同的偏好。”你却还在讨论什
么“前后十几年写作风格语言特点会有变化。”说明你根本没好好看。

，。

【在 w********u 的大作中提到】

: 读多一遍，就认同复旦文科博士的逻辑？
: 你写论文submit多两遍就被nature science接收吗？
: 作者没有任何其他证据
: 摆明就是要通过统计一些所谓signature词在
: 韩草包署名作品和韩人均署名作品的频率的不同
: 来说明问题不可能是韩人均所作
: 这里的问题是：
: 1，所谓signature 词语，如何确定，如何选定？明显，这是没有死规则的。所以，有
: 两种选法，一种是靠经验主义；一种是不按照任何经验主义，随机选取足够多的词语，。
: 2，哪怕signature的选定，没有异议，是fair的。你要先证明这些词语，在韩寒署名作

p*r2012-03-06 08:03

61 楼

他就没有好好看原文。

【在 o*********n 的大作中提到】

: 我怎么觉得你还是没看懂作者的逻辑啊，
: 比如说，证明你是你父母所生，即使血型，肤色，眼珠颜色都对上了，也未必能证明，
: 但要证明你不是你父母所生，只要任意一种对不上，就能证明了。
: 我想说的意思，你看得明白吗？
:
: ，。

w*u2012-03-06 08:03

62 楼

韩粉赢了
写了这么一个逻辑荒谬的东西出来
居然说别人没看原文

【在 p********r 的大作中提到】

: 他就没有好好看原文。

w*u2012-03-06 08:03

63 楼

我是按照一般reviewer的思路来评论
你的言论，牛头不对马嘴，这样捧韩，只会让人更加笑话。

【在 o*********n 的大作中提到】

: 我怎么觉得你还是没看懂作者的逻辑啊，
: 比如说，证明你是你父母所生，即使血型，肤色，眼珠颜色都对上了，也未必能证明，
: 但要证明你不是你父母所生，只要任意一种对不上，就能证明了。
: 我想说的意思，你看得明白吗？
:
: ，。

w*u2012-03-06 08:03

64 楼

叫reviewer多读毫无意义，而且非常弱智。你应该直接指出你不同意的地方。
他指出“每个人应该有自己一套词汇”，是普通人吧，所谓的韩寒这样的大才子，他的
词汇会那么贫乏、受限制吗？
而且他这个话，不是结论，而是他的assumption，是进行这个所谓分析的基础。苏博士
应该先test这个assumption是否成立，比如测试其他作者是否也成立。
你的水平，估计是大一大二，或者走读性的硕士。
任何一个学科，都要接受科学的检验，不存在这套理论去套那个学科的问题。唯一的问
题，是我的质疑不科学。你可以反对我的质疑，但不要说我不是那行。没有一个人是哪
行。哪怕你就是研究古文的，也可能不是那行。
况且，他的整个论述，根本就是荒谬不堪。至于，如何荒谬，我上面已经说了3点。

椒。

【在 p********r 的大作中提到】

: 他不列，不代表他没有。要是完整的一套研究做下来，我相信他会选择在学术期刊上发
: 表，而不是网络发帖。试问：你会把你搞出的研究用发帖的形式放在网上吗？
: 那些词语如何选定确实不知道，毕竟我们是外行。但人家作为一个学科的存在，必定是
: 有自己的一套理论体系。你如果没有学过，请不要妄下断语，说什么“明显这是没有死
: 规则”的这种话，太有失水准。
: 你的1234还是按照自己学科的思路在套别人的。就好比青椒有红的有绿的有黄的还有其
: 他颜色的，不能因为你只吃过绿青椒，就说人家其他颜色的都不是青椒，或不是好青椒。
: 前面的回帖有人转载了网易的一篇验证文，你要challenge可以去challenge那个，应该
: 还能有你用武之地。
: 最后，我让你多读是为了让你看明白看仔细。可惜你还是没有。作者说的很明白：“每

A*12012-03-06 08:03

65 楼

操，
人家用同样的方法，和韩人均区分度90%
发现韩寒自己的作品区分度为30%，（negative control)
别的作家和韩韩区分度>80%，（positive control)
这正负对照不是检验么？
为啥你觉得还是一点validation都没有？
反而你觉得肘子式的“不可能”，“按理说”才是有说服力的？

【在 w********u 的大作中提到】

: 叫reviewer多读毫无意义，而且非常弱智。你应该直接指出你不同意的地方。
: 他指出“每个人应该有自己一套词汇”，是普通人吧，所谓的韩寒这样的大才子，他的
: 词汇会那么贫乏、受限制吗？
: 而且他这个话，不是结论，而是他的assumption，是进行这个所谓分析的基础。苏博士
: 应该先test这个assumption是否成立，比如测试其他作者是否也成立。
: 你的水平，估计是大一大二，或者走读性的硕士。
: 任何一个学科，都要接受科学的检验，不存在这套理论去套那个学科的问题。唯一的问
: 题，是我的质疑不科学。你可以反对我的质疑，但不要说我不是那行。没有一个人是哪
: 行。哪怕你就是研究古文的，也可能不是那行。
: 况且，他的整个论述，根本就是荒谬不堪。至于，如何荒谬，我上面已经说了3点。

w*u2012-03-06 08:03

66 楼

前面已经说了
他们家有装B的遗传病
totally unpredictable

【在 A*****1 的大作中提到】

: 操，
: 人家用同样的方法，和韩人均区分度90%
: 发现韩寒自己的作品区分度为30%，（negative control)
: 别的作家和韩韩区分度>80%，（positive control)
: 这正负对照不是检验么？
: 为啥你觉得还是一点validation都没有？
: 反而你觉得肘子式的“不可能”，“按理说”才是有说服力的？

o*n2012-03-06 08:03

67 楼

所谓signature 词语，如何确定，如何选定？明显，这是没有死规则的。所以，有
两种选法，一种是靠经验主义；一种是不按照任何经验主义，随机选取足够多的词语，。
我主要是回复你这个，如果要证明两篇文章是同一作者，需要“足够多”的词语来证明
，但如果想证明不是同一作者，几个有明显区分的词就够了。当然你也可以说作者还需
要证明同一作者的不同著作找不出有明显区分的词，或者明显区分的定义怎么界定之类
的。作者不是写论文，但你所说的需要“足够多”的词，明显有逻辑问题。

【在 w********u 的大作中提到】

: 我是按照一般reviewer的思路来评论
: 你的言论，牛头不对马嘴，这样捧韩，只会让人更加笑话。

w*u2012-03-06 08:03

68 楼

用几个词，根本无法说“不是韩人均所写为显著”
joke到了极点
顶多只能说，写作风格有所不同

【在 A*****1 的大作中提到】

: 操，
: 人家用同样的方法，和韩人均区分度90%
: 发现韩寒自己的作品区分度为30%，（negative control)
: 别的作家和韩韩区分度>80%，（positive control)
: 这正负对照不是检验么？
: 为啥你觉得还是一点validation都没有？
: 反而你觉得肘子式的“不可能”，“按理说”才是有说服力的？

o*n2012-03-06 08:03

69 楼

写作风格的类比是衣服，可以刻意追求的。
常用词的类比是指纹，是一个人内化而很难刻意追求的。

【在 w********u 的大作中提到】

: 用几个词，根本无法说“不是韩人均所写为显著”
: joke到了极点
: 顶多只能说，写作风格有所不同

w*u2012-03-06 08:03

70 楼

这个发现可以发表在Journal of Forensics上

【在 o*********n 的大作中提到】

: 写作风格的类比是衣服，可以刻意追求的。
: 常用词的类比是指纹，是一个人内化而很难刻意追求的。

D*y2012-03-06 08:03

71 楼

方水军们看到真正的语言学分析
非要颠倒黑白说“这不是语言学分析”“样本被查找替换了”....
有什么好说的，在他们眼里只有教主才是权威的。

w*u2012-03-06 08:03

72 楼

16万字，你就取了5个词……这叫指纹，还是苏博士发现的指纹
估计韩寒大师都不知道自己有这指纹

，。

【在 o*********n 的大作中提到】

: 所谓signature 词语，如何确定，如何选定？明显，这是没有死规则的。所以，有
: 两种选法，一种是靠经验主义；一种是不按照任何经验主义，随机选取足够多的词语，。
: 我主要是回复你这个，如果要证明两篇文章是同一作者，需要“足够多”的词语来证明
: ，但如果想证明不是同一作者，几个有明显区分的词就够了。当然你也可以说作者还需
: 要证明同一作者的不同著作找不出有明显区分的词，或者明显区分的定义怎么界定之类
: 的。作者不是写论文，但你所说的需要“足够多”的词，明显有逻辑问题。

o*n2012-03-06 08:03

73 楼

没法发表了，lz原文中引用的文献已经发表了这个观点，我只是觉得以你的逻辑大概意
识不到你的结论与其冲突，所以提醒一下你而已。

【在 w********u 的大作中提到】

: 这个发现可以发表在Journal of Forensics上

w*u2012-03-06 08:03

74 楼

反正就是不buy韩寒或者他爹
肉麻、装B、显摆、矫情……
鸡皮疙瘩一身
如果韩寒大师是女的，真的好好伺候她一顿
让她别那么风骚、嗲声嗲气

【在 D********y 的大作中提到】

: 方水军们看到真正的语言学分析
: 非要颠倒黑白说“这不是语言学分析”“样本被查找替换了”....
: 有什么好说的，在他们眼里只有教主才是权威的。

o*n2012-03-06 08:03

75 楼

检测你的指纹和罪犯留下的指纹是否相同，那么多指纹特征中，只要有一个不符合，你
的指纹和罪犯的指纹就不同。

【在 w********u 的大作中提到】

: 16万字，你就取了5个词……这叫指纹，还是苏博士发现的指纹
: 估计韩寒大师都不知道自己有这指纹
:
: ，。

p*r2012-03-06 08:03

76 楼

reviewer至少也得是同领域同专业的资深人士吧。请问你学过么？还以reviewer的身份
自居，真够好意思的。
“他指出“每个人应该有自己一套词汇”，是普通人吧，所谓的韩寒这样的大才子，他
的词汇会那么贫乏、受限制吗？”这段话打回去重写吧，有失您reviewer的水准了。
我什么水平不需要你来鉴定，我们讨论的是作者这篇文章。
没错，任何一个学科，都要接受科学的检验，这也是句废话，不然这个学科也不会存在
，更不会被大家应用。
“唯一的问题，是我的质疑不科学。你可以反对我的质疑，但不要说我不是那行。”
你本来就不是人家那行，楞充什么大个儿啊。质疑的前提条件是你得懂啊，请问你懂吗
？司法语言学你学过几年啊？有研究成果吗？如果根本不是学这个的你质疑的毛啊。你
所理解的仅仅是你自己专业的东西，然后就想当然地以为人家也应该跟你是一样的，你
觉得你这样是科学的思考问题的方式吗？还说什么“不存在这套理论去套那个学科的问
题”。简直是强词夺理、没理还要搅三分……
你上面已经说了3点。是，如果你仔细看过文章，理解作者讲的司法语言学的基本知识
了，第三点你就不该提出来。不知道你是没好好看，还是故意选择性忽略。那是方舟子
的招数，别学他，档次太低。

【在 w********u 的大作中提到】

: 叫reviewer多读毫无意义，而且非常弱智。你应该直接指出你不同意的地方。
: 他指出“每个人应该有自己一套词汇”，是普通人吧，所谓的韩寒这样的大才子，他的
: 词汇会那么贫乏、受限制吗？
: 而且他这个话，不是结论，而是他的assumption，是进行这个所谓分析的基础。苏博士
: 应该先test这个assumption是否成立，比如测试其他作者是否也成立。
: 你的水平，估计是大一大二，或者走读性的硕士。
: 任何一个学科，都要接受科学的检验，不存在这套理论去套那个学科的问题。唯一的问
: 题，是我的质疑不科学。你可以反对我的质疑，但不要说我不是那行。没有一个人是哪
: 行。哪怕你就是研究古文的，也可能不是那行。
: 况且，他的整个论述，根本就是荒谬不堪。至于，如何荒谬，我上面已经说了3点。

p*r2012-03-06 08:03

77 楼

人家都说了，是拿出这5个作为例子，你根本就是没好好看文。他肯定找出了词库，但
是篇幅有限，不可能一个个细讲，而且过于学术的话就发论文了不会发在网络上。

【在 w********u 的大作中提到】

: 16万字，你就取了5个词……这叫指纹，还是苏博士发现的指纹
: 估计韩寒大师都不知道自己有这指纹
:
: ，。

w*u2012-03-06 08:03

78 楼

你的整個logic已經證明你就不應該貼出這個東西出來丟人現眼
更加不應該標榜“语言学分析”
不是說誰便一個人抗個“语言学分析”大旗
別人就不可以review， criticize
這東西有什麽關鍵性技術別人不懂嗎？
況且他現在是用統計手段
統計工具是任何一個有科學訓練的人都應該熟練掌握的
你怎麽知道別人不懂統計？

【在 p********r 的大作中提到】

: reviewer至少也得是同领域同专业的资深人士吧。请问你学过么？还以reviewer的身份
: 自居，真够好意思的。
: “他指出“每个人应该有自己一套词汇”，是普通人吧，所谓的韩寒这样的大才子，他
: 的词汇会那么贫乏、受限制吗？”这段话打回去重写吧，有失您reviewer的水准了。
: 我什么水平不需要你来鉴定，我们讨论的是作者这篇文章。
: 没错，任何一个学科，都要接受科学的检验，这也是句废话，不然这个学科也不会存在
: ，更不会被大家应用。
: “唯一的问题，是我的质疑不科学。你可以反对我的质疑，但不要说我不是那行。”
: 你本来就不是人家那行，楞充什么大个儿啊。质疑的前提条件是你得懂啊，请问你懂吗
: ？司法语言学你学过几年啊？有研究成果吗？如果根本不是学这个的你质疑的毛啊。你

D*y2012-03-06 08:03

79 楼

你buy不buy有个屁影响
loser们就是觉得全世界都该是以他们为中心的...但是很可惜...

【在 w********u 的大作中提到】

: 反正就是不buy韩寒或者他爹
: 肉麻、装B、显摆、矫情……
: 鸡皮疙瘩一身
: 如果韩寒大师是女的，真的好好伺候她一顿
: 让她别那么风骚、嗲声嗲气

D*y2012-03-06 08:03

80 楼

lz我觉得你不用理他了，跟为黑而黑的家伙说道理是没用的
我就这篇文章咨询过我在Wellesley学语言学的同学，分析方法一点问题没有，以肘子
为首的外行人就是爱充内行，末了还抹黑一把内行人的方法都是伪科学

【在 p********r 的大作中提到】

: 人家都说了，是拿出这5个作为例子，你根本就是没好好看文。他肯定找出了词库，但
: 是篇幅有限，不可能一个个细讲，而且过于学术的话就发论文了不会发在网络上。

w*u2012-03-06 08:03

81 楼

你怎麽那麽肯定他測試過其他例子？
我前面3點說的很清楚了。
首先，16萬字，至少有幾千到上萬個詞彙(從那些5個指紋，每個出現1-20次，大概說明
每個詞出現1-20次，所以16萬字，大概有幾千到上萬個詞；當然，這視乎你怎麽斷詞)
吧？你就拿了5個？
你知不知道，by chance alone, 在10，000個詞裏面，要找出5個詞，在A文出現16次或
者更多，而在B文出現0次的概率有多大？

【在 p********r 的大作中提到】

: 人家都说了，是拿出这5个作为例子，你根本就是没好好看文。他肯定找出了词库，但
: 是篇幅有限，不可能一个个细讲，而且过于学术的话就发论文了不会发在网络上。

w*u2012-03-06 08:03

82 楼

loser的基本特徵，是崇拜一個比他條件更失敗的，如初中畢業
而卻“混”得“很好”的。通過對他的追捧，
來證明自己的條件不是最loser的，
也因此更比他追捧的人更加可能成功。

【在 D********y 的大作中提到】

: 你buy不buy有个屁影响
: loser们就是觉得全世界都该是以他们为中心的...但是很可惜...

D*y2012-03-06 08:03

83 楼

拉到吧～您尽管继续用您的“统计学”行走江湖～祝您顺利成为神教第二把交椅～千秋
万代一桶浆糊！

【在 w********u 的大作中提到】

: loser的基本特徵，是崇拜一個比他條件更失敗的，如初中畢業
: 而卻“混”得“很好”的。通過對他的追捧，
: 來證明自己的條件不是最loser的，
: 也因此更比他追捧的人更加可能成功。

h*e2012-03-06 08:03

84 楼

《语言学分析：韩寒与韩仁均作品区分度高达90%》
作者重新写了一下，不过实际内容没变。
http://blog.sina.com.cn/s/blog_8c41e9160100zffn.html

p*r2012-03-06 08:03

85 楼

我的logic有问题还是你的有问题，群中的眼睛是雪亮的，我们自己就不必争论了。
你这种鄙视其他学科的态度就很不好。我就是统计系毕业的，跟你同一个专业深感耻辱。
统计学是门很实用的学科，但不是万能的，你别吹的太邪乎，不是所有人都是外行。
另外善意提醒：
科学的统计手段被滥用的时候可能得出完全不科学的结论。别一瓶子不满半瓶子晃，自
己会点东西到处去瞎用，还对别的学科颐指气使、出言不敬。错误的统计工具会得到错
误的结果，而且对大众的误导性更强。
即使使用了正确的统计工具，在解读结果的时候也要严谨。统计学的结果不是任意解读
的，正是有些人对统计工具的滥用和解读结果时候过于随意，才造成了今天很多人对统
计结果的不信任。我看阁下有这个趋势，善意提醒一下，有则改之无则加勉。

【在 w********u 的大作中提到】

: 你的整個logic已經證明你就不應該貼出這個東西出來丟人現眼
: 更加不應該標榜“语言学分析”
: 不是說誰便一個人抗個“语言学分析”大旗
: 別人就不可以review， criticize
: 這東西有什麽關鍵性技術別人不懂嗎？
: 況且他現在是用統計手段
: 統計工具是任何一個有科學訓練的人都應該熟練掌握的
: 你怎麽知道別人不懂統計？

M*f2012-03-06 08:03

86 楼

最近留意到你的贴，特点是有理有据有耐心。睡前上来顶一下。：）

辱。
★ 发自iPhone App: ChineseWeb - 中文网站浏览器

【在 p********r 的大作中提到】

: 我的logic有问题还是你的有问题，群中的眼睛是雪亮的，我们自己就不必争论了。
: 你这种鄙视其他学科的态度就很不好。我就是统计系毕业的，跟你同一个专业深感耻辱。
: 统计学是门很实用的学科，但不是万能的，你别吹的太邪乎，不是所有人都是外行。
: 另外善意提醒：
: 科学的统计手段被滥用的时候可能得出完全不科学的结论。别一瓶子不满半瓶子晃，自
: 己会点东西到处去瞎用，还对别的学科颐指气使、出言不敬。错误的统计工具会得到错
: 误的结果，而且对大众的误导性更强。
: 即使使用了正确的统计工具，在解读结果的时候也要严谨。统计学的结果不是任意解读
: 的，正是有些人对统计工具的滥用和解读结果时候过于随意，才造成了今天很多人对统
: 计结果的不信任。我看阁下有这个趋势，善意提醒一下，有则改之无则加勉。

p*r2012-03-06 08:03

87 楼

谢谢你，晚安，做个好梦。

【在 M******f 的大作中提到】

: 最近留意到你的贴，特点是有理有据有耐心。睡前上来顶一下。：）
:
: 辱。
: ★ 发自iPhone App: ChineseWeb - 中文网站浏览器

h*n2012-03-06 08:03

88 楼

这个分析明显有问题。
第一，数据不对，有纂改嫌疑。比如“不幸”一词，在“像少年啦飞驰”中出现了约43
次，任何人从网上下载后都可以轻易核实，所以该词的频率比“三重门”多了三四倍，
属于显著差别，但此图中只说有28次，把差别减小了。
第二，“分离度”的定义不合理，会造成误导。比如“他之国”，五个词里面三个词的
使用频率更接近韩仁均的作品甚于“三重门"，反而算出来的“分离度”“三重门”只
有60%而韩仁均有80%，显然不合理。
这种分析都不是客观的，难以作为凭证。

【在 M******f 的大作中提到】

: 刚看到网上有人把这个工作做全了。
: http://book.163.com/12/0307/09/7S02843900924JJM.html
:
: ★ 发自iPhone App: ChineseWeb - 中文网站浏览器

r*h2012-03-06 08:03

89 楼

花了几分钟，粗略想了想，看了看。
韩仁钧的作品，“儿子韩寒”和“说说我自己”这两篇文章就66k字，占了
这11万字的60% （Microsoft Word的Word Count)。这两篇文章显然跟小说是
不同的文体，用词就可能完全不同。极端的例子，你要是拿科学论文跟小说
比较，我可以随便挑出一堆用词在科学论文里有，而小说里根本不会出现。
具体到，“光”，“不幸”和“这人”这几个词，直觉告诉我不会在一个
回忆或者描述性的文章里出现过多。“谁知”这个词，如果为了突出
一个人做事出人意表（让老爸都意外），那确实如文中所举，出现次数很多。
其实“没想到”跟“谁知”在意思上好像差不多。而且，好像这两个词
韩寒和韩仁钧都有用到（假设三重门真的是韩寒所写）。
总体来说，我觉得这个分析太粗糙。其实，要考虑细致的东西很多，这个
不够让人信服。

【在 p********r 的大作中提到】

: 韩寒被质疑有人代笔，到现在已经快两个月了。其间断断续续，我大致看了两方的主要
: 论辩文字。方舟子是我一直很敬佩的人。与方舟子一起质疑韩寒的麦田、彭晓芸等人，
: 他们的理性和克制，也给我留下了很深的印象。质疑者有不少分析论证，有相当强的说
: 服力。相比之下，韩寒的表现却令人大跌眼镜。由于手头的工作比较忙，一直没时间看
: 韩寒父子的相关作品，不过，我心中的天平，已经向质疑者一方倾斜了。
: 新的学期开始了。这学期我有一门课是“西方校勘学概论”。“校勘学”英语是
: textual criticism，也可以译为“文本鉴别学”。我打算把质疑韩寒事件作为一个个
: 案与同学们分析讨论，于是找来《三重门》和韩仁均的有关作品，从质疑者的立场出发
: ，进行比对分析。结果出乎我的意料。我心中的天平，开始向韩寒一方倾斜。
: 谁都无法证明？

r*h2012-03-06 08:03

90 楼

还是韩寒站出来讨论一下自己的作品更有说服力。粉丝们分析来分析去，
根本没有意义。

【在 r******h 的大作中提到】

: 花了几分钟，粗略想了想，看了看。
: 韩仁钧的作品，“儿子韩寒”和“说说我自己”这两篇文章就66k字，占了
: 这11万字的60% （Microsoft Word的Word Count)。这两篇文章显然跟小说是
: 不同的文体，用词就可能完全不同。极端的例子，你要是拿科学论文跟小说
: 比较，我可以随便挑出一堆用词在科学论文里有，而小说里根本不会出现。
: 具体到，“光”，“不幸”和“这人”这几个词，直觉告诉我不会在一个
: 回忆或者描述性的文章里出现过多。“谁知”这个词，如果为了突出
: 一个人做事出人意表（让老爸都意外），那确实如文中所举，出现次数很多。
: 其实“没想到”跟“谁知”在意思上好像差不多。而且，好像这两个词
: 韩寒和韩仁钧都有用到（假设三重门真的是韩寒所写）。

r*h2012-03-06 08:03

91 楼

如果真的篡改，那就是人品问题了。可能，有些人做研究、写文章，
抄袭、篡改都习以为常了。

43

【在 h*****n 的大作中提到】

: 这个分析明显有问题。
: 第一，数据不对，有纂改嫌疑。比如“不幸”一词，在“像少年啦飞驰”中出现了约43
: 次，任何人从网上下载后都可以轻易核实，所以该词的频率比“三重门”多了三四倍，
: 属于显著差别，但此图中只说有28次，把差别减小了。
: 第二，“分离度”的定义不合理，会造成误导。比如“他之国”，五个词里面三个词的
: 使用频率更接近韩仁均的作品甚于“三重门"，反而算出来的“分离度”“三重门”只
: 有60%而韩仁均有80%，显然不合理。
: 这种分析都不是客观的，难以作为凭证。

w*u2012-03-06 08:03

92 楼

见图

辱。

【在 p********r 的大作中提到】

: 我的logic有问题还是你的有问题，群中的眼睛是雪亮的，我们自己就不必争论了。
: 你这种鄙视其他学科的态度就很不好。我就是统计系毕业的，跟你同一个专业深感耻辱。
: 统计学是门很实用的学科，但不是万能的，你别吹的太邪乎，不是所有人都是外行。
: 另外善意提醒：
: 科学的统计手段被滥用的时候可能得出完全不科学的结论。别一瓶子不满半瓶子晃，自
: 己会点东西到处去瞎用，还对别的学科颐指气使、出言不敬。错误的统计工具会得到错
: 误的结果，而且对大众的误导性更强。
: 即使使用了正确的统计工具，在解读结果的时候也要严谨。统计学的结果不是任意解读
: 的，正是有些人对统计工具的滥用和解读结果时候过于随意，才造成了今天很多人对统
: 计结果的不信任。我看阁下有这个趋势，善意提醒一下，有则改之无则加勉。

L*n2012-03-06 08:03

93 楼

Very funny, Yeh!!!!!!!!!!!!!!!

【在 K****7 的大作中提到】

: 这个帖子用同样分析方法，得出相反结论

o*n2012-03-06 08:03

94 楼

作者瞎扯，A文出现10次以上B文没出现的词是19个的话，A文出现16次以上B文没出现的
概率肯定远远小于5，这个概率随着次数的增加是指数级减少的。

【在 w********u 的大作中提到】

: 见图
:
: 辱。

w*u2012-03-06 08:03

95 楼

这文盲到这程度，你只能去做作家了

【在 o*********n 的大作中提到】

: 作者瞎扯，A文出现10次以上B文没出现的词是19个的话，A文出现16次以上B文没出现的
: 概率肯定远远小于5，这个概率随着次数的增加是指数级减少的。

b*o2012-03-06 08:03

96 楼

Re

【在 K****7 的大作中提到】

: 这个帖子用同样分析方法，得出相反结论

j*w2012-03-06 08:03

97 楼

几点想法：
１。不同体的文章，作品用词不会相同；
２。不同时期的作品文章用词也不会相同；２０年前的
用语和现在的网络用语完全不同；
流行歌曲歌词就是很好的证明；
３。所选择的词汇够不够全面，具有代表性也是一个问题。
因此，我欢迎类似的分析，毕竟比空对空还是有意义的。
但是建议如下改动再做分析：
１。选择的文体相同或近似；
２。时间跨度建议５年以内；
３。词汇的代表性选择；
４。样本的扩大范围的交叉分析。i。e：
韩寒自身作品的分析（自恰性），其他作者（选取１０组）相同文体，不
同文体的分析（完备性）
做了以上分析以后，才是个比较合格的硕士论文。。

【在 powerpower (屁股) 的大作中提到: 】

o*n2012-03-06 08:03

98 楼

多说一句，之所以语言偏好可以作为指纹，就是利用每个人对词库中不同词地使用概率
不一样的特点。那个作者的模型恰恰忽略了这个前提，所以所做结论没有任何意义。正
如你看到的，他的模型中连重复10次以上的词都很少，这样的结论有啥意义吗？
奉劝你一句，不管你是F2，还是文科生，讲道理就是讲道理，说论点，说论据，别讲不
出道理就用这种阴阳怪气的态度。

【在 w********u 的大作中提到】

: 这文盲到这程度，你只能去做作家了

p*r2012-03-06 08:03

99 楼

我觉得你对作者讲的概念的理解还是有出入。
你理解的词库是指一个人会的所有词（我没理解错吧？）；苏博士讲的词库是语言指纹
，是对每个人具有独特性的。
就拿你和我举例子：我们一人一个词库，可能我们俩的词库80%-90%都是一样的——毕
竟“你好”、“再见”这样的词谁都用的到。那这80%-90%则不是苏博士研究的对象，
他需要找出的是那一小部分，能代表这个人的“语言指纹”。
苏博士文章的唯一问题在于：他是针对《三重门》找的。不过之前回帖贴的那篇文章，
用其他的文章做了补充证明，验证了苏博士的结论。所以苏博士的文章加上那篇补充文
章，应该是没问题了。
你贴的这个文章是纯统计角度的分析，很好，但是你“很容易找出A文>=10次B文<2次”
的结论并不能反驳苏博士，因为这样的词不是苏博士研究的对象。不过，你这篇文章非
常好的证明了你第一次贴的那个中国商军的文章的不科学性。

【在 w********u 的大作中提到】

: 见图
:
: 辱。

p*r2012-03-06 08:03

100 楼

作者原话：“两点说明。一，韩仁均作品和《三重门》都是叙事文字，所叙述的内容、
所反映的生活有相当大的重叠面，语言具有很强的可比性。
二，《三重门》和韩仁均作品都是公开发表的文字，中间都有编辑过手。编辑的影响（
如果有的话），主要是减少文本语言的个性而不是相反。我们可以对编辑因素不予考虑。
从韩仁君作品与《三重门》在常用词表上的不同和偏好，我们可以初步得出结论，排除
韩仁君代写《三重门》的可能性。
当然，我们调查的范围绝不仅限于这几个词。之所以列出这几个词语，是出于以下三点
考虑：一，这几个词语比较典型；二，我有其它的用意，这个后面会谈到；三，这几个
词语已足以说明问题。在司法鉴定中，排除比认定同一要容易的多。用DNA（区分度很
高）进行同一认定，也只是表述为99.99%，但血型（区分度很低）的不同，就可以直接
排除嫌疑。”
关于词库定义：“每一个人都有自己多年建立起来的一个常用词汇集合（或者叫常用词
表）。这个词表，与其他人所建立起来的常用词表可加以区分。这种区分，不仅表现为
每个人的词表所包含的词语项不相一致，还表现为每个人对不同词语项有着不同的偏好
。”
这毕竟只是篇短文，要真按硕士论文那么做，也不可能在网上就随便发了。他做的不是
证明自己写的，而是排除嫌疑。

【在 j******w 的大作中提到】

: 几点想法：
: １。不同体的文章，作品用词不会相同；
: ２。不同时期的作品文章用词也不会相同；２０年前的
: 用语和现在的网络用语完全不同；
: 流行歌曲歌词就是很好的证明；
: ３。所选择的词汇够不够全面，具有代表性也是一个问题。
: 因此，我欢迎类似的分析，毕竟比空对空还是有意义的。
: 但是建议如下改动再做分析：
: １。选择的文体相同或近似；
: ２。时间跨度建议５年以内；

j*w2012-03-06 08:03

101 楼

你只强调我的１，２，３点，但是适用性也就是第４点没有说明，
一个反证就是楼上用同样的方法得出不同的结论。
这个工具在这里是不适用还需要我的第四点验证的。
不能拿来就用，而且样本少bias就可能很大

虑。

【在 p********r 的大作中提到】

: 作者原话：“两点说明。一，韩仁均作品和《三重门》都是叙事文字，所叙述的内容、
: 所反映的生活有相当大的重叠面，语言具有很强的可比性。
: 二，《三重门》和韩仁均作品都是公开发表的文字，中间都有编辑过手。编辑的影响（
: 如果有的话），主要是减少文本语言的个性而不是相反。我们可以对编辑因素不予考虑。
: 从韩仁君作品与《三重门》在常用词表上的不同和偏好，我们可以初步得出结论，排除
: 韩仁君代写《三重门》的可能性。
: 当然，我们调查的范围绝不仅限于这几个词。之所以列出这几个词语，是出于以下三点
: 考虑：一，这几个词语比较典型；二，我有其它的用意，这个后面会谈到；三，这几个
: 词语已足以说明问题。在司法鉴定中，排除比认定同一要容易的多。用DNA（区分度很
: 高）进行同一认定，也只是表述为99.99%，但血型（区分度很低）的不同，就可以直接

p*r2012-03-06 08:03

102 楼

第四点作者在原文里已经表述的非常明白了：他研究的是能否排除韩仁均写《三重门》
的可能性，结论是能。你没好好看原文。
你是指中国商军的？还是有R code的？不管哪个，我上面也解释了为什么中国商军的不
科学、为什么R code的那个不能反驳苏博士的文。并且，R code的那篇恰恰证明了中国
商军的不科学性。你有兴趣看看前面的回帖就明白了。

【在 j******w 的大作中提到】

: 你只强调我的１，２，３点，但是适用性也就是第４点没有说明，
: 一个反证就是楼上用同样的方法得出不同的结论。
: 这个工具在这里是不适用还需要我的第四点验证的。
: 不能拿来就用，而且样本少bias就可能很大
:
: 虑。

j*w2012-03-06 08:03

103 楼

得，让他进一步分析就不行了。他说可以就可以？
他再找几个对照组分析分析也好啊。算了，不难为你们了。

【在 p********r 的大作中提到】

: 第四点作者在原文里已经表述的非常明白了：他研究的是能否排除韩仁均写《三重门》
: 的可能性，结论是能。你没好好看原文。
: 你是指中国商军的？还是有R code的？不管哪个，我上面也解释了为什么中国商军的不
: 科学、为什么R code的那个不能反驳苏博士的文。并且，R code的那篇恰恰证明了中国
: 商军的不科学性。你有兴趣看看前面的回帖就明白了。

w*u2012-03-06 08:03

104 楼

别搞笑了

【在 p********r 的大作中提到】

: 我觉得你对作者讲的概念的理解还是有出入。
: 你理解的词库是指一个人会的所有词（我没理解错吧？）；苏博士讲的词库是语言指纹
: ，是对每个人具有独特性的。
: 就拿你和我举例子：我们一人一个词库，可能我们俩的词库80%-90%都是一样的——毕
: 竟“你好”、“再见”这样的词谁都用的到。那这80%-90%则不是苏博士研究的对象，
: 他需要找出的是那一小部分，能代表这个人的“语言指纹”。
: 苏博士文章的唯一问题在于：他是针对《三重门》找的。不过之前回帖贴的那篇文章，
: 用其他的文章做了补充证明，验证了苏博士的结论。所以苏博士的文章加上那篇补充文
: 章，应该是没问题了。
: 你贴的这个文章是纯统计角度的分析，很好，但是你“很容易找出A文>=10次B文<2次”

w*u2012-03-06 08:03

105 楼

词库这概念，是简单化的结果，事实上
大部分词语，你我都认识
问题是，熟悉的程度不一样
有的词，某人经常用，而到了别人却不经常用
因此导致好像词库不一样
复旦苏博士所挑的东西，没有什么科学依据
我前面提过，两种挑法：一种基于某种经验主义，一种依赖随机抽选
现在复旦的做法是第一种，即挑几个它认为是很符合韩寒语言特点的词
问题来了，首先，这些词是为数不多的。我已经在numerical experiment中得知，一本
书中出现的词语，大部分只出现1-2次，加起来占了快一半。这样，同样的作者，写一
本新书，为了装B，或者为了塑造某个人物，可能把某几个、十来个、几十个词语频繁
使用，而这些词刚好在B文只出现1-2次的概率，非常高，有50%。
所以，经验主义的做法是不对的。最好是，多看几个词。
反正你说你学统计，我一点都感觉不到你学统计。
没说出个之所以然。简单无比的概念都说出半个。

【在 p********r 的大作中提到】

: 我觉得你对作者讲的概念的理解还是有出入。
: 你理解的词库是指一个人会的所有词（我没理解错吧？）；苏博士讲的词库是语言指纹
: ，是对每个人具有独特性的。
: 就拿你和我举例子：我们一人一个词库，可能我们俩的词库80%-90%都是一样的——毕
: 竟“你好”、“再见”这样的词谁都用的到。那这80%-90%则不是苏博士研究的对象，
: 他需要找出的是那一小部分，能代表这个人的“语言指纹”。
: 苏博士文章的唯一问题在于：他是针对《三重门》找的。不过之前回帖贴的那篇文章，
: 用其他的文章做了补充证明，验证了苏博士的结论。所以苏博士的文章加上那篇补充文
: 章，应该是没问题了。
: 你贴的这个文章是纯统计角度的分析，很好，但是你“很容易找出A文>=10次B文<2次”

p*r2012-03-06 08:03

106 楼

原文：“尽管搜集到的韩仁君的作品大概已占其所发表文字的80%以上，但这毕竟还不
是穷尽性的调查。我的例证和结论，欢迎大家核对，质疑。随着材料的增多，我的例证
有可能需
要修正，甚至结论也需要重写。但是我相信，用这种语言学的分析方法，是可以对《三
重门》以及相关作品的作者身份做出认定的。”
他的研究目的是排除韩仁均代笔写《三重门》的可能，他的目的达到了。至于进一步研
究，完全可以，但那就跟本文没有直接关系了。

【在 j******w 的大作中提到】

: 得，让他进一步分析就不行了。他说可以就可以？
: 他再找几个对照组分析分析也好啊。算了，不难为你们了。

j*w2012-03-06 08:03

107 楼

there is not enough examples to support his statement:
"但是我相信，用这种语言学的分析方法，是可以对《三
重门》以及相关作品的作者身份做出认定的。”
why it is "是可以对《三
重门》以及相关作品的作者身份做出认定的。”
you believe:"但是我相信", not other people.
it is not qualified to make that conclusion. that is it.

【在 p********r 的大作中提到】

: 原文：“尽管搜集到的韩仁君的作品大概已占其所发表文字的80%以上，但这毕竟还不
: 是穷尽性的调查。我的例证和结论，欢迎大家核对，质疑。随着材料的增多，我的例证
: 有可能需
: 要修正，甚至结论也需要重写。但是我相信，用这种语言学的分析方法，是可以对《三
: 重门》以及相关作品的作者身份做出认定的。”
: 他的研究目的是排除韩仁均代笔写《三重门》的可能，他的目的达到了。至于进一步研
: 究，完全可以，但那就跟本文没有直接关系了。

p*r2012-03-06 08:03

108 楼

要有 enough examples,就会出现在学术期刊上了，而不是这里；这里作者已经用了最
少最简单的例子和话语证明了他的论点。他的理论、研究方法是科学严谨的。推而广之
，他说“我相信……”，这是没什么问题的。这是篇网文，不是正式的学术论文，他这
么说无可厚非，你也没必要去抠字眼。真要质疑，请从他的理论以及研究方法入手。
真要认定那些作品作者还是有大量的工作要去做的。人家没有义务帮你做这个然后免费
的发到网上来。之所以发这篇文章，人家讲的也很明白：这是一个典型案例，可以用来
在课堂上给学生们上课。学生都是交了学费的，人家愿意义务的把部分成果发到网上来
供你们学习和讨论已经不错了。

【在 j******w 的大作中提到】

: there is not enough examples to support his statement:
: "但是我相信，用这种语言学的分析方法，是可以对《三
: 重门》以及相关作品的作者身份做出认定的。”
: why it is "是可以对《三
: 重门》以及相关作品的作者身份做出认定的。”
: you believe:"但是我相信", not other people.
: it is not qualified to make that conclusion. that is it.

j*w2012-03-06 08:03

109 楼

hahaha, you can go ahead....

【在 p********r 的大作中提到】

: 要有 enough examples,就会出现在学术期刊上了，而不是这里；这里作者已经用了最
: 少最简单的例子和话语证明了他的论点。他的理论、研究方法是科学严谨的。推而广之
: ，他说“我相信……”，这是没什么问题的。这是篇网文，不是正式的学术论文，他这
: 么说无可厚非，你也没必要去抠字眼。真要质疑，请从他的理论以及研究方法入手。
: 真要认定那些作品作者还是有大量的工作要去做的。人家没有义务帮你做这个然后免费
: 的发到网上来。之所以发这篇文章，人家讲的也很明白：这是一个典型案例，可以用来
: 在课堂上给学生们上课。学生都是交了学费的，人家愿意义务的把部分成果发到网上来
: 供你们学习和讨论已经不错了。

p*r2012-03-06 08:03

110 楼

大部分词语，你我都认识，没错。但是区别在于：
举个简单的例子，你喜欢说“谢谢”，我喜欢说“谢了”。我也知道“谢谢”这个词，
但是我不用，我就是喜欢说“谢了”，这就是你和我的区别。苏博士的工作就在于，找
出区分韩寒和韩仁均的这些词的集合，形成他们的语言指纹。
你发的那个带R code的文章，对一个人所会的所有词汇进行抽样，首先你的假设就是错
的：你假定simple random sampling，每个词被选中的几率是一样的，这是不对的。因
为在实际当中，一个人喜欢用的词语要比其他词用的几率大，很可能是大很多。苏博士
定位的是这些词，而不是随意的在一个人的词库里随机选。
所以我之前就跟你说过了，这不是单纯的统计分析，是要用到他们专业的相关理论和知
识的。你偏偏要把它当做纯统计来做……

【在 w********u 的大作中提到】

: 词库这概念，是简单化的结果，事实上
: 大部分词语，你我都认识
: 问题是，熟悉的程度不一样
: 有的词，某人经常用，而到了别人却不经常用
: 因此导致好像词库不一样
: 复旦苏博士所挑的东西，没有什么科学依据
: 我前面提过，两种挑法：一种基于某种经验主义，一种依赖随机抽选
: 现在复旦的做法是第一种，即挑几个它认为是很符合韩寒语言特点的词
: 问题来了，首先，这些词是为数不多的。我已经在numerical experiment中得知，一本
: 书中出现的词语，大部分只出现1-2次，加起来占了快一半。这样，同样的作者，写一

w*u2012-03-06 08:03

111 楼

我已经说明了，你无法逼近一个人真实分布
均匀分布固然和真实分布有差异
但在什么都不知道的情况下，没有一种方案比这个更能接近事实
这些不至于是“错”的，怀疑你统计没入行
统计里，很少说是“错的”
这不是错，是一种逼近。
除非你现在能够给我一个更佳的方案。你能吗？

【在 p********r 的大作中提到】

: 大部分词语，你我都认识，没错。但是区别在于：
: 举个简单的例子，你喜欢说“谢谢”，我喜欢说“谢了”。我也知道“谢谢”这个词，
: 但是我不用，我就是喜欢说“谢了”，这就是你和我的区别。苏博士的工作就在于，找
: 出区分韩寒和韩仁均的这些词的集合，形成他们的语言指纹。
: 你发的那个带R code的文章，对一个人所会的所有词汇进行抽样，首先你的假设就是错
: 的：你假定simple random sampling，每个词被选中的几率是一样的，这是不对的。因
: 为在实际当中，一个人喜欢用的词语要比其他词用的几率大，很可能是大很多。苏博士
: 定位的是这些词，而不是随意的在一个人的词库里随机选。
: 所以我之前就跟你说过了，这不是单纯的统计分析，是要用到他们专业的相关理论和知
: 识的。你偏偏要把它当做纯统计来做……

A*12012-03-06 08:03

112 楼

你扯这些没用的做什么？
反正用那5个词
韩寒自己的作品分离度小于30%
和韩仁君的作品大于90%
和其他随机作家的分离度大于80%
三重门和韩寒别的作品吻合
别的随机挑选的作家包括韩仁君的作品和韩寒的不吻合
这就够了，足以表明那5个词语是有效的signature, 你扯这些漫无边际的做什么？
脑子一团江湖

【在 w********u 的大作中提到】

: 我已经说明了，你无法逼近一个人真实分布
: 均匀分布固然和真实分布有差异
: 但在什么都不知道的情况下，没有一种方案比这个更能接近事实
: 这些不至于是“错”的，怀疑你统计没入行
: 统计里，很少说是“错的”
: 这不是错，是一种逼近。
: 除非你现在能够给我一个更佳的方案。你能吗？

w*u2012-03-06 08:03

113 楼

什么鸡巴分离度？谁定义的？
这个东西应该用Fisher exact test (by hypergeometric dist.)
或者Pearson's chi squared test.
你们完全没有实证精神，我下了A Tale of Two cities察看词频
发现，只有少数词，是不断出现，大量的词，只出现1-2次
所以，某人写两本书，某词在A书出现N次，在B书，几乎不出现很正常。
况且Korean Grassbag他们家有装B的遗传病。
故弄玄虚不奇怪。根本不能说是分别两人所作。

【在 A*****1 的大作中提到】

: 你扯这些没用的做什么？
: 反正用那5个词
: 韩寒自己的作品分离度小于30%
: 和韩仁君的作品大于90%
: 和其他随机作家的分离度大于80%
: 三重门和韩寒别的作品吻合
: 别的随机挑选的作家包括韩仁君的作品和韩寒的不吻合
: 这就够了，足以表明那5个词语是有效的signature, 你扯这些漫无边际的做什么？
: 脑子一团江湖

A*12012-03-06 08:03

114 楼

SB,
你的玩艺只表明不是每个词都具有signature属性的
你甭管人家怎么找到那5个词的
只要那5个词在A作者书中出现的频率/万字能够和别的作者区分开就够了
至于区分度的定义，哈，你不是学统计的么？如果某个词，在A作者作品的出现频率是
15次/万字，别的随机作者出现的频率是峰值为2次/万字的正态分布，在统计上能不能
算作有显著差异还需要我来教你么？
你写的东西跟人家想要论证的没有一毛钱的关系，如果一个词在某人的A书中出现，B书
中不出现，表明这个词不是一个signature，但如果一个词在某人所有作品中都以稳定
频率出现，在别人的作品中出现频率有显著差异，那么这个词就是signature
猪脑子你明白了么？

【在 w********u 的大作中提到】

: 什么鸡巴分离度？谁定义的？
: 这个东西应该用Fisher exact test (by hypergeometric dist.)
: 或者Pearson's chi squared test.
: 你们完全没有实证精神，我下了A Tale of Two cities察看词频
: 发现，只有少数词，是不断出现，大量的词，只出现1-2次
: 所以，某人写两本书，某词在A书出现N次，在B书，几乎不出现很正常。
: 况且Korean Grassbag他们家有装B的遗传病。
: 故弄玄虚不奇怪。根本不能说是分别两人所作。

w*u2012-03-06 08:03

115 楼

signature 个鸡巴
一个草包能有什么signature

【在 A*****1 的大作中提到】

: SB,
: 你的玩艺只表明不是每个词都具有signature属性的
: 你甭管人家怎么找到那5个词的
: 只要那5个词在A作者书中出现的频率/万字能够和别的作者区分开就够了
: 至于区分度的定义，哈，你不是学统计的么？如果某个词，在A作者作品的出现频率是
: 15次/万字，别的随机作者出现的频率是峰值为2次/万字的正态分布，在统计上能不能
: 算作有显著差异还需要我来教你么？
: 你写的东西跟人家想要论证的没有一毛钱的关系，如果一个词在某人的A书中出现，B书
: 中不出现，表明这个词不是一个signature，但如果一个词在某人所有作品中都以稳定
: 频率出现，在别人的作品中出现频率有显著差异，那么这个词就是signature

p*r2012-03-06 08:03

116 楼

你无法逼近一个人的真实分布，那是你不能；人家可以，因为人家有他们专业的方法，
而且在原文里作者也说了要怎么做。这里他只是展示了冰山一角，你不能否定人家背后
的大量工作。
人家已经有了接近真实的方法了，为什么还用你不接近的方法？这不是舍近求远吗？
还有，之前我已经说过了，“善意提醒”那一段，解读结论要严谨，希望你没忘。你用
统计工具得出的结论，是基于你建立的假设的前提下的。在你的假设成立的条件下，你
的结论才可行；但是你跳出你的假设，用你的结论去否定苏博士完全跟你不同条件下得
出的另一个结论，那就是错误的。本来两码事，你非要掺乎到一起，就好像你非要说罗
纳尔多的技术比乔丹好一样。
再跟你重申一遍，这不是单纯的统计分析。你可能学过几年统计，知道一些知识，但我
希望你能够严谨，不要滥用统计方法，要是大家都这样，我们这行就没法做了。
更佳的方案，人家有，但是不可能发布在网上，你也不是这个专业的，就别硬用自己的
方法硬说人家不对。假设如果你搞出新模型，你可以把你的发现发发网上，但具体的过
程和方法，你肯定选择发paper，而不是随便博客上一发。

【在 w********u 的大作中提到】

: 我已经说明了，你无法逼近一个人真实分布
: 均匀分布固然和真实分布有差异
: 但在什么都不知道的情况下，没有一种方案比这个更能接近事实
: 这些不至于是“错”的，怀疑你统计没入行
: 统计里，很少说是“错的”
: 这不是错，是一种逼近。
: 除非你现在能够给我一个更佳的方案。你能吗？