三重门句逗比统计分析# WaterWorld - 未名水世界
J*i
1 楼
注:此帖为纯技术贴,笔者绝非韩粉或方粉。
[简介]
本文对三重门以及其他八部知名长篇作品进行了简单统计分析。分析所用的特征为“句
逗比”,即句号和逗号的比例。分析的假设是每个作家由于习惯其所用的句逗比应该是
基本固定的,因此如果一个作品中的句逗比前后不一致,则有可能是因为前后写作风格
有差所导致(比如作品的一部分章节夹杂了很多诗歌等情况),也有可能因为作品由多
人合作导致。
[统计分析结果]
注:p-value为统计检验结果,表示检验假设成立的概率。这里检验假设是作品具有固
定的句逗比。p-value越小表示作品越有可能含有不同句逗比的成分。一般p-value小于
0.01表示结果显著(阳性),即认为统计假设不成立。
作者 作品名 p-value
韩寒 三重门 0.000083638
韩寒 一座城池 0.0333
郭敬明 幻城 0.3952
王朔 玩的就是心跳 0.7270
王朔 看上去很美 0.000016943
王蒙 活动变人形 0.6639
钱钟书 围城 0.9977
陈忠实 白鹿原 0.5135
毛泽东 毛选(1925-1957) 0.1541
由以上结果可以看出大多数知名作品具有始终如一的句逗比,即便前后时间跨度为三十
年的毛选也有比较一致的句逗比。仅仅有两部作品的句逗比远远小于临界值0.01:《三
重门》和《看上去很美》。
实际观察《三重门》的句逗比分布(见附图)可以看出作品的四分之一到二分之一处句
逗比明显提高。这里图示的是移動平均的句号个数,窗口大小为100个符号。如果单独
检测作品的前四分之一,四分之一到二分之一,以及后半部,则结果不显著,p-value
分别为0.5639, 0.4671以及0.1680.
实际观察《看上去很美》结果类似。
[以下为技术细节,不懂者可跳过]
1)特征提取:提取作品中所有逗号(包括,和,)和句号。
2)归一化:按照均匀间隔提取5000个符号(逗号和句号)。
3)统计测试:如果检验假设成立,则句号的分布应该为均匀分布,因此用Kolmogorov-
Smirnov检验即可得到p-value.
[简介]
本文对三重门以及其他八部知名长篇作品进行了简单统计分析。分析所用的特征为“句
逗比”,即句号和逗号的比例。分析的假设是每个作家由于习惯其所用的句逗比应该是
基本固定的,因此如果一个作品中的句逗比前后不一致,则有可能是因为前后写作风格
有差所导致(比如作品的一部分章节夹杂了很多诗歌等情况),也有可能因为作品由多
人合作导致。
[统计分析结果]
注:p-value为统计检验结果,表示检验假设成立的概率。这里检验假设是作品具有固
定的句逗比。p-value越小表示作品越有可能含有不同句逗比的成分。一般p-value小于
0.01表示结果显著(阳性),即认为统计假设不成立。
作者 作品名 p-value
韩寒 三重门 0.000083638
韩寒 一座城池 0.0333
郭敬明 幻城 0.3952
王朔 玩的就是心跳 0.7270
王朔 看上去很美 0.000016943
王蒙 活动变人形 0.6639
钱钟书 围城 0.9977
陈忠实 白鹿原 0.5135
毛泽东 毛选(1925-1957) 0.1541
由以上结果可以看出大多数知名作品具有始终如一的句逗比,即便前后时间跨度为三十
年的毛选也有比较一致的句逗比。仅仅有两部作品的句逗比远远小于临界值0.01:《三
重门》和《看上去很美》。
实际观察《三重门》的句逗比分布(见附图)可以看出作品的四分之一到二分之一处句
逗比明显提高。这里图示的是移動平均的句号个数,窗口大小为100个符号。如果单独
检测作品的前四分之一,四分之一到二分之一,以及后半部,则结果不显著,p-value
分别为0.5639, 0.4671以及0.1680.
实际观察《看上去很美》结果类似。
[以下为技术细节,不懂者可跳过]
1)特征提取:提取作品中所有逗号(包括,和,)和句号。
2)归一化:按照均匀间隔提取5000个符号(逗号和句号)。
3)统计测试:如果检验假设成立,则句号的分布应该为均匀分布,因此用Kolmogorov-
Smirnov检验即可得到p-value.