中国水军大量涌入文学城?
Alexa.com是一个权威的web 流量的监测和分析网站。这个网站由Amazon操作。它对世界上大部分网站按访问量进行排名。在这个网站上输入一个网址,就会得到该网站90天的流量和排名变化。还可以看到访问者来自于哪些国家。
好奇文学城的排名,我输入了wenxuecity.com,结果让我大吃一惊。文学城的访问量的前三名分别来自中国大陆(36%),美国(34.4%),加拿大(9.3%)。文学城网站在北美,大部分访问者应该是local的。而且文学城在中国是被防火墙封锁的,不翻墙是上不去的。来自中国大陆的访问者竟然高于美国和加拿大。怀疑结果的准确性,我又对比了google.com (全球排名第1),youtube.com (全球排名第2)和facebook.com(全球排名第3),以及中国排名第一,世界排名第4的百度。结果如下:
网站 |
1 |
2 |
3 |
Google.com |
美国(20.9%) |
印度( 9.1%) |
日本(5.2%) |
Youtube.com |
美国(15.3%) |
印度(8.3%) |
日本(4.8%) |
Facebook.com |
美国(25.6%) |
英国(4.3%) |
日本(4.3%) |
Baidu.com |
中国大陆(94.7) |
日本(1.7%) |
美国(1%) |
Wenxuecity.com |
中国大陆(36%) |
美国(34.4%) |
加拿大(9.3%) |
除了文学城,其他网站访问分布是按照地域分布的。说明Alexa的统计方法是准确的。谷歌、油管和脸书也都是被防火墙封锁的,显然来自大陆的流量明显减少(google.com来自大陆的访问量占3.3%,youtube.com 来自大陆的访问量占3.7%)。
如果来自于大陆的文学城的访问者是翻墙的,这个翻墙量有点儿大。而且翻墙是通过VPN,IP包头已经转换到境外网址了,根据IP地址的统计应该是看不到的。就算Alexa的统计包括了翻墙的流量,这个流量也远远大于同样需要翻墙的谷歌、油管和脸书。
另外,由于中国和美国存在日夜颠倒的时差,如果主要的流量来源于大陆,文学城的峰值访问流量应该是在夜间,但实际上是相反。除非这些大陆访问客都在夜间值班。
难道是大陆的水军来了?怪不得这儿的小粉红有点儿多。
后续Followup:
得到文学城论坛管理的答复:http://bbs.wenxuecity.com/mychina/995405.html
“Alexa不准确! 我们技术部有自己的tracking数据,同时也安装了google analytics,对比起来alexa的数据是天方夜谭,另外我们也问过广告部同事,他们回复的是因为Alexa分析自身的缺陷,业界早就不用alexa看了。”建议用SimilarWeb.com “虽然免费公开的部分数据没有那么全面,但是要看读者分布比例是足够了。跟我们用Google Analytics得到的数据相近 ,来自中国的流量肯定是有的,但绝对不是最大一部分流量。”
similarweb的结果是美国占60.8,加拿大占18.5%而中国占9.26%。
争论的重点是一,Alexa是否权威,为业界采用。二,Alexa的用户分布统计是否准确。
用Website Rank Analysis在Google搜索,最先给出的仍是alexa。similarweb要在第2页才能看到,显然Google 认为Alexa更权威。大多数用户会使用google的link。 以下来自维基对Alexa的评价。
“Alexa每天在网上搜集超过1,000GB的信息,然后进行集成发布,当前其搜集的URL数量已经超过了Google。Alexa网站排名的计算是以网站的每天平均使用人数、人均访问页面数(与人数和人均页数之乘积成正比)、与其他网站的链接或曝光数、网民所留言讨论的消息篇数等信息为基础,并以比重不明的加权平均数来排名。而正式名次是基于最近三个月之内数据的平均值。除全世界网站排名之外,Alexa网站亦提供各种语言、地区、主题的分类排名。
Alexa网站排名主要根据Internet Explorer、Firefox和Google Chrome提供的流量数据来排名,因此,使用它的人数是否能代表一般网络用户具有争议。此外,排名是根据最近三个月数据的总和来排行,因此要等很久才会有显著的变化。Alexa也承认排名中几项不准确信息的可能性,包括使用量较小的网站很难准确估量,主要被非IE用户使用的网站,以及某些同域的二级域名网站等。但由于Alexa的取样数量相当大,且参考依据为现今网络世界的主流浏览器,因此一般仍被最广泛用于评估网站的受欢迎度。”
2009年3月31日,Alexa重新设计了其网站,并提供了新的网络流量指针,目的是为了与其他网络分析网站竞争,如Quantcast和Compete.com。
综上所述:Alexa还仍然是一个被公认的网站排名的权威机构。其准确性存在着争议。主要集中在排名的准确性和及时性。Alexa也在改进其方法。但是对用户的地域分布的准确性还没看见到有质疑。
那么为什么Alexa和Similarweb在访问者的地域分布上分歧比较大呢。这主要是由于中国的防火墙。一般中国用户访问文学城必须翻墙使用VPN。Similarweb可能根据IP地址来定位访问者的国家。但是由于VPN代理服务器对IP包重新封装,在网站上看到的翻墙访问者的IP地址都在中国境外,所以Similarweb的中国数据只统计了那些不翻墙的走后门通道的访问者。根据https://stackoverflow.com/questions/6937372/how-alexa-can-find-out-my-country-if-im-using-proxy和维基的描述,ALexa不是根据IP地址来确定访问者的国家,而是通过用户的工具栏或其他客户端插件收集大量数据。包括用户的真正IP地址和其他归属信息。当一个用户click文学城的网页时,一些插件或者 Cookies(JavaScript代码)将会随着网页被下载到客户端。将从工具栏和其他客户端插件收集到的用户行为发送到Alexa统计网站。所以Alexa的统计更接近真实,比单纯看IP地址更准确。因为Alexa的数据包括了翻墙者和不需翻墙的用户(你知道他们是谁)的总和。那么Similarweb的中国分布数据就是那些来自中国的直接用户。为了验证这个推断,又分别查看了用Alexa和Similarweb对aa.com和oracle.com的统计。因为这两个网站不用翻墙,Alexa和Similarweb的结果相当一致。说明以上推断是正确的。
于是我们可推出有27%的翻墙的间接用户和9.26%的直接用户。这些直接用户包括水军和一小部分国外手机用户。低于9.26%的水军可能是更准确的猜测,也代表了这里的真实感受。毕竟36%的水军太庞大了,难以想象,也没必要。由于这个占比是时间占比而且水军都是在持续工作,而不是间断性的娱乐型,水军的实际人数应该低于9.26%。