avatar
关于考会计cpa# Accounting - 会计审计
W*n
1
信息自由?---借不到一本书
王利民
2013年5月31
在吹捧“中国特色的社会主义”人中,一定缺不了被一些人吹捧为“中国人民的老朋友
”亨利 基辛格 (Henry Kissinger)。基辛格确实是个很厉害的政治家。我想拜读一
本名为《对亨利 基辛格的审判》(The Trial of Henry Kissinger),去了解一个美
国作者眼里对基辛格言行的评价,我在美国图书馆查得到,却索要不了,借不到,很是
遗憾。
avatar
w*g
2
这年头女人挣钱比男人多的确实有的是,而且女人的家境比男人好的也有的是,所以有
不少女人是嫁给了一个经济条件不如自己的男人。
有些女人确实不懂事,经常拿着自己的老公跟别人家的老公比较,这样子的行为我也觉
得不妥,伤不伤自尊的先不说,这没有可比性的,每个人都有自己独有的情况,每个人
都活的不一样,不可能这么去比较。
当然也有的男人确实没有上进心,明明就是不如自己老婆赚钱多,也不努力一点点,自
己挣得不够自己花,还要老婆贴钱养着,这样的情况应该有的是。
如果是个很懂事的女人,从来不在自己的老公面前抱怨他挣钱少,也不拿着自己的老公
去比较赚钱多的别人家的老公,那么这个男人会不会领情呢?这才是关键。别到时候女
人本来就辛辛苦苦的赚钱养活一家子,还不抱怨男人赚钱少,男人再不领情,觉得是应
该的,那这样的话就没意思了,感觉这样的女人就太可怜了,没有遇到好男人,甚至可
以考虑要不要离婚了。
假如男人是领情的,知道女人对自己很宽容很好,用行动来回报女人,那还行。
avatar
k*8
3
夏初两相识,
秋来情恨迟,
冬至相泣涕,
春了悦还痴。
avatar
x*n
4
最近看抱怨版讨论雀版的小圈子,想起以前足球也搞过类似的事情,突然想到,可以搞
一个研究来科学地总结买买提的小圈子现象。
方法:
分析买买提所有的帖子,两个ID在同一个帖子里灌水的加一分,互相回对方的贴的再加
一分,最后取总分的倒数作为两个ID间的距离,用clustering算法可以很方便地找出小
圈子来,甚至还可以搞个plotting工具画出示意图。不过对于隐藏的俱乐部就无能为力
了。
三个问题:
1. 这个研究是不是已经有人做过了?
2. 我给的这个算法是否科学合理?是否有更好的算法?
3. 如果干的话,有没有人给房顶?
avatar
h*i
5
指定一个空闲的端口,比如50000,bind后发现系统给分配了2xxxx 的端口,用sudo执
行也不行,这是为什么?
avatar
f*3
6
这里人气旺,貌似有很多同行。请问读书期间考cpa,是不是大家都是学一科考一科的
?比如学了中会就考far,如果还有些学科没学,比如审计,能考过吗?
avatar
w*g
7
男人如果自觉点,其实女人不会太较真的
avatar
g*1
8
我给房顶

【在 x******n 的大作中提到】
: 最近看抱怨版讨论雀版的小圈子,想起以前足球也搞过类似的事情,突然想到,可以搞
: 一个研究来科学地总结买买提的小圈子现象。
: 方法:
: 分析买买提所有的帖子,两个ID在同一个帖子里灌水的加一分,互相回对方的贴的再加
: 一分,最后取总分的倒数作为两个ID间的距离,用clustering算法可以很方便地找出小
: 圈子来,甚至还可以搞个plotting工具画出示意图。不过对于隐藏的俱乐部就无能为力
: 了。
: 三个问题:
: 1. 这个研究是不是已经有人做过了?
: 2. 我给的这个算法是否科学合理?是否有更好的算法?

avatar
X*r
9
你把绑定的端口和连接的端口搞混了吧?2xxxx是不是连接的端口?

【在 h**i 的大作中提到】
: 指定一个空闲的端口,比如50000,bind后发现系统给分配了2xxxx 的端口,用sudo执
: 行也不行,这是为什么?

avatar
b*e
10
可能大家都希望可以这样,可惜不行。考CPA有学分要求,一般是150个,其中必须有一
定数量的会计学分和商科学分,一般毕业之前达不到学分要求,所以不能在毕业之前考
avatar
j*3
11
也可能是仇人对骂。但是朋友的应该居多。
我出20个包子。

【在 x******n 的大作中提到】
: 最近看抱怨版讨论雀版的小圈子,想起以前足球也搞过类似的事情,突然想到,可以搞
: 一个研究来科学地总结买买提的小圈子现象。
: 方法:
: 分析买买提所有的帖子,两个ID在同一个帖子里灌水的加一分,互相回对方的贴的再加
: 一分,最后取总分的倒数作为两个ID间的距离,用clustering算法可以很方便地找出小
: 圈子来,甚至还可以搞个plotting工具画出示意图。不过对于隐藏的俱乐部就无能为力
: 了。
: 三个问题:
: 1. 这个研究是不是已经有人做过了?
: 2. 我给的这个算法是否科学合理?是否有更好的算法?

avatar
h*i
12
绑定后应该可以用netstat看到监听的端口,根本不是指定的端口。
client都连不上,没有连接的端口。

【在 X****r 的大作中提到】
: 你把绑定的端口和连接的端口搞混了吧?2xxxx是不是连接的端口?
avatar
A*s
13
zan
看了半天没懂啥叫房顶,哈哈

【在 x******n 的大作中提到】
: 最近看抱怨版讨论雀版的小圈子,想起以前足球也搞过类似的事情,突然想到,可以搞
: 一个研究来科学地总结买买提的小圈子现象。
: 方法:
: 分析买买提所有的帖子,两个ID在同一个帖子里灌水的加一分,互相回对方的贴的再加
: 一分,最后取总分的倒数作为两个ID间的距离,用clustering算法可以很方便地找出小
: 圈子来,甚至还可以搞个plotting工具画出示意图。不过对于隐藏的俱乐部就无能为力
: 了。
: 三个问题:
: 1. 这个研究是不是已经有人做过了?
: 2. 我给的这个算法是否科学合理?是否有更好的算法?

avatar
t*t
14
那你是怎么绑定的呢? 拿code出来看看吧.

【在 h**i 的大作中提到】
: 绑定后应该可以用netstat看到监听的端口,根本不是指定的端口。
: client都连不上,没有连接的端口。

avatar
c*d
15
funding

【在 A*******s 的大作中提到】
: zan
: 看了半天没懂啥叫房顶,哈哈

avatar
X*r
16
你用了netstat -l了吗?缺省不显示监听的端口。
还有一个可能是你指定端口的时候没有转换高低字节,
50000->0x50C3, 0xC350->20675
man htons

【在 h**i 的大作中提到】
: 绑定后应该可以用netstat看到监听的端口,根本不是指定的端口。
: client都连不上,没有连接的端口。

avatar
s*g
17
找老邢要数据库
avatar
t*t
18
哈哈, 肯定是没转换...

【在 X****r 的大作中提到】
: 你用了netstat -l了吗?缺省不显示监听的端口。
: 还有一个可能是你指定端口的时候没有转换高低字节,
: 50000->0x50C3, 0xC350->20675
: man htons

avatar
d*9
19
这样容易把对立方算成小圈子。
avatar
h*i
20
用 netstat -anp查看的
if((listenfd=socket(AF_INET,SOCK_STREAM, 0)) == -1)
{
fprintf(stderr, "Socket Error: %s\a\n", strerror(errno));

exit(1);
}
on = 1;
ret = setsockopt(listenfd, SOL_SOCKET, SO_REUSEADDR, &on, sizeof(on));

bzero((void*)&server_addr, sizeof(server_addr));
server_addr.sin_family=AF_INET;
server_addr.sin_port=htonl(9000);
server_addr.sin_addr.s_addr=htonl(INADDR_ANY);

if(bind(listenfd, (struct sockaddr *)(&server_addr), sizeof(struct
sockaddr)) == -1)
{
fprintf(stdout, "%s:%d Bind error: %s\n\a", __FILE__, __LINE__,
strerror(errno));
exit(1);
}
if(listen(listenfd, 20)== -1)
{
fprintf(stdout, "Listen error: %s\n\a", strerror(errno));
exit(1);
}

【在 X****r 的大作中提到】
: 你用了netstat -l了吗?缺省不显示监听的端口。
: 还有一个可能是你指定端口的时候没有转换高低字节,
: 50000->0x50C3, 0xC350->20675
: man htons

avatar
A*e
21
马甲也是小圈子了?

【在 A*******s 的大作中提到】
: zan
: 看了半天没懂啥叫房顶,哈哈

avatar
j*a
22
server_addr.sin_port=htons(9000);



【在 h**i 的大作中提到】
: 用 netstat -anp查看的
: if((listenfd=socket(AF_INET,SOCK_STREAM, 0)) == -1)
: {
: fprintf(stderr, "Socket Error: %s\a\n", strerror(errno));
:
: exit(1);
: }
: on = 1;
: ret = setsockopt(listenfd, SOL_SOCKET, SO_REUSEADDR, &on, sizeof(on));
:

avatar
A*s
23
据说真正的两个马家不应该有交互性的热烈交谈
比如,就像我跟kx那样,互相只是偶尔tx一下,对方都不咋回应。
满地打滚儿ing...

【在 A****e 的大作中提到】
: 马甲也是小圈子了?
avatar
h*i
24
发现了,数据类型错了,我以为端口可以用到32位。
谢谢各位。

【在 j*a 的大作中提到】
: server_addr.sin_port=htons(9000);
:
:

avatar
r*y
25
“交互性的热烈交谈”

【在 A*******s 的大作中提到】
: 据说真正的两个马家不应该有交互性的热烈交谈
: 比如,就像我跟kx那样,互相只是偶尔tx一下,对方都不咋回应。
: 满地打滚儿ing...

avatar
M*t
26
confused ?
struct sockaddr_in {
short sin_family; // e.g. AF_INET, AF_INET6
unsigned short sin_port; // e.g. htons(3490)
struct in_addr sin_addr; // see struct in_addr, below
char sin_zero[8]; // zero this if you want to
};
unsigned short is 16 bit so port number should be
0~65535
9000 is a good number to use呀 ?

【在 h**i 的大作中提到】
: 发现了,数据类型错了,我以为端口可以用到32位。
: 谢谢各位。

avatar
A*s
27
飞踹~~~

【在 r****y 的大作中提到】
: “交互性的热烈交谈”
avatar
r*y
28
你说你八个字里就出现两个交字,频率达到25%
还不如说:不盖棉被就是马甲

【在 A*******s 的大作中提到】
: 飞踹~~~
avatar
A*s
29
思想怎么能龌龊讷?谈谈你堕落的心路历程把

【在 r****y 的大作中提到】
: 你说你八个字里就出现两个交字,频率达到25%
: 还不如说:不盖棉被就是马甲

avatar
r*y
30
三八节谈这个,太不合时宜了。。。

【在 A*******s 的大作中提到】
: 思想怎么能龌龊讷?谈谈你堕落的心路历程把
avatar
A*e
31
这一下就给人看出来是马甲了。要像我们这样,热烈的打情骂俏,偶尔的说一句咱们互
为马甲,这样真真假假,假假真真,才让人看不出是怎么回事。

【在 A*******s 的大作中提到】
: 据说真正的两个马家不应该有交互性的热烈交谈
: 比如,就像我跟kx那样,互相只是偶尔tx一下,对方都不咋回应。
: 满地打滚儿ing...

avatar
x*n
32
程序完成。
等下夜深人静的时候开始试运行。
恩。

【在 x******n 的大作中提到】
: 最近看抱怨版讨论雀版的小圈子,想起以前足球也搞过类似的事情,突然想到,可以搞
: 一个研究来科学地总结买买提的小圈子现象。
: 方法:
: 分析买买提所有的帖子,两个ID在同一个帖子里灌水的加一分,互相回对方的贴的再加
: 一分,最后取总分的倒数作为两个ID间的距离,用clustering算法可以很方便地找出小
: 圈子来,甚至还可以搞个plotting工具画出示意图。不过对于隐藏的俱乐部就无能为力
: 了。
: 三个问题:
: 1. 这个研究是不是已经有人做过了?
: 2. 我给的这个算法是否科学合理?是否有更好的算法?

avatar
A*e
33
你是算机大拿

以搞
再加
出小
为力

【在 x******n 的大作中提到】
: 程序完成。
: 等下夜深人静的时候开始试运行。
: 恩。

avatar
c*q
34
学术帖...支持~
avatar
e*n
35
有结果了么?
avatar
A*s
36
科学探索不是一天两天的事

【在 e*****n 的大作中提到】
: 有结果了么?
avatar
x*n
37
米这快,帖子太多了,一一分析要好久呢

【在 e*****n 的大作中提到】
: 有结果了么?
avatar
kx
38
好吧
我来热烈回应啦

【在 A*******s 的大作中提到】
: 据说真正的两个马家不应该有交互性的热烈交谈
: 比如,就像我跟kx那样,互相只是偶尔tx一下,对方都不咋回应。
: 满地打滚儿ing...

avatar
A*e
39
经常骂战的也算一个圈子的?

【在 x******n 的大作中提到】
: 最近看抱怨版讨论雀版的小圈子,想起以前足球也搞过类似的事情,突然想到,可以搞
: 一个研究来科学地总结买买提的小圈子现象。
: 方法:
: 分析买买提所有的帖子,两个ID在同一个帖子里灌水的加一分,互相回对方的贴的再加
: 一分,最后取总分的倒数作为两个ID间的距离,用clustering算法可以很方便地找出小
: 圈子来,甚至还可以搞个plotting工具画出示意图。不过对于隐藏的俱乐部就无能为力
: 了。
: 三个问题:
: 1. 这个研究是不是已经有人做过了?
: 2. 我给的这个算法是否科学合理?是否有更好的算法?

avatar
x*n
40
应该不多吧,实在不行手工剔除掉。。

【在 A*******e 的大作中提到】
: 经常骂战的也算一个圈子的?
avatar
A*s
41
马甲你好!
好久不见,穿梭还顺利么?

【在 kx 的大作中提到】
: 好吧
: 我来热烈回应啦

avatar
d*9
42
keyword search一下也行。

【在 x******n 的大作中提到】
: 应该不多吧,实在不行手工剔除掉。。
avatar
x*n
43
search什么keyword?

【在 d*****9 的大作中提到】
: keyword search一下也行。
avatar
m*g
44
别search了。 其实经常在一起吵架也算一个圈子的

【在 x******n 的大作中提到】
: search什么keyword?
avatar
x*n
45
对了,先谢谢提供房顶。
拿了钱要报告一下进度,前两天拿几个我熟悉的版试运行了一下,刚刚开始正式运行,
正在扫八区的版面。
如果有先扫哪些版面的建议欢迎提出。

【在 d*****9 的大作中提到】
: keyword search一下也行。
avatar
m*g
46
哦。 你需要的是伪币funding?
你每天来这报告进度两次, 我就提供1000伪币funding(总共,不是每天)。

【在 x******n 的大作中提到】
: 对了,先谢谢提供房顶。
: 拿了钱要报告一下进度,前两天拿几个我熟悉的版试运行了一下,刚刚开始正式运行,
: 正在扫八区的版面。
: 如果有先扫哪些版面的建议欢迎提出。

avatar
x*n
47
是啊,难道还能拿到美刀房顶?
进度不会很快啊,帖子太多了,一天只能搞大概10万贴,扫一遍估计起码要大半个月。

【在 m*********g 的大作中提到】
: 哦。 你需要的是伪币funding?
: 你每天来这报告进度两次, 我就提供1000伪币funding(总共,不是每天)。

avatar
r*y
48
搞个云计算什么的。。。

【在 x******n 的大作中提到】
: 是啊,难道还能拿到美刀房顶?
: 进度不会很快啊,帖子太多了,一天只能搞大概10万贴,扫一遍估计起码要大半个月。

avatar
m*g
49
能不能顺带找找马甲

【在 x******n 的大作中提到】
: 是啊,难道还能拿到美刀房顶?
: 进度不会很快啊,帖子太多了,一天只能搞大概10万贴,扫一遍估计起码要大半个月。

avatar
x*n
50
可以试试.
目前我统计的数据项有如下几项:
设某时段两个ID A和B共同灌水的主题有Cab个,A回复B的帖子Rab个,B回复A的帖子Rba
个,A总共发贴Ta个,B总共发贴Tb个
具体怎么使用这些数据可以讨论。

【在 m*********g 的大作中提到】
: 能不能顺带找找马甲
avatar
x*n
51
谢谢提供房顶

【在 m*********g 的大作中提到】
: 能不能顺带找找马甲
avatar
m*g
52
这些数据找马甲肯定差得多
最好能比较(id A 和 B)ip地址,发帖时段和版面, 还有跟同一个人id C搭话的频率

Rba

【在 x******n 的大作中提到】
: 可以试试.
: 目前我统计的数据项有如下几项:
: 设某时段两个ID A和B共同灌水的主题有Cab个,A回复B的帖子Rab个,B回复A的帖子Rba
: 个,A总共发贴Ta个,B总共发贴Tb个
: 具体怎么使用这些数据可以讨论。

avatar
x*n
53
恩,我考虑下怎么把这些都统计进去。

【在 m*********g 的大作中提到】
: 这些数据找马甲肯定差得多
: 最好能比较(id A 和 B)ip地址,发帖时段和版面, 还有跟同一个人id C搭话的频率
:
: Rba

avatar
m*g
54
还有id的口头禅也可以设法统计一下

频率

【在 x******n 的大作中提到】
: 恩,我考虑下怎么把这些都统计进去。
avatar
x*n
55
。。。这个难度太大了

【在 m*********g 的大作中提到】
: 还有id的口头禅也可以设法统计一下
:
: 频率

avatar
m*g
56
哈哈

【在 x******n 的大作中提到】
: 。。。这个难度太大了
avatar
r*y
57
口头禅:哈哈,次数:+1

【在 m*********g 的大作中提到】
: 哈哈
avatar
x*n
58
你说的太深奥了,我还没看完,不过我发现自己回自己贴的也值得统计一下,我现在是
忽略掉了,哈哈,至少做个这个排名也蛮有意思的。
avatar
b*l
59
你把数据发我一份吧。需要的基本信息是:
id,发帖时间,所回帖子的 id 及时间(首贴则定义为所回 id 名为 ini,时间同于回
帖时间),版名。一共五个值。
可以先从某个版面开始,一个版面的数据就够 prototyping 用了。等到方法 develop
得比较可靠了,再对各版数据做 data mining。
另一个问题就是删贴,合集(目前的合集方法经常看不出谁回谁的贴),清水,不知道
你考虑过没有?

它的
一类
当然
,筛
对所
id 回

【在 x******n 的大作中提到】
: 你说的太深奥了,我还没看完,不过我发现自己回自己贴的也值得统计一下,我现在是
: 忽略掉了,哈哈,至少做个这个排名也蛮有意思的。

avatar
d*9
60
谢update。

【在 x******n 的大作中提到】
: 你说的太深奥了,我还没看完,不过我发现自己回自己贴的也值得统计一下,我现在是
: 忽略掉了,哈哈,至少做个这个排名也蛮有意思的。

avatar
x*n
61
你要时间干什么?我目前只统计每个id每时段的发帖数(2小时一个时段),用来判断马
甲。
目前合集不分析,删贴清水我也没辙,不过等历史数据搞下来以后就可以每天下当天的
数据,那这个问题应该不严重了。

develop

【在 b******l 的大作中提到】
: 你把数据发我一份吧。需要的基本信息是:
: id,发帖时间,所回帖子的 id 及时间(首贴则定义为所回 id 名为 ini,时间同于回
: 帖时间),版名。一共五个值。
: 可以先从某个版面开始,一个版面的数据就够 prototyping 用了。等到方法 develop
: 得比较可靠了,再对各版数据做 data mining。
: 另一个问题就是删贴,合集(目前的合集方法经常看不出谁回谁的贴),清水,不知道
: 你考虑过没有?
:
: 它的
: 一类

avatar
b*l
62
时间数据很 critical 啊,dynamics 相当重要,而且以后可以做很多文章的。比如说
可以做出链图来。
反正呢,你就统计上吧。对了,要是统计时能把主题也标记上更好。
其实我想过跟老邢合作分析这个的,正二八经可以出 paper 的东西。

断马
于回
知道

【在 x******n 的大作中提到】
: 你要时间干什么?我目前只统计每个id每时段的发帖数(2小时一个时段),用来判断马
: 甲。
: 目前合集不分析,删贴清水我也没辙,不过等历史数据搞下来以后就可以每天下当天的
: 数据,那这个问题应该不严重了。
:
: develop

avatar
d*9
63
我建议第一步先搞个database。把所有的信息parse后先存起来。以后怎么分析都行。
data mining应该可以用得上。

断马

【在 x******n 的大作中提到】
: 你要时间干什么?我目前只统计每个id每时段的发帖数(2小时一个时段),用来判断马
: 甲。
: 目前合集不分析,删贴清水我也没辙,不过等历史数据搞下来以后就可以每天下当天的
: 数据,那这个问题应该不严重了。
:
: develop

avatar
b*l
64
还有哈,阶段性换马甲的那种,只要你记录了时间信息,马甲的识别很容易的。
嗯,还可以看一个人的兴趣和交际随时间是怎么变化的。更可以看出 id 成长和衰老有
没有共同的 patterns。

断马
于回
知道

【在 x******n 的大作中提到】
: 你要时间干什么?我目前只统计每个id每时段的发帖数(2小时一个时段),用来判断马
: 甲。
: 目前合集不分析,删贴清水我也没辙,不过等历史数据搞下来以后就可以每天下当天的
: 数据,那这个问题应该不严重了。
:
: develop

avatar
m*g
65
很烦这种白话能说明白还非要用术语的帖子

它的
一类
当然
,筛
对所
id 回
同样
向的
圈子
扑简
等。
系密
(
negative)

【在 b******l 的大作中提到】
: 还有哈,阶段性换马甲的那种,只要你记录了时间信息,马甲的识别很容易的。
: 嗯,还可以看一个人的兴趣和交际随时间是怎么变化的。更可以看出 id 成长和衰老有
: 没有共同的 patterns。
:
: 断马
: 于回
: 知道

avatar
b*l
66
这个是肯定的。但是初步的数据尚不需要 database。事实上,做 methodology 的时候
,回避 database 可能更方便些。。。就我的经验哈。
如果可以实时统计,那做个 database,每天或者每个小时 append 一下,过一段时间
,就可以切一块下来做 data warehouse 了。
对了对了,要标记上 bm/bf 的 id,这个可以用来 clean data,更重要的是,可以用
来分析很多有趣的现象。

天的

【在 d*****9 的大作中提到】
: 我建议第一步先搞个database。把所有的信息parse后先存起来。以后怎么分析都行。
: data mining应该可以用得上。
:
: 断马

avatar
f*d
67
我记得好像有人研究过类似的,跟你的不完全一样。其中一个结论是小将特别扎堆,只
跟自己人聊。
avatar
x*n
68
哦,我这个主要是为算小圈子和马甲设计的,所以只统计了相应要用的数据,譬如只统
计A回了B多少次,B回了A多少次,而不是每次分别记录的。如果只是分别记录那分析起
来就慢了,不能实时给出结果。解决办法只好两种都记。

【在 d*****9 的大作中提到】
: 我建议第一步先搞个database。把所有的信息parse后先存起来。以后怎么分析都行。
: data mining应该可以用得上。
:
: 断马

avatar
b*l
69
我说得还不够白话么?撞墙。。。
仔细看了几遍。。。牵涉到术语的地方,那是因为要用到术语背后的 context,同行一
看就知道背后的数学工具和可能的模型。。。毕竟盼望有三两个同行能感兴趣。。。


于某
版是
可能
动的
control
中。
ID。
还。

【在 m*********g 的大作中提到】
: 很烦这种白话能说明白还非要用术语的帖子
:
: 它的
: 一类
: 当然
: ,筛
: 对所
: id 回
: 同样
: 向的

avatar
b*l
70
要 raw data 啊,数据分析和数据收集要分开啊。。。

行。

【在 x******n 的大作中提到】
: 哦,我这个主要是为算小圈子和马甲设计的,所以只统计了相应要用的数据,譬如只统
: 计A回了B多少次,B回了A多少次,而不是每次分别记录的。如果只是分别记录那分析起
: 来就慢了,不能实时给出结果。解决办法只好两种都记。

avatar
x*n
71
umich的那个?哈哈。
那个比较傻啊,居然说不能统计谁回的是谁的贴,明明可以的。

【在 f**d 的大作中提到】
: 我记得好像有人研究过类似的,跟你的不完全一样。其中一个结论是小将特别扎堆,只
: 跟自己人聊。

avatar
d*9
72
这样节省parsing时间。没有必要每次重新parse 那些posts。
比如: 对于一个given id,口头禅的确定可以选短posts和长posts的前,比如说20个字
做pattern search来寻找。
等等。

【在 b******l 的大作中提到】
: 这个是肯定的。但是初步的数据尚不需要 database。事实上,做 methodology 的时候
: ,回避 database 可能更方便些。。。就我的经验哈。
: 如果可以实时统计,那做个 database,每天或者每个小时 append 一下,过一段时间
: ,就可以切一块下来做 data warehouse 了。
: 对了对了,要标记上 bm/bf 的 id,这个可以用来 clean data,更重要的是,可以用
: 来分析很多有趣的现象。
:
: 天的

avatar
x*n
73
我本来只对几种特定的应用感兴趣啊,所以就放一起了。
呵呵,这个有点像学术界和业界的区别。
要收集你说的这也可以,另外记录就好了。
你要的是,对于每个主题,标题,然后对于主题里的每个帖子,发贴id,发贴时间,所
回帖发贴id如果存在,所回帖时间,就这些对吧。
每个贴的ip要不要?

【在 b******l 的大作中提到】
: 要 raw data 啊,数据分析和数据收集要分开啊。。。
:
: 行。

avatar
b*l
74
嗯,嗯,可以做的东西太多了。摩拳擦掌ing。。。
认真地说哈,到哪里申请个 funding 涅?我知道只要肯卖身,挺容易申请到的,比如
说跟 CIA 有关的那些基金。。。

时候
时间
以用

【在 d*****9 的大作中提到】
: 这样节省parsing时间。没有必要每次重新parse 那些posts。
: 比如: 对于一个given id,口头禅的确定可以选短posts和长posts的前,比如说20个字
: 做pattern search来寻找。
: 等等。

avatar
x*n
75
orz,你不是要去业界了么,还真拿这个make a living啊。。。

【在 b******l 的大作中提到】
: 嗯,嗯,可以做的东西太多了。摩拳擦掌ing。。。
: 认真地说哈,到哪里申请个 funding 涅?我知道只要肯卖身,挺容易申请到的,比如
: 说跟 CIA 有关的那些基金。。。
:
: 时候
: 时间
: 以用

avatar
b*l
76
ip 如果不麻烦的话,也可以要啊。
主题是个大问题:如何区分?貌似 bbs 的版面有特殊方法,每个主题都给一个 unique
id。这个 id 好像从网页的地址可以看到。毕竟有回帖改标题的现象,还挺多。
学术界的主要考量是:有没有把最关键的 raw data 都记录下来。反过来意思就是:会
不会以后某天在可能有所突破时,突然拍着大腿痛哭道:当时要是把那个信息记录下来
就好了。
你要是能搭个数据库,那就太好了,我们可以访问,抓数据下来。甚至可以开个 mail-
list/blog/wave 来专门玩儿这个,能攒个 multidisciplinary team 更好。
还可以做很多预测,更有趣的是,可以验证这些预测。
比如说,预测到,如果我们在某个话题(也就是说,可以触动那些小圈子)上挑拨某两
个关键 id,都有哪些 id 会跳出来,争执和纠纷会波及哪些版面,吵架的发展会如何
,会导致目前的这些小圈子如何演变。
另一个好玩的实验是:如果怀疑某两个 id 互为马甲,那么如何设计一系列帖子,分别
在某个时机发在某几个版上,看这两个 id 的反应,来证实或证伪之。
nnd,太好玩了,这个 top

【在 x******n 的大作中提到】
: 我本来只对几种特定的应用感兴趣啊,所以就放一起了。
: 呵呵,这个有点像学术界和业界的区别。
: 要收集你说的这也可以,另外记录就好了。
: 你要的是,对于每个主题,标题,然后对于主题里的每个帖子,发贴id,发贴时间,所
: 回帖发贴id如果存在,所回帖时间,就这些对吧。
: 每个贴的ip要不要?

avatar
b*l
77
还不知道啊。去业界也是打算以 research 为主啊。
再说了,这个东西,的确是能用来申请 funding 的啊,那为啥不搞点儿钱涅?更何况
只要申请到了 funding,拿出一点儿来给老邢,比如说 10k,你想要老邢怎么配合你收
集数据都成,多爽啊。

比如

【在 x******n 的大作中提到】
: orz,你不是要去业界了么,还真拿这个make a living啊。。。
avatar
d*9
78
你这个parse程序改改还可以用来抢包子。cron job每版的新posts,search for 包子。发现了还可以自动re挣包子。
额发财了。哈哈。

【在 x******n 的大作中提到】
: orz,你不是要去业界了么,还真拿这个make a living啊。。。
avatar
x*n
79
ip不麻烦,我已经在统计了
主题不是问题,web上有同主题模式,不怕你改标题。
帖子内容也可以记一点,就最多30个字吧。
这样应该差不多所有信息都有了。

unique
mail-

【在 b******l 的大作中提到】
: ip 如果不麻烦的话,也可以要啊。
: 主题是个大问题:如何区分?貌似 bbs 的版面有特殊方法,每个主题都给一个 unique
: id。这个 id 好像从网页的地址可以看到。毕竟有回帖改标题的现象,还挺多。
: 学术界的主要考量是:有没有把最关键的 raw data 都记录下来。反过来意思就是:会
: 不会以后某天在可能有所突破时,突然拍着大腿痛哭道:当时要是把那个信息记录下来
: 就好了。
: 你要是能搭个数据库,那就太好了,我们可以访问,抓数据下来。甚至可以开个 mail-
: list/blog/wave 来专门玩儿这个,能攒个 multidisciplinary team 更好。
: 还可以做很多预测,更有趣的是,可以验证这些预测。
: 比如说,预测到,如果我们在某个话题(也就是说,可以触动那些小圈子)上挑拨某两

avatar
x*n
80
这事我早干过了,然后被发现封号了。。

子。发现了还可以自动re挣包子。

【在 d*****9 的大作中提到】
: 你这个parse程序改改还可以用来抢包子。cron job每版的新posts,search for 包子。发现了还可以自动re挣包子。
: 额发财了。哈哈。

avatar
b*l
81
赞啊,赞啊。行动力太强大了。

:会
下来
某两

【在 x******n 的大作中提到】
: ip不麻烦,我已经在统计了
: 主题不是问题,web上有同主题模式,不怕你改标题。
: 帖子内容也可以记一点,就最多30个字吧。
: 这样应该差不多所有信息都有了。
:
: unique
: mail-

avatar
x*n
82
还好我是用的马甲,话说eos还是此事件的受害者。。

【在 x******n 的大作中提到】
: 这事我早干过了,然后被发现封号了。。
:
: 子。发现了还可以自动re挣包子。

avatar
kx
83
你不要假借这种话来撇清你和eos互为马甲的事实

【在 x******n 的大作中提到】
: 还好我是用的马甲,话说eos还是此事件的受害者。。
avatar
b*l
84
对了对了,我还有一个感兴趣的问题:歪楼。
没想好这个东西怎么做。大致就是:楼是怎么歪的,歪的路径是什么,是不是总是歪到
某几个话题上去。要是有好的办法来定量描述主题的变动,在空间内画出一条曲线来,
就好了。搞一堆这样的曲线,看看话题都是如何流动的,嗯。
再一个问题:水闸。
每一个高楼都有爆发和最后封顶的时候。为什么会突然就灌起来了。为什么会最后封顶
了。水闸是某些 id(有些 id 是天然水闸),还是某些回帖(比如说引向了索然无味
的话题),还是时间(比如说水车们睡觉了)。

【在 x******n 的大作中提到】
: 还好我是用的马甲,话说eos还是此事件的受害者。。
avatar
d*9
85
为什么会这样?每个包子贴回一个re都会被封? 那手动发re好了。一天能挣一会就已经
好了。
不过俺还是不相信会被封。如果每次cron job的时间是记下的,那下次cron job的时候
注意只search那些在那个时间后发的主题贴就行了。他们怎么能recognize那是自动程
序呢?

【在 x******n 的大作中提到】
: 还好我是用的马甲,话说eos还是此事件的受害者。。
avatar
x*n
86
你不要假借这种话来撇清你和我互为马甲的事实。

【在 kx 的大作中提到】
: 你不要假借这种话来撇清你和eos互为马甲的事实
avatar
b*l
87
可能程序有 bug,被识破了?
比如说,反复回同一个包子贴。。。

【在 d*****9 的大作中提到】
: 为什么会这样?每个包子贴回一个re都会被封? 那手动发re好了。一天能挣一会就已经
: 好了。
: 不过俺还是不相信会被封。如果每次cron job的时间是记下的,那下次cron job的时候
: 注意只search那些在那个时间后发的主题贴就行了。他们怎么能recognize那是自动程
: 序呢?

avatar
x*n
88
我那个是实时的,desktop app,不是cron job。
后来有人发现每个包子贴都有这个id,就怀疑上了是机器人。
然后有人发个陷阱贴,比如“骗机器人吃包子”,我的程序就上当了。
当时好像已经吃了有50个包子了。

【在 d*****9 的大作中提到】
: 为什么会这样?每个包子贴回一个re都会被封? 那手动发re好了。一天能挣一会就已经
: 好了。
: 不过俺还是不相信会被封。如果每次cron job的时间是记下的,那下次cron job的时候
: 注意只search那些在那个时间后发的主题贴就行了。他们怎么能recognize那是自动程
: 序呢?

avatar
x*n
89
主要我比较贪心,不是光一个版,是全站所有版的包子都去吃。。

【在 x******n 的大作中提到】
: 我那个是实时的,desktop app,不是cron job。
: 后来有人发现每个包子贴都有这个id,就怀疑上了是机器人。
: 然后有人发个陷阱贴,比如“骗机器人吃包子”,我的程序就上当了。
: 当时好像已经吃了有50个包子了。

avatar
d*9
90
记post的前200字吧。如果100,000post×400=40M,还好吧。

【在 x******n 的大作中提到】
: ip不麻烦,我已经在统计了
: 主题不是问题,web上有同主题模式,不怕你改标题。
: 帖子内容也可以记一点,就最多30个字吧。
: 这样应该差不多所有信息都有了。
:
: unique
: mail-

avatar
x*n
91
orz

【在 b******l 的大作中提到】
: 对了对了,我还有一个感兴趣的问题:歪楼。
: 没想好这个东西怎么做。大致就是:楼是怎么歪的,歪的路径是什么,是不是总是歪到
: 某几个话题上去。要是有好的办法来定量描述主题的变动,在空间内画出一条曲线来,
: 就好了。搞一堆这样的曲线,看看话题都是如何流动的,嗯。
: 再一个问题:水闸。
: 每一个高楼都有爆发和最后封顶的时候。为什么会突然就灌起来了。为什么会最后封顶
: 了。水闸是某些 id(有些 id 是天然水闸),还是某些回帖(比如说引向了索然无味
: 的话题),还是时间(比如说水车们睡觉了)。

avatar
x*n
92
那根全记也差不多了,每天40M可不少啊。。。

【在 d*****9 的大作中提到】
: 记post的前200字吧。如果100,000post×400=40M,还好吧。
avatar
m*g
93
那次太搞笑了

已经
时候
动程

【在 x******n 的大作中提到】
: 我那个是实时的,desktop app,不是cron job。
: 后来有人发现每个包子贴都有这个id,就怀疑上了是机器人。
: 然后有人发个陷阱贴,比如“骗机器人吃包子”,我的程序就上当了。
: 当时好像已经吃了有50个包子了。

avatar
d*9
94
哈哈。

【在 x******n 的大作中提到】
: 我那个是实时的,desktop app,不是cron job。
: 后来有人发现每个包子贴都有这个id,就怀疑上了是机器人。
: 然后有人发个陷阱贴,比如“骗机器人吃包子”,我的程序就上当了。
: 当时好像已经吃了有50个包子了。

avatar
kx
95
好吧
你把eos封了
我就承认你和我互为马甲
哦耶

【在 x******n 的大作中提到】
: 你不要假借这种话来撇清你和我互为马甲的事实。
avatar
b*l
96
哈哈,机器人的弱点就是这个啊。
所以开发机器人的时候,才需要引入 stochastic,来避免死锁啦,陷阱啦之类的。
最简单的,如果你的机器人随机只吃一半的包子,那就安全多了。

已经
时候
动程

【在 x******n 的大作中提到】
: 我那个是实时的,desktop app,不是cron job。
: 后来有人发现每个包子贴都有这个id,就怀疑上了是机器人。
: 然后有人发个陷阱贴,比如“骗机器人吃包子”,我的程序就上当了。
: 当时好像已经吃了有50个包子了。

avatar
d*9
97
那就搞个手动mode好了。 一天可能也就几次吧。还有用cron job。每半小时一次好了。

【在 x******n 的大作中提到】
: 主要我比较贪心,不是光一个版,是全站所有版的包子都去吃。。
avatar
x*n
98
后来搞了印钞机,就不把吃包子放眼里了。
不过现在吃包子又有了价值。。。

了。

【在 d*****9 的大作中提到】
: 那就搞个手动mode好了。 一天可能也就几次吧。还有用cron job。每半小时一次好了。
avatar
x*n
99
话说当年印钞票的时候还被流星举报到sysop去了,lol

【在 x******n 的大作中提到】
: 后来搞了印钞机,就不把吃包子放眼里了。
: 不过现在吃包子又有了价值。。。
:
: 了。

avatar
d*9
100
咋嫩的?印钞机。

【在 x******n 的大作中提到】
: 话说当年印钞票的时候还被流星举报到sysop去了,lol
avatar
m*g
101
你包子机器人的陷阱贴也是我和朝韩几个人搞的

【在 x******n 的大作中提到】
: 话说当年印钞票的时候还被流星举报到sysop去了,lol
avatar
x*n
102
恩,我知道

【在 m*********g 的大作中提到】
: 你包子机器人的陷阱贴也是我和朝韩几个人搞的
avatar
x*n
103
就是赚发贴的1分钱,有个bug,你发贴再自宫,版面的1分钱不扣。
当然我这个比较保守,如果野蛮一点的,用斑竹区段删,一贴就能赚2分钱了。

【在 d*****9 的大作中提到】
: 咋嫩的?印钞机。
avatar
d*9
104
这个比较不好,占用站方资源。包子的那个手动 mode应该没问题。一天一次的话一年
3650,两次的话7000。不得了啊。哈哈。

【在 x******n 的大作中提到】
: 就是赚发贴的1分钱,有个bug,你发贴再自宫,版面的1分钱不扣。
: 当然我这个比较保守,如果野蛮一点的,用斑竹区段删,一贴就能赚2分钱了。

avatar
x*n
105
不过话说,这几年发生了什么,韩朝好像已经死了。

【在 m*********g 的大作中提到】
: 你包子机器人的陷阱贴也是我和朝韩几个人搞的
avatar
x*n
106
OK,改完了,重新运行。。
现在对于每个帖子记录版面,发贴人,发贴时间,ip,同主题贴标题,这个贴在同主题
贴中的位置(几楼),如果是一个回复回的是哪一个贴,以及内容的前50个字。
不过话说,多记了一堆东西,运行的比以前慢了,不知道现在一天能搞几万贴,10万是
肯定没有了。

【在 x******n 的大作中提到】
: ip不麻烦,我已经在统计了
: 主题不是问题,web上有同主题模式,不怕你改标题。
: 帖子内容也可以记一点,就最多30个字吧。
: 这样应该差不多所有信息都有了。
:
: unique
: mail-

avatar
m*g
107
朝韩已经升级成公共版面, 所以从俱乐部区进不去了
不过公共版的朝韩现在也没啥人去了

【在 x******n 的大作中提到】
: 不过话说,这几年发生了什么,韩朝好像已经死了。
avatar
m*g
108
这些信息足够把小红狼的马甲全部找出来了

【在 x******n 的大作中提到】
: OK,改完了,重新运行。。
: 现在对于每个帖子记录版面,发贴人,发贴时间,ip,同主题贴标题,这个贴在同主题
: 贴中的位置(几楼),如果是一个回复回的是哪一个贴,以及内容的前50个字。
: 不过话说,多记了一堆东西,运行的比以前慢了,不知道现在一天能搞几万贴,10万是
: 肯定没有了。

avatar
b*g
109
这么轻易就能找出来的马甲,即便找到也没啥意思
有劲的马甲都不是这么能找到的

【在 m*********g 的大作中提到】
: 这些信息足够把小红狼的马甲全部找出来了
avatar
x*n
110
清除了一些bug,修正了一些有问题的设计思路,增强了一些错误处理,特别是多线操作
的情况。现在一条线一天大概能搞5-6万贴,可以多条线同时来,跟上进度是没有问题的
,就是最后数据库合并要费一点工夫。增强的错误处理使得可以每天cron job自动来,
不需要人工干预。
另外每贴改取内容的前200字,因为我发现空间就算买也还是很便宜的。

【在 x******n 的大作中提到】
: OK,改完了,重新运行。。
: 现在对于每个帖子记录版面,发贴人,发贴时间,ip,同主题贴标题,这个贴在同主题
: 贴中的位置(几楼),如果是一个回复回的是哪一个贴,以及内容的前50个字。
: 不过话说,多记了一堆东西,运行的比以前慢了,不知道现在一天能搞几万贴,10万是
: 肯定没有了。

avatar
A*e
111
什么时候公布结果?

操作
题的
主题
万是

【在 x******n 的大作中提到】
: 清除了一些bug,修正了一些有问题的设计思路,增强了一些错误处理,特别是多线操作
: 的情况。现在一条线一天大概能搞5-6万贴,可以多条线同时来,跟上进度是没有问题的
: ,就是最后数据库合并要费一点工夫。增强的错误处理使得可以每天cron job自动来,
: 不需要人工干预。
: 另外每贴改取内容的前200字,因为我发现空间就算买也还是很便宜的。

avatar
x*n
112
不要急,收集数据要好长时间呢。

【在 A*******e 的大作中提到】
: 什么时候公布结果?
:
: 操作
: 题的
: 主题
: 万是

avatar
A*e
113
一个月够不够?

【在 x******n 的大作中提到】
: 不要急,收集数据要好长时间呢。
avatar
x*n
114
初步结果应该够了

【在 A*******e 的大作中提到】
: 一个月够不够?
avatar
A*e
115
要在0区公布么?

【在 x******n 的大作中提到】
: 初步结果应该够了
avatar
x*n
116
我考虑直接做个网站公布。。

【在 A*******e 的大作中提到】
: 要在0区公布么?
avatar
A*e
117
网址公布在0区?

【在 x******n 的大作中提到】
: 我考虑直接做个网站公布。。
avatar
x*n
118


【在 A*******e 的大作中提到】
: 网址公布在0区?
avatar
A*s
119
一肚子坏水!

will
speak

【在 A*******e 的大作中提到】
: 网址公布在0区?
avatar
A*s
120
不是说本版一半都是她的马甲么?
还有人说,这个估计保守了,应该至少80%

主题
万是

【在 m*********g 的大作中提到】
: 这些信息足够把小红狼的马甲全部找出来了
avatar
A*s
121
不是每个版都有一只小鸡

【在 x******n 的大作中提到】
: 不过话说,这几年发生了什么,韩朝好像已经死了。
avatar
A*s
122
什么手动mode?
包子是灌水灌出来的灌汤包啊

【在 d*****9 的大作中提到】
: 这个比较不好,占用站方资源。包子的那个手动 mode应该没问题。一天一次的话一年
: 3650,两次的话7000。不得了啊。哈哈。

avatar
A*s
123
我考古看见了,哼唧

【在 m*********g 的大作中提到】
: 你包子机器人的陷阱贴也是我和朝韩几个人搞的
avatar
A*s
124
结果把窦娥给杀档了

【在 x******n 的大作中提到】
: 话说当年印钞票的时候还被流星举报到sysop去了,lol
avatar
A*s
125
人家说,为啥我在TrustinJesus只敢封你
就是因为你是我马甲

【在 kx 的大作中提到】
: 好吧
: 你把eos封了
: 我就承认你和我互为马甲
: 哦耶

avatar
A*s
126
哈哈,赞敬业

【在 x******n 的大作中提到】
: 我本来只对几种特定的应用感兴趣啊,所以就放一起了。
: 呵呵,这个有点像学术界和业界的区别。
: 要收集你说的这也可以,另外记录就好了。
: 你要的是,对于每个主题,标题,然后对于主题里的每个帖子,发贴id,发贴时间,所
: 回帖发贴id如果存在,所回帖时间,就这些对吧。
: 每个贴的ip要不要?

avatar
g*1
127
出了结果我就给500房顶

【在 x******n 的大作中提到】
: 初步结果应该够了
avatar
m*g
128
这个小红狼肯定是小时候丢手帕的游戏玩多了,受害不浅

10

【在 A*******s 的大作中提到】
: 不是说本版一半都是她的马甲么?
: 还有人说,这个估计保守了,应该至少80%
:
: 主题
: 万是

avatar
m*g
129
那些经常哈哈哈哈哈哈哈哈的人怎么算

【在 r****y 的大作中提到】
: 口头禅:哈哈,次数:+1
avatar
x*n
130
哈哈哈哈哈哈哈哈

【在 m*********g 的大作中提到】
: 那些经常哈哈哈哈哈哈哈哈的人怎么算
avatar
r*y
131
哈的长度不同,就是完全不同的口头禅
不是4个哈=1个禽兽嘛

【在 m*********g 的大作中提到】
: 那些经常哈哈哈哈哈哈哈哈的人怎么算
avatar
x*n
132
orz,那
踹飞~~~~

踹飞~~~~~
是不是同一个口头禅?

【在 r****y 的大作中提到】
: 哈的长度不同,就是完全不同的口头禅
: 不是4个哈=1个禽兽嘛

avatar
r*y
133
当然不同,就连是否全角都不同

【在 x******n 的大作中提到】
: orz,那
: 踹飞~~~~
: 和
: 踹飞~~~~~
: 是不是同一个口头禅?

avatar
p*e
134
圈子好找
马甲不好找
浅藏的马甲好找
藏的深的不好找

Rba

【在 x******n 的大作中提到】
: 可以试试.
: 目前我统计的数据项有如下几项:
: 设某时段两个ID A和B共同灌水的主题有Cab个,A回复B的帖子Rab个,B回复A的帖子Rba
: 个,A总共发贴Ta个,B总共发贴Tb个
: 具体怎么使用这些数据可以讨论。

avatar
x*n
135
那是啊,电脑哪能跟人斗智呢。。

【在 p**e 的大作中提到】
: 圈子好找
: 马甲不好找
: 浅藏的马甲好找
: 藏的深的不好找
:
: Rba

avatar
p*e
136
但是人可以跟人斗智~:P

【在 x******n 的大作中提到】
: 那是啊,电脑哪能跟人斗智呢。。
avatar
kx
137
咱这个交谈还是不够热烈啊

【在 A*******s 的大作中提到】
: 马甲你好!
: 好久不见,穿梭还顺利么?

avatar
g*1
138
我先答应个500的房顶

【在 x******n 的大作中提到】
: 对了,先谢谢提供房顶。
: 拿了钱要报告一下进度,前两天拿几个我熟悉的版试运行了一下,刚刚开始正式运行,
: 正在扫八区的版面。
: 如果有先扫哪些版面的建议欢迎提出。

avatar
g*1
139
可以统计标点符号频率,比如。。。,!

【在 x******n 的大作中提到】
: 。。。这个难度太大了
avatar
Z*l
140
跑进来一看一堆小圈子的在发贴回帖,原来是主语小圈子在研究,不是在研究小圈子宾语。飘走。

【在 x******n 的大作中提到】
: 最近看抱怨版讨论雀版的小圈子,想起以前足球也搞过类似的事情,突然想到,可以搞
: 一个研究来科学地总结买买提的小圈子现象。
: 方法:
: 分析买买提所有的帖子,两个ID在同一个帖子里灌水的加一分,互相回对方的贴的再加
: 一分,最后取总分的倒数作为两个ID间的距离,用clustering算法可以很方便地找出小
: 圈子来,甚至还可以搞个plotting工具画出示意图。不过对于隐藏的俱乐部就无能为力
: 了。
: 三个问题:
: 1. 这个研究是不是已经有人做过了?
: 2. 我给的这个算法是否科学合理?是否有更好的算法?

avatar
r*y
141
主语们
在吐泡泡
宾语们
在冒泡泡

宾语。飘走。

【在 Z*****l 的大作中提到】
: 跑进来一看一堆小圈子的在发贴回帖,原来是主语小圈子在研究,不是在研究小圈子宾语。飘走。
avatar
A*s
142
什么是马家特色?发贴时段要接近,但是不能重合?
那么足球班众多变态马家门肯定发现不了,他们都是马甲一起上,咔咔

【在 m*********g 的大作中提到】
: 这些数据找马甲肯定差得多
: 最好能比较(id A 和 B)ip地址,发帖时段和版面, 还有跟同一个人id C搭话的频率
:
: Rba

avatar
A*s
143
打滚起源是娜娜,锅盖起源是我偶像
但是现在都被别人发扬光大了。

【在 m*********g 的大作中提到】
: 还有id的口头禅也可以设法统计一下
:
: 频率

avatar
A*s
144
谁哈哈的时候,自己还会数?

【在 r****y 的大作中提到】
: 哈的长度不同,就是完全不同的口头禅
: 不是4个哈=1个禽兽嘛

avatar
x*n
145
再更新一下进度,代码已修改,这些都统计了,以前的数据都删了,重新运行中。

【在 x******n 的大作中提到】
: 恩,我考虑下怎么把这些都统计进去。
avatar
b*l
146
我想做这个已经很久了,呵呵。
最初始的粗糙分析,比如说可以做指向图。
开新贴,为 sink;最后一个回帖的,为 source;自回自贴的,为 self loop;其它的
,比如说 A 回 B 的贴,就标记为 A -> B。
然后就可以发现两种 global hub:一种是向外的,一种是向内的。也就是说,第一类
人,见贴就回;第二类人,赢得高回帖率。这两类人都是 bbs network 的 hub。当然
了,这两类人可以重叠,甚至经常重叠。
然后用 bayessian model 筛选出 local hub。也就是说,以所有 id 为 control,筛
选出两类针对某些 id 的 hub,比如说,第一类 hub 为:对于所研究的 id X,他对所
有 id 的回帖情况为 control,定义一个 threshold,就可以筛选出他针对哪些 id 回
帖更密集,此为向外指向的 hub;以所有 id 对他的帖子的回帖情况为 control,同样
方法可以找出第二类 hub,也就是集中回他贴的那些 id。分别标记为:
X => {A, B, C,...}; {O, P, A} => X。


【在 x******n 的大作中提到】
: 再更新一下进度,代码已修改,这些都统计了,以前的数据都删了,重新运行中。
avatar
b*l
147
然后把时间尺度和空间尺度分别加进来。空间尺度定义为版面,时间尺度定义为这个
network topology 的 dynamic change。后者可以做成动画。
以 network topology 为基础,可以进一步分析各版的内在联系,比如说哪些是属于某
个小圈子的(比如说 thoughts 版是 mean 人集中营,过去的棒子连也是),哪些版是
两个小圈子互相交流或碰撞的(8 区的老将小将,比如说 -- 靠,其实老将和小将可能
属于同一个小圈子)。这样,目光就可以透过一个个版面的表面阻隔,看清下面流动的
小圈子间的动态关系。

【在 b******l 的大作中提到】
: 我想做这个已经很久了,呵呵。
: 最初始的粗糙分析,比如说可以做指向图。
: 开新贴,为 sink;最后一个回帖的,为 source;自回自贴的,为 self loop;其它的
: ,比如说 A 回 B 的贴,就标记为 A -> B。
: 然后就可以发现两种 global hub:一种是向外的,一种是向内的。也就是说,第一类
: 人,见贴就回;第二类人,赢得高回帖率。这两类人都是 bbs network 的 hub。当然
: 了,这两类人可以重叠,甚至经常重叠。
: 然后用 bayessian model 筛选出 local hub。也就是说,以所有 id 为 control,筛
: 选出两类针对某些 id 的 hub,比如说,第一类 hub 为:对于所研究的 id X,他对所
: 有 id 的回帖情况为 control,定义一个 threshold,就可以筛选出他针对哪些 id 回

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。