Redian新闻
>
做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)
avatar
做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)# DataSciences - 数据科学
l*r
1
(sasa这么有文化的回帖搁在旧主题里太可惜了,我给他来开个新的,哈哈)
amazon那个也只是能看到几十页而已,不会太影响他家生意的。google books里面能看
到的多的多,你需要查书的片断可以去看一下,也许就有。不过还不是完整的书(虽然
有软件下,基本可以下到完整的书,但是还是很麻烦的)。要想要完整的书,网上还有
一个英文书pdf的资料库。我估计我没死以前,就会看到e-reader全面取代纸书的一天
,虽然现在技术还不完全成熟,现在样子的书店就会消失了。
harold bloom的思想是坚持一千个人有一千个harry potter吗?这倒是奇怪的,因为他
一直坚持西方的文学canon,编了著名的书籍清单,把他认为的西方文学的canon全部放
在里面(虽然也有几本梵语的书,当然这个梵文和古希腊文之间千丝万缕的联系,需要
问gesund)。上次看他的采访,他在耶鲁英文系被排挤,自己出来做了一个独立的
chair Professor(还在学校里),不从属于英文系下面了,因为后殖民的风潮起来,
英文系的都不买他的帐,认为西方的经典充满了压迫。你如果碰见他,可以和他聊一下
,他高龄了,
avatar
l*3
2
The cherry blossoms have bloomed beautifully this year. Now is the perfect
time to take engagement photos with us. Come in and find out what special
promotions we have. Hope to see you soon!
avatar
E*e
3
【 以下文字转载自 Statistics 讨论区 】
发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
标 题: 做credit risk scorecard的朋友们, 请进来, 有问题求教
发信站: BBS 未名空间站 (Mon Feb 8 22:08:57 2016, 美东)
我现在在一个小的私人公司做risk modeling才半年多。前半年觉得自己做得很不错。
可是现在越觉得有很多问题很疑惑,现在抛出来,请有经验的大侠指导。
公司是做loan lending的小公司,比较新, 积累的charge off 数据4000不到, 这个
跟大银行动辄一两个million 的数据不一样。 modeling的数据不是很好。我就不自爆
奇丑了,主要表现是training 和test的AUC差别很大, 有很大overfitting。
现在问题来了。假设数据分成三个部分,数据一是training, 数据二是test, 数据三
是holdout。holdout 类似于future data, 用来测试最后model 表现。所以这部分数
据只能在建模完后才拿出来。建模前是绝对不是偷看,防止数据“泄露”到modeling
过程。
我的主要问题是怎么预先选初始变量。我原先理解就是用数据一和二,初选个100左右
的变量,很多modeling的书谈到bivariate analysis,算pvalue, spearman
correlation,还有是么clustering,等等。然后用cross-validation 来测试modeling
过程。但是,如果读过statistcial learning的话,cross-validation是拒绝用数据
一和二来初选变量的。如果要初选,必须包括进每一次cross validation。原因是在
cross validation 前任何预选变量会导致bias, 就是数据会“leak”到建模过程里,
导致模型biased,overfitting。 就是training和testing 表现不错,但是用到
holdout 数据是,表现很差。 这一点在我的建模过程中似乎得到验证。
那么怎样预选变量呢。 要知道三大信用数据,再加上别的数据,那得有一千多的变量
。 当然可以code一个自动选变量的程序,把一千多个变量,用IV, pvalue,来扫一遍
,可以这怎么解决有些compound variable。 有些数据公司提供的whitepaper, guide
都建议选变量前看该变量同target variable 的关系,有强烈关系就选上,但这个跟
cross-validation有冲突。
读了那些credit scorecard 的书,感觉没有清楚的谈到这个问题(我的group lead极
度鄙视这些写书的人),不知是不是因为sample size的问题。 size 越大, 越能代表
population分布, 这样的话,用数据一和二来选初始变量“似乎”问题不大。
请教各位有经验的大侠,能不能探讨这个问题。你们在建模的时候,是怎么选出
unbiased变量的,最后一般有多少变量进model? 那些书一般建议7-15个。
avatar
l*r
4
sasa说纸书被替代我想到读书的时候我们讨论过信息发展的未来会是什么样子。
我当时说可能现在意义上的信息会消亡,新的信息以metadata的形式存在(i.e. data
about data)。更简洁,信息量更大,并且这种信息量是依赖于其他信息存在的,就像
一个reference。如果未来人脑像电脑一样能够存储足够大的信息,那么你传递什么信
息给我,给个reference就好了,不需要重新表达。比方你说t32bf9077,我领悟,啊,
春风又绿江南岸。当然这么搞没啥必要,还很没诗意。但是我认为这个可能性是存在的。
我还拿中国甲骨文举例子,那是过去的东西,却也是以简洁形式传递大量的信息。这很
有趣。人类信息的发展会不会是个轮回?从一种简洁到另一种简洁?
阅读器会是个趋势。我每次坐火车都看见城里的上班族用。但是这不是根本的改变,我
想讨论更远的可能。
我一个朋友看一本很烂的修仙书。太长了,滚鼠标滚到肌腱炎。我想现在真是信息爆炸
了,已经到了泛滥的地步。其实我们生活中不需要这么多信息的。这种局面会需要改变
。可是现在制造信息这么容易,谁来为我们删选信息呢?
还有,00代阅读习惯已经跟我们不同

【在 l****r 的大作中提到】
: (sasa这么有文化的回帖搁在旧主题里太可惜了,我给他来开个新的,哈哈)
: amazon那个也只是能看到几十页而已,不会太影响他家生意的。google books里面能看
: 到的多的多,你需要查书的片断可以去看一下,也许就有。不过还不是完整的书(虽然
: 有软件下,基本可以下到完整的书,但是还是很麻烦的)。要想要完整的书,网上还有
: 一个英文书pdf的资料库。我估计我没死以前,就会看到e-reader全面取代纸书的一天
: ,虽然现在技术还不完全成熟,现在样子的书店就会消失了。
: harold bloom的思想是坚持一千个人有一千个harry potter吗?这倒是奇怪的,因为他
: 一直坚持西方的文学canon,编了著名的书籍清单,把他认为的西方文学的canon全部放
: 在里面(虽然也有几本梵语的书,当然这个梵文和古希腊文之间千丝万缕的联系,需要
: 问gesund)。上次看他的采访,他在耶鲁英文系被排挤,自己出来做了一个独立的

avatar
E*e
5
转stackexchange一个讨论的帖子。
http://stats.stackexchange.com/questions/27750/feature-selectio



【在 E**********e 的大作中提到】
: 【 以下文字转载自 Statistics 讨论区 】
: 发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
: 标 题: 做credit risk scorecard的朋友们, 请进来, 有问题求教
: 发信站: BBS 未名空间站 (Mon Feb 8 22:08:57 2016, 美东)
: 我现在在一个小的私人公司做risk modeling才半年多。前半年觉得自己做得很不错。
: 可是现在越觉得有很多问题很疑惑,现在抛出来,请有经验的大侠指导。
: 公司是做loan lending的小公司,比较新, 积累的charge off 数据4000不到, 这个
: 跟大银行动辄一两个million 的数据不一样。 modeling的数据不是很好。我就不自爆
: 奇丑了,主要表现是training 和test的AUC差别很大, 有很大overfitting。
: 现在问题来了。假设数据分成三个部分,数据一是training, 数据二是test, 数据三

avatar
n*o
6
以后不用一字一字读了,人脑直接接上机器或其他人脑download。

data

【在 l****r 的大作中提到】
: sasa说纸书被替代我想到读书的时候我们讨论过信息发展的未来会是什么样子。
: 我当时说可能现在意义上的信息会消亡,新的信息以metadata的形式存在(i.e. data
: about data)。更简洁,信息量更大,并且这种信息量是依赖于其他信息存在的,就像
: 一个reference。如果未来人脑像电脑一样能够存储足够大的信息,那么你传递什么信
: 息给我,给个reference就好了,不需要重新表达。比方你说t32bf9077,我领悟,啊,
: 春风又绿江南岸。当然这么搞没啥必要,还很没诗意。但是我认为这个可能性是存在的。
: 我还拿中国甲骨文举例子,那是过去的东西,却也是以简洁形式传递大量的信息。这很
: 有趣。人类信息的发展会不会是个轮回?从一种简洁到另一种简洁?
: 阅读器会是个趋势。我每次坐火车都看见城里的上班族用。但是这不是根本的改变,我
: 想讨论更远的可能。

avatar
w*r
7
很想知道你哪个公司的.你的这个问题基本没人会回答,做这件事情的人就靠这吃饭啊
,而且基本这就是公司的ip
avatar
l*r
8
装个外置芯片,很可能的。

【在 n****o 的大作中提到】
: 以后不用一字一字读了,人脑直接接上机器或其他人脑download。
:
: data

avatar
E*e
9
我也知道。试试运气拉。其实也没是么大的秘密了吧。我这儿主要是sample size 有点
少。解决这个问题有点复杂点。半年后我就能搞定这个。
avatar
n*o
10
那就接近matrix了。

【在 n****o 的大作中提到】
: 以后不用一字一字读了,人脑直接接上机器或其他人脑download。
:
: data

avatar
g*e
11
你的scorecard是用tree么?我没做过,所以具体不是很清楚。知道high level一点具
体方法的话我还能给你一些其他的建议。比如regularization。
最最基本的,你可以用Sample1,2做best subset的k fold,或者repeated k fold。选
变量在第一组,测试在第二组。你说的不能用sample1,2选是你的理解有误。他应该说
的是不能用合起来的sample做univariate test,然后把自变量pool定死。
现实中,如果几百个变量就没法做best subset了,可能要用一些偷工减料的办法比如
forward step。具体还是要看方法。很多减小variance的办法都要落实到具体方法。
avatar
s*y
12
太可怕了

【在 n****o 的大作中提到】
: 那就接近matrix了。
avatar
E*e
13
现在用的是lasso logistic regression. 具体用是么方法暂时可以不讨论,之所以分
成三份数据,是要把holdout 或数据三放到cross validation 里,最后的model用在数
据三可以得到一个分布,得到置信区间,而不是一个值。
cross validation 是用来检查建模方法可不可行。并不是用来建最后的model。原则是
用数据一来挑变量,数据二来测model可靠性,数据三来看model 的robust和稳定性。
然而数据一和二已经是预选后的变量。这些变量已经是看了response变量后选的,根据
IV,WOE,common sense and business sense. 毫无疑问,这里已经引入了bias。
我以前是这样做的,但是现在可以说已经确认了bias,model表现有点不稳。我就是想
和大侠聊聊,书上说最后变量缩小到7到15个,可不可行。在我的model里,用LASSO,
缩小到40到50,表现最好。但是每次cross validation里变量list都变,模性不稳定。
当然,我每回为了实现auto化,自动 binning。可是预先binning的化,又有bias的问
题。
avatar
n*o
14
粉sasa,学习sasa语录。

【在 l****r 的大作中提到】
: (sasa这么有文化的回帖搁在旧主题里太可惜了,我给他来开个新的,哈哈)
: amazon那个也只是能看到几十页而已,不会太影响他家生意的。google books里面能看
: 到的多的多,你需要查书的片断可以去看一下,也许就有。不过还不是完整的书(虽然
: 有软件下,基本可以下到完整的书,但是还是很麻烦的)。要想要完整的书,网上还有
: 一个英文书pdf的资料库。我估计我没死以前,就会看到e-reader全面取代纸书的一天
: ,虽然现在技术还不完全成熟,现在样子的书店就会消失了。
: harold bloom的思想是坚持一千个人有一千个harry potter吗?这倒是奇怪的,因为他
: 一直坚持西方的文学canon,编了著名的书籍清单,把他认为的西方文学的canon全部放
: 在里面(虽然也有几本梵语的书,当然这个梵文和古希腊文之间千丝万缕的联系,需要
: 问gesund)。上次看他的采访,他在耶鲁英文系被排挤,自己出来做了一个独立的

avatar
g*e
15
no offense,你说每句话 都对,每句话都是背书。最后我都糊涂了。
lasso的 k fold可以拿来决定shrinkage,一般不用来选variable。因为每个fold选的
variable都不一样,你怎么知道那个留,哪个不留?如果你想用lasso,可以这样做:
1) 合并sample 1和2,这样你就只有一个大sample,以及一个hold out(原来的sample
3)
2)用第一步的大sample做k fold,看out of sample error,用来选 lasso的
shrinkage
2)用第一步的大sample全部data做一遍lasso,剩下的variable留下。
以上过程是你的training过程。
3)用第二步的结果用在sample 3(hold out)上,看 prediction,或者benchmarking
。我不知到你说的分布是怎么意思,是不是你bootstrap了?如果是,那么是有问题的。

【在 E**********e 的大作中提到】
: 现在用的是lasso logistic regression. 具体用是么方法暂时可以不讨论,之所以分
: 成三份数据,是要把holdout 或数据三放到cross validation 里,最后的model用在数
: 据三可以得到一个分布,得到置信区间,而不是一个值。
: cross validation 是用来检查建模方法可不可行。并不是用来建最后的model。原则是
: 用数据一来挑变量,数据二来测model可靠性,数据三来看model 的robust和稳定性。
: 然而数据一和二已经是预选后的变量。这些变量已经是看了response变量后选的,根据
: IV,WOE,common sense and business sense. 毫无疑问,这里已经引入了bias。
: 我以前是这样做的,但是现在可以说已经确认了bias,model表现有点不稳。我就是想
: 和大侠聊聊,书上说最后变量缩小到7到15个,可不可行。在我的model里,用LASSO,
: 缩小到40到50,表现最好。但是每次cross validation里变量list都变,模性不稳定。

avatar
l*r
16
但其实我关心的不是技术上的,是文化上的改变。人与人怎么交流。。。

【在 n****o 的大作中提到】
: 那就接近matrix了。
avatar
E*e
17
刚进入这一行, 没有大牛带。 所以只能从书上的开始学习。只不过书上也是泛泛而谈
。不同的case,建模过程还是有点不一样。
lasso 的k fold可以决定一个shrinkage。 自己也可以选一个。这本质上没有不同。
最后实在40-50个变量效果最好(对应的auc大,变量少)。你这个方法对应的只是一个
model。 但是本身不能用来说你找到了一个好的model。 cross validation 是用来检
查你的modeling 是不是可行,是不是robust。一旦cross validation的model check
好的话, 就可以用数据一,二和三建立最后的model,用来预测将来的data。
现在用数据一和二来建模, 我完全同意,sample size 比较小。 不过cross
validation 是尽量避免用数据一和二来预选变量(从原来的1000多原始变量),这不
是我说的, machine learning 上建议的,最好用unsupervise的的方法选变量(就是
不要看response variable), 同时我建模过程中也察觉到这一点。
我估计大银行的modeler 或者有大量的数据的modeler, 估计没有完全理解cross
validation。 因为sample size 大, 跟接近的representing 的true population,
supervised 的预选变量不会带来大的bias。 model 也就比较稳定。
回答这个问题比较复杂, 我慢慢摸索吧。
谢谢。

sample
benchmarking

【在 g****e 的大作中提到】
: no offense,你说每句话 都对,每句话都是背书。最后我都糊涂了。
: lasso的 k fold可以拿来决定shrinkage,一般不用来选variable。因为每个fold选的
: variable都不一样,你怎么知道那个留,哪个不留?如果你想用lasso,可以这样做:
: 1) 合并sample 1和2,这样你就只有一个大sample,以及一个hold out(原来的sample
: 3)
: 2)用第一步的大sample做k fold,看out of sample error,用来选 lasso的
: shrinkage
: 2)用第一步的大sample全部data做一遍lasso,剩下的variable留下。
: 以上过程是你的training过程。
: 3)用第二步的结果用在sample 3(hold out)上,看 prediction,或者benchmarking

avatar
n*o
18
不是很好吗?
你要什么pleasure,就给你什么,反正最后都是神经刺激。多环保,多绿色。

【在 s*******y 的大作中提到】
: 太可怕了
avatar
g*e
19
基本的东西你都懂,讲的和我讲的不矛盾。所以我也没啥可告诉你的了。不过有时候
common practice是经验证明的优化方法。一本书上讲的东西未必就是真理,比如说最
好用unsupervised方法选变量。大银行data质量也不行,他们也只能使用一些common
practice。个人感觉你还是对书本知识理解太僵硬了些,实际上你可以发现,很多时候
每本书讲的都不一样,没有啥最好最坏。

【在 E**********e 的大作中提到】
: 刚进入这一行, 没有大牛带。 所以只能从书上的开始学习。只不过书上也是泛泛而谈
: 。不同的case,建模过程还是有点不一样。
: lasso 的k fold可以决定一个shrinkage。 自己也可以选一个。这本质上没有不同。
: 最后实在40-50个变量效果最好(对应的auc大,变量少)。你这个方法对应的只是一个
: model。 但是本身不能用来说你找到了一个好的model。 cross validation 是用来检
: 查你的modeling 是不是可行,是不是robust。一旦cross validation的model check
: 好的话, 就可以用数据一,二和三建立最后的model,用来预测将来的data。
: 现在用数据一和二来建模, 我完全同意,sample size 比较小。 不过cross
: validation 是尽量避免用数据一和二来预选变量(从原来的1000多原始变量),这不
: 是我说的, machine learning 上建议的,最好用unsupervise的的方法选变量(就是

avatar
l*r
20
嗯,我发觉他很少发主题贴,喜欢躲在高楼里跟文豪两个曲高和寡,这个习惯很不好。
不如文豪的另一个搜美,直接让文豪贴电话来得直接爽快。

【在 n****o 的大作中提到】
: 粉sasa,学习sasa语录。
avatar
d*u
21
个人觉得,做模型技术都是那些技术。功夫大部分都花在建模外的准备工作。大公司数
据也不一定好,但是他们胜在大量的经验。有时候,老板们不太清楚原理,但是讲出结
论几乎都是对的。



【在 E**********e 的大作中提到】
: 刚进入这一行, 没有大牛带。 所以只能从书上的开始学习。只不过书上也是泛泛而谈
: 。不同的case,建模过程还是有点不一样。
: lasso 的k fold可以决定一个shrinkage。 自己也可以选一个。这本质上没有不同。
: 最后实在40-50个变量效果最好(对应的auc大,变量少)。你这个方法对应的只是一个
: model。 但是本身不能用来说你找到了一个好的model。 cross validation 是用来检
: 查你的modeling 是不是可行,是不是robust。一旦cross validation的model check
: 好的话, 就可以用数据一,二和三建立最后的model,用来预测将来的data。
: 现在用数据一和二来建模, 我完全同意,sample size 比较小。 不过cross
: validation 是尽量避免用数据一和二来预选变量(从原来的1000多原始变量),这不
: 是我说的, machine learning 上建议的,最好用unsupervise的的方法选变量(就是

avatar
s*y
22
违背自然啊,呵呵

【在 n****o 的大作中提到】
: 不是很好吗?
: 你要什么pleasure,就给你什么,反正最后都是神经刺激。多环保,多绿色。

avatar
E*e
23
完全同意。 group lead 一定要用unsupervised 变量选法。 这样sample
size 有减少一半。
我吧, 两个方法都在做。 看那个performance 最好。

【在 d******u 的大作中提到】
: 个人觉得,做模型技术都是那些技术。功夫大部分都花在建模外的准备工作。大公司数
: 据也不一定好,但是他们胜在大量的经验。有时候,老板们不太清楚原理,但是讲出结
: 论几乎都是对的。
:
: 。

avatar
n*o
24
这个问题太大。
回归!有可能最后返璞归真,可能连语言都是多余。

【在 l****r 的大作中提到】
: 但其实我关心的不是技术上的,是文化上的改变。人与人怎么交流。。。
avatar
E*e
25
【 以下文字转载自 Statistics 讨论区 】
发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
标 题: 做credit risk scorecard的朋友们, 请进来, 有问题求教
发信站: BBS 未名空间站 (Mon Feb 8 22:08:57 2016, 美东)
我现在在一个小的私人公司做risk modeling才半年多。前半年觉得自己做得很不错。
可是现在越觉得有很多问题很疑惑,现在抛出来,请有经验的大侠指导。
公司是做loan lending的小公司,比较新, 积累的charge off 数据4000不到, 这个
跟大银行动辄一两个million 的数据不一样。 modeling的数据不是很好。我就不自爆
奇丑了,主要表现是training 和test的AUC差别很大, 有很大overfitting。
现在问题来了。假设数据分成三个部分,数据一是training, 数据二是test, 数据三
是holdout。holdout 类似于future data, 用来测试最后model 表现。所以这部分数
据只能在建模完后才拿出来。建模前是绝对不是偷看,防止数据“泄露”到modeling
过程。
我的主要问题是怎么预先选初始变量。我原先理解就是用数据一和二,初选个100左右
的变量,很多modeling的书谈到bivariate analysis,算pvalue, spearman
correlation,还有是么clustering,等等。然后用cross-validation 来测试modeling
过程。但是,如果读过statistcial learning的话,cross-validation是拒绝用数据
一和二来初选变量的。如果要初选,必须包括进每一次cross validation。原因是在
cross validation 前任何预选变量会导致bias, 就是数据会“leak”到建模过程里,
导致模型biased,overfitting。 就是training和testing 表现不错,但是用到
holdout 数据是,表现很差。 这一点在我的建模过程中似乎得到验证。
那么怎样预选变量呢。 要知道三大信用数据,再加上别的数据,那得有一千多的变量
。 当然可以code一个自动选变量的程序,把一千多个变量,用IV, pvalue,来扫一遍
,可以这怎么解决有些compound variable。 有些数据公司提供的whitepaper, guide
都建议选变量前看该变量同target variable 的关系,有强烈关系就选上,但这个跟
cross-validation有冲突。
读了那些credit scorecard 的书,感觉没有清楚的谈到这个问题(我的group lead极
度鄙视这些写书的人),不知是不是因为sample size的问题。 size 越大, 越能代表
population分布, 这样的话,用数据一和二来选初始变量“似乎”问题不大。
请教各位有经验的大侠,能不能探讨这个问题。你们在建模的时候,是怎么选出
unbiased变量的,最后一般有多少变量进model? 那些书一般建议7-15个。
avatar
n*o
26
这个叫低调。所以你不要把他吓走。

【在 l****r 的大作中提到】
: 嗯,我发觉他很少发主题贴,喜欢躲在高楼里跟文豪两个曲高和寡,这个习惯很不好。
: 不如文豪的另一个搜美,直接让文豪贴电话来得直接爽快。

avatar
E*e
27
转stackexchange一个讨论的帖子。
http://stats.stackexchange.com/questions/27750/feature-selection-and-cross-validation



【在 E**********e 的大作中提到】
: 【 以下文字转载自 Statistics 讨论区 】
: 发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
: 标 题: 做credit risk scorecard的朋友们, 请进来, 有问题求教
: 发信站: BBS 未名空间站 (Mon Feb 8 22:08:57 2016, 美东)
: 我现在在一个小的私人公司做risk modeling才半年多。前半年觉得自己做得很不错。
: 可是现在越觉得有很多问题很疑惑,现在抛出来,请有经验的大侠指导。
: 公司是做loan lending的小公司,比较新, 积累的charge off 数据4000不到, 这个
: 跟大银行动辄一两个million 的数据不一样。 modeling的数据不是很好。我就不自爆
: 奇丑了,主要表现是training 和test的AUC差别很大, 有很大overfitting。
: 现在问题来了。假设数据分成三个部分,数据一是training, 数据二是test, 数据三

avatar
n*o
28
怎么理解自然?看样子技术进步就是在违背自然。

【在 s*******y 的大作中提到】
: 违背自然啊,呵呵
avatar
w*r
29
很想知道你哪个公司的.你的这个问题基本没人会回答,做这件事情的人就靠这吃饭啊
,而且基本这就是公司的ip
avatar
l*r
30
我也不指望找到答案,就是看看别人会有什么假想
你说的和我的差不多了。
我以前想写个小说来着。原始社会,当代,未来的三个爱情故事。三对人怎么交流沟通
。表明上是关于爱情,其实是关于信息。也我没什么明确构思,完全就是大脑里风暴一
把,自娱自乐。有次我把想到说了一点,有个朋友说希望我写不出来……:S

【在 n****o 的大作中提到】
: 这个问题太大。
: 回归!有可能最后返璞归真,可能连语言都是多余。

avatar
E*e
31
我也知道。试试运气拉。其实也没是么大的秘密了吧。我这儿主要是sample size 有点
少。解决这个问题有点复杂点。半年后我就能搞定这个。
avatar
n*o
32
杞人忧天啊。不过这是褒义的。
看了电影Armageddon,deep impact, 2012后,特别佩服杞人。看看,中国人两千多年前都想到了。杞人忧天实在需要重新解释了,实在有必要为那个同志平反,恢复名誉。

【在 l****r 的大作中提到】
: 我也不指望找到答案,就是看看别人会有什么假想
: 你说的和我的差不多了。
: 我以前想写个小说来着。原始社会,当代,未来的三个爱情故事。三对人怎么交流沟通
: 。表明上是关于爱情,其实是关于信息。也我没什么明确构思,完全就是大脑里风暴一
: 把,自娱自乐。有次我把想到说了一点,有个朋友说希望我写不出来……:S

avatar
E*e
33
现在用的是lasso logistic regression. 具体用是么方法暂时可以不讨论,之所以分
成三份数据,是要把holdout 或数据三放到cross validation 里,最后的model用在数
据三可以得到一个分布,得到置信区间,而不是一个值。
cross validation 是用来检查建模方法可不可行。并不是用来建最后的model。原则是
用数据一来挑变量,数据二来测model可靠性,数据三来看model 的robust和稳定性。
然而数据一和二已经是预选后的变量。这些变量已经是看了response变量后选的,根据
IV,WOE,common sense and business sense. 毫无疑问,这里已经引入了bias。
我以前是这样做的,但是现在可以说已经确认了bias,model表现有点不稳。我就是想
和大侠聊聊,书上说最后变量缩小到7到15个,可不可行。在我的model里,用LASSO,
缩小到40到50,表现最好。但是每次cross validation里变量list都变,模性不稳定。
当然,我每回为了实现auto化,自动 binning。可是预先binning的化,又有bias的问
题。
avatar
a*7
34
完全取代估计还不可能;我觉得我们这一代人估计还是手中有本纸制品看着更舒服吧
-- 毕竟是习惯了。但是电子阅读占的分量越来越重是肯定的,也许会有完全取代纸
制品的一天--但得等到习惯纸制品的人慢慢消失才行吧,估计得有个几代。
另外我很好奇电子阅读是如何合理限制电子书的“转借”的?完全不允许转借不好,没
有限制更不可能 -- 不知道AMAZON现在的策略是怎样的?是不是低价然后完
全不允许转借?可是刚刚去看了一下,好象价格也不低啊。

【在 l****r 的大作中提到】
: 我也不指望找到答案,就是看看别人会有什么假想
: 你说的和我的差不多了。
: 我以前想写个小说来着。原始社会,当代,未来的三个爱情故事。三对人怎么交流沟通
: 。表明上是关于爱情,其实是关于信息。也我没什么明确构思,完全就是大脑里风暴一
: 把,自娱自乐。有次我把想到说了一点,有个朋友说希望我写不出来……:S

avatar
E*e
35
刚进入这一行, 没有大牛带。 所以只能从书上的开始学习。只不过书上也是泛泛而谈
。不同的case,建模过程还是有点不一样。
lasso 的k fold可以决定一个shrinkage。 自己也可以选一个。这本质上没有不同。
最后实在40-50个变量效果最好(对应的auc大,变量少)。你这个方法对应的只是一个
model。 但是本身不能用来说你找到了一个好的model。 cross validation 是用来检
查你的modeling 是不是可行,是不是robust。一旦cross validation的model check
好的话, 就可以用数据一,二和三建立最后的model,用来预测将来的data。
现在用数据一和二来建模, 我完全同意,sample size 比较小。 不过cross
validation 是尽量避免用数据一和二来预选变量(从原来的1000多原始变量),这不
是我说的, machine learning 上建议的,最好用unsupervise的的方法选变量(就是
不要看response variable), 同时我建模过程中也察觉到这一点。
我估计大银行的modeler 或者有大量的数据的modeler, 估计没有完全理解cross
validation。 因为sample size 大, 跟接近的representing 的true population,
supervised 的预选变量不会带来大的bias。 model 也就比较稳定。
回答这个问题比较复杂, 我慢慢摸索吧。
谢谢。

sample
benchmarking

【在 g****e 的大作中提到】
: no offense,你说每句话 都对,每句话都是背书。最后我都糊涂了。
: lasso的 k fold可以拿来决定shrinkage,一般不用来选variable。因为每个fold选的
: variable都不一样,你怎么知道那个留,哪个不留?如果你想用lasso,可以这样做:
: 1) 合并sample 1和2,这样你就只有一个大sample,以及一个hold out(原来的sample
: 3)
: 2)用第一步的大sample做k fold,看out of sample error,用来选 lasso的
: shrinkage
: 2)用第一步的大sample全部data做一遍lasso,剩下的variable留下。
: 以上过程是你的training过程。
: 3)用第二步的结果用在sample 3(hold out)上,看 prediction,或者benchmarking

avatar
J*8
36
谢酒妹, 等Sasa回了这个帖子后, 给ta发包子
avatar
d*u
37
个人觉得,做模型技术都是那些技术。功夫大部分都花在建模外的准备工作。大公司数
据也不一定好,但是他们胜在大量的经验。有时候,老板们不太清楚原理,但是讲出结
论几乎都是对的。



【在 E**********e 的大作中提到】
: 刚进入这一行, 没有大牛带。 所以只能从书上的开始学习。只不过书上也是泛泛而谈
: 。不同的case,建模过程还是有点不一样。
: lasso 的k fold可以决定一个shrinkage。 自己也可以选一个。这本质上没有不同。
: 最后实在40-50个变量效果最好(对应的auc大,变量少)。你这个方法对应的只是一个
: model。 但是本身不能用来说你找到了一个好的model。 cross validation 是用来检
: 查你的modeling 是不是可行,是不是robust。一旦cross validation的model check
: 好的话, 就可以用数据一,二和三建立最后的model,用来预测将来的data。
: 现在用数据一和二来建模, 我完全同意,sample size 比较小。 不过cross
: validation 是尽量避免用数据一和二来预选变量(从原来的1000多原始变量),这不
: 是我说的, machine learning 上建议的,最好用unsupervise的的方法选变量(就是

avatar
wh
38
我已经mark sasa的原帖了。我把这个mark去掉了吧。

【在 J*********8 的大作中提到】
: 谢酒妹, 等Sasa回了这个帖子后, 给ta发包子
avatar
E*e
39
完全同意。 group lead 一定要用unsupervised 变量选法。 这样sample
size 有减少一半。
我吧, 两个方法都在做。 看那个performance 最好。

【在 d******u 的大作中提到】
: 个人觉得,做模型技术都是那些技术。功夫大部分都花在建模外的准备工作。大公司数
: 据也不一定好,但是他们胜在大量的经验。有时候,老板们不太清楚原理,但是讲出结
: 论几乎都是对的。
:
: 。

avatar
l*r
40
文豪太较真了,你一上线我就少了1个包子。。。

【在 wh 的大作中提到】
: 我已经mark sasa的原帖了。我把这个mark去掉了吧。
avatar
a*1
41
试试oblique component 做clustering。有很多种不同的变体,所以可以有参照来选比
较稳定的。categorical也有类似的处理,网上有几个paper将怎么做的,要么是转数值
,要么转mode, 或者MCA

【在 E**********e 的大作中提到】
: 完全同意。 group lead 一定要用unsupervised 变量选法。 这样sample
: size 有减少一半。
: 我吧, 两个方法都在做。 看那个performance 最好。

avatar
wh
42
是,sasa好像从来没有发过主帖,总是跟帖,而且非常认真,跟帖都很长,很有见地。
我mark过他的很多跟帖,电台版和这个版都有。乐子有时间把这些都收进精华区吧?娜
娜爵猫要是会做精华区要不帮一下乐子?
另外liquer那些读书帖,很多跟帖都很强的,sasa牛筋呆大多哈qicheji都很有高论。
有时间的话最好也能做合集收入精华区。
牛筋sasa都要戒网,好可惜。我刚刚还在和sasa说,电台版就是从他俩来之后开始热闹
起来;然后liquer连续发读书帖,更增气势。这才有了现在的新版。他俩这一走,以后
的读书帖少了两个最得力的书友,会失色很多。

【在 l****r 的大作中提到】
: 嗯,我发觉他很少发主题贴,喜欢躲在高楼里跟文豪两个曲高和寡,这个习惯很不好。
: 不如文豪的另一个搜美,直接让文豪贴电话来得直接爽快。

avatar
a*1
43
试试oblique component 做clustering。有很多种不同的变体,所以可以有参照来选比
较稳定的。categorical也有类似的处理,网上有几个paper将怎么做的,要么是转数值
,要么转mode, 或者MCA

【在 E**********e 的大作中提到】
: 完全同意。 group lead 一定要用unsupervised 变量选法。 这样sample
: size 有减少一半。
: 我吧, 两个方法都在做。 看那个performance 最好。

avatar
wh
44
sasa那我把原帖里我的回帖拷贝到这里来:
“harold bloom年轻时候很激进,后来也回归传统了。我不
是很熟悉他,看到过他的办公室,很小的一间,不知道他现在是不是上课。要是上课我
一定要找机会听。还有那个史学家jonathan spencer,许纪霖说他上课非常生动吸引人
对吧,也不知道他现在还上不上。”
harold bloom年轻时和耶鲁一批人搞过一个挺激进的反传统潮流。eco在他的书里批评
他,说阐释还是应该有客观标准,引用了他评论的william blake的名诗tiger tiger
burning bright。但我不记得他怎么评论了。harold bloom后来说是对所谓的文化潮流
失去兴趣了,专心搞文本分析,对浪漫主义诗歌研究很深。我也觉得潮流很无聊,还不
如扎扎实实搞一点文本研究好。
多谢,这几个人有机会一定要看看。我现在几乎不看理论书了,只看小说。而且还是中
文居多,偷懒。不过auerbach这个悬念问题我听人说过;我觉得古希腊悲剧有悬念啊,
俄狄浦斯那个女巫的预言不就是悬念吗。荷马史诗里面也有很多预言。
另外圣经和古希腊神话的区别,我上课时也听老师说过。古

【在 l****r 的大作中提到】
: (sasa这么有文化的回帖搁在旧主题里太可惜了,我给他来开个新的,哈哈)
: amazon那个也只是能看到几十页而已,不会太影响他家生意的。google books里面能看
: 到的多的多,你需要查书的片断可以去看一下,也许就有。不过还不是完整的书(虽然
: 有软件下,基本可以下到完整的书,但是还是很麻烦的)。要想要完整的书,网上还有
: 一个英文书pdf的资料库。我估计我没死以前,就会看到e-reader全面取代纸书的一天
: ,虽然现在技术还不完全成熟,现在样子的书店就会消失了。
: harold bloom的思想是坚持一千个人有一千个harry potter吗?这倒是奇怪的,因为他
: 一直坚持西方的文学canon,编了著名的书籍清单,把他认为的西方文学的canon全部放
: 在里面(虽然也有几本梵语的书,当然这个梵文和古希腊文之间千丝万缕的联系,需要
: 问gesund)。上次看他的采访,他在耶鲁英文系被排挤,自己出来做了一个独立的

avatar
y*g
45
别一上来就整model,你一共才几千个数据,就别整一堆feature了,你想想,如果你有
10个feature,每个feature假定只能取两个值,把所有情况遍历一遍就已经1024行数据
了,能看出啥来?
建议选取3-5个你认为重要的feature,然后画几张scatter plot看看这几千个点到底咋
分布的。有点概念再model。
avatar
wh
46
嗯。呆大也是低调的。波哥也是低调的。你们都不发主帖的,都是为他人做嫁衣的。所
以低调的人一旦离开更让人有釜底抽薪的感觉……

【在 n****o 的大作中提到】
: 这个叫低调。所以你不要把他吓走。
avatar
a*a
47
这里用30-40个features感觉很多了
LASSO这个方法我还不会,我最近正在琢磨如何从几百个feature精简到最优模型,数据
量是5000左右。
只有几千个数据的话,最后feature太多,基本都会有overfitting的现象,大银行数据
量大是王道,再好的方法都敌不过大量的数据(前提数据是可靠的)。
楼主不如给我讲讲,你拿到数据先做了哪些预处理?
我是纸上谈兵,实际经验很少
比如missing data, feature scaling这些都做吗?
然后精选featuers的时候有考虑过random forest这个方法吗?或者R里面有leaps,来
exclusive的找(几百个features我觉得这个方法不好,可能要选很长时间)。
我是初学者,所以跟您探讨探讨。
avatar
wh
48
哈哈抱歉抱歉,我就是想跟爵猫说明一下。爵猫其实可以看看奖励记录就知道了。

【在 l****r 的大作中提到】
: 文豪太较真了,你一上线我就少了1个包子。。。
avatar
f*6
49
数据太少,feature多的话也容易导致underfitting, 因为根本没有足够多的数据拿来
training.
我上学期做的一个项目是有1743 features, 一开始根本不知道怎么做,最后查看
metadata把每一列都是什么搞清楚,最后选择只做某一方面的数据挖掘。
记得好像是国内哪个大公司的竞赛,得冠军的人没有用高大上的算法,而是依据数据的
特点用了一个比较简单的算法算出来的。

【在 y********g 的大作中提到】
: 别一上来就整model,你一共才几千个数据,就别整一堆feature了,你想想,如果你有
: 10个feature,每个feature假定只能取两个值,把所有情况遍历一遍就已经1024行数据
: 了,能看出啥来?
: 建议选取3-5个你认为重要的feature,然后画几张scatter plot看看这几千个点到底咋
: 分布的。有点概念再model。

avatar
J*8
50
真是的, 我做的事还是让我来决定嘛.

【在 wh 的大作中提到】
: 我已经mark sasa的原帖了。我把这个mark去掉了吧。
avatar
a*a
51
你是不是说反了
当数据量不足,用太多feature的时候应该是overfitting吧

【在 f*******6 的大作中提到】
: 数据太少,feature多的话也容易导致underfitting, 因为根本没有足够多的数据拿来
: training.
: 我上学期做的一个项目是有1743 features, 一开始根本不知道怎么做,最后查看
: metadata把每一列都是什么搞清楚,最后选择只做某一方面的数据挖掘。
: 记得好像是国内哪个大公司的竞赛,得冠军的人没有用高大上的算法,而是依据数据的
: 特点用了一个比较简单的算法算出来的。

avatar
J*8
52
文豪, 我mark一个文章, 肯定有我的道理,
我不是 瓜 猫:D
avatar
f*6
53
Underfitting: Underfitting occurs when a statistical model or machine
learning algorithm cannot capture the underlying trend of the data
个人感觉,数据量太少,FEATURES太多的时候,很可能没有办法去idenfity the
pattern of dataset.

【在 a*****a 的大作中提到】
: 你是不是说反了
: 当数据量不足,用太多feature的时候应该是overfitting吧

avatar
u*u
54
瓜,很像西北人的说法

【在 J*********8 的大作中提到】
: 文豪, 我mark一个文章, 肯定有我的道理,
: 我不是 瓜 猫:D

avatar
s*h
55
identify是个模糊的概念。features (几乎永远) 不可能match pattern。
楼上说的是对的。建议查看elementary statistical learning了解bias和variance的
区别。

【在 f*******6 的大作中提到】
: Underfitting: Underfitting occurs when a statistical model or machine
: learning algorithm cannot capture the underlying trend of the data
: 个人感觉,数据量太少,FEATURES太多的时候,很可能没有办法去idenfity the
: pattern of dataset.

avatar
e*e
56
科学松鼠会有一期讨论这个来着:
http://www.bullogger.com/blogs/songshuhui/archives/347093.aspx
不过Dr.You们的科学性普遍不够就是了。我觉得往外拨拉容易些,往里灌
估计还会是比USB1.1慢太多……

【在 n****o 的大作中提到】
: 以后不用一字一字读了,人脑直接接上机器或其他人脑download。
:
: data

avatar
f*6
57
cs229里面有提到bias, variance,两者的tradeoff,说真的只了解一点点。
刚才google 了一下网上有人讨论high bias,high variance 共存的现象,看的晕了。
现实世界会发生这样的情况吗?

【在 s*********h 的大作中提到】
: identify是个模糊的概念。features (几乎永远) 不可能match pattern。
: 楼上说的是对的。建议查看elementary statistical learning了解bias和variance的
: 区别。

avatar
c*h
58
download?neo?

【在 e***e 的大作中提到】
: 科学松鼠会有一期讨论这个来着:
: http://www.bullogger.com/blogs/songshuhui/archives/347093.aspx
: 不过Dr.You们的科学性普遍不够就是了。我觉得往外拨拉容易些,往里灌
: 估计还会是比USB1.1慢太多……

avatar
s*h
59
可能的,非常非常差的模型……

【在 f*******6 的大作中提到】
: cs229里面有提到bias, variance,两者的tradeoff,说真的只了解一点点。
: 刚才google 了一下网上有人讨论high bias,high variance 共存的现象,看的晕了。
: 现实世界会发生这样的情况吗?

avatar
wh
60
噢,哈哈,那你mark回去好了。我以为你想mark sasa,不知道你还另有道理。什么道
理?一个包子,不必生气。周末好!

【在 J*********8 的大作中提到】
: 文豪, 我mark一个文章, 肯定有我的道理,
: 我不是 瓜 猫:D

avatar
e*e
61
洒洒粉,挲挲门
飒飒吹风习习闻

【在 n****o 的大作中提到】
: 粉sasa,学习sasa语录。
avatar
e*e
62
庄子蝴蝶梦有缘,春心不必托杜鹃
曾经潇湘多少泪,眼眉而今一瞬间

【在 l****r 的大作中提到】
: 但其实我关心的不是技术上的,是文化上的改变。人与人怎么交流。。。
avatar
wh
63
wow, 你一会儿打油一会儿庄重,很有才有闲心嘛,哈哈。哎你半夜了是不?

【在 e***e 的大作中提到】
: 庄子蝴蝶梦有缘,春心不必托杜鹃
: 曾经潇湘多少泪,眼眉而今一瞬间

avatar
e*e
64
这个可能不大,意识离不开感觉,有本科普书曾经对我影响不小:
《Descartes' Error》by Antonio R. Damasio

【在 n****o 的大作中提到】
: 这个问题太大。
: 回归!有可能最后返璞归真,可能连语言都是多余。

avatar
e*e
65
再说说,搬板凳ing……

【在 l****r 的大作中提到】
: 我也不指望找到答案,就是看看别人会有什么假想
: 你说的和我的差不多了。
: 我以前想写个小说来着。原始社会,当代,未来的三个爱情故事。三对人怎么交流沟通
: 。表明上是关于爱情,其实是关于信息。也我没什么明确构思,完全就是大脑里风暴一
: 把,自娱自乐。有次我把想到说了一点,有个朋友说希望我写不出来……:S

avatar
e*e
66
天下总有长得高的,管它呢……
其实这个心理很重要的,不然要党来干嘛──我是党员,让我先来!:D

前都想到了。杞人忧天实在需要重新解释了,实在有必要为那个同志平反,恢复名誉。

【在 n****o 的大作中提到】
: 杞人忧天啊。不过这是褒义的。
: 看了电影Armageddon,deep impact, 2012后,特别佩服杞人。看看,中国人两千多年前都想到了。杞人忧天实在需要重新解释了,实在有必要为那个同志平反,恢复名誉。

avatar
e*e
67
这个问题有意思,“信息时代”,占有这个概念应该会和交流一样发生很大变化

【在 a*********7 的大作中提到】
: 完全取代估计还不可能;我觉得我们这一代人估计还是手中有本纸制品看着更舒服吧
: -- 毕竟是习惯了。但是电子阅读占的分量越来越重是肯定的,也许会有完全取代纸
: 制品的一天--但得等到习惯纸制品的人慢慢消失才行吧,估计得有个几代。
: 另外我很好奇电子阅读是如何合理限制电子书的“转借”的?完全不允许转借不好,没
: 有限制更不可能 -- 不知道AMAZON现在的策略是怎样的?是不是低价然后完
: 全不允许转借?可是刚刚去看了一下,好象价格也不低啊。

avatar
e*e
68
好奇怪,我从前都没有注意到sasa,他有马甲么?

【在 wh 的大作中提到】
: 是,sasa好像从来没有发过主帖,总是跟帖,而且非常认真,跟帖都很长,很有见地。
: 我mark过他的很多跟帖,电台版和这个版都有。乐子有时间把这些都收进精华区吧?娜
: 娜爵猫要是会做精华区要不帮一下乐子?
: 另外liquer那些读书帖,很多跟帖都很强的,sasa牛筋呆大多哈qicheji都很有高论。
: 有时间的话最好也能做合集收入精华区。
: 牛筋sasa都要戒网,好可惜。我刚刚还在和sasa说,电台版就是从他俩来之后开始热闹
: 起来;然后liquer连续发读书帖,更增气势。这才有了现在的新版。他俩这一走,以后
: 的读书帖少了两个最得力的书友,会失色很多。

avatar
e*e
69
潘老师也是我曾经热捧的,好久没有读他的书了,真是堕落啊~

【在 wh 的大作中提到】
: sasa那我把原帖里我的回帖拷贝到这里来:
: “harold bloom年轻时候很激进,后来也回归传统了。我不
: 是很熟悉他,看到过他的办公室,很小的一间,不知道他现在是不是上课。要是上课我
: 一定要找机会听。还有那个史学家jonathan spencer,许纪霖说他上课非常生动吸引人
: 对吧,也不知道他现在还上不上。”
: harold bloom年轻时和耶鲁一批人搞过一个挺激进的反传统潮流。eco在他的书里批评
: 他,说阐释还是应该有客观标准,引用了他评论的william blake的名诗tiger tiger
: burning bright。但我不记得他怎么评论了。harold bloom后来说是对所谓的文化潮流
: 失去兴趣了,专心搞文本分析,对浪漫主义诗歌研究很深。我也觉得潮流很无聊,还不
: 如扎扎实实搞一点文本研究好。

avatar
e*e
70
啊,吃完饭看了两集阿童木,睡到现在……

【在 wh 的大作中提到】
: wow, 你一会儿打油一会儿庄重,很有才有闲心嘛,哈哈。哎你半夜了是不?
avatar
l*r
71
可以啊,等我哪天开个新贴去俱乐部说
一般我有啥构思宁可直接写了,这个我觉得我写不了,但是又觉得想法本身是有点意思的
两年前的念头了,现在需要点时间回忆下

【在 e***e 的大作中提到】
: 啊,吃完饭看了两集阿童木,睡到现在……
avatar
e*e
72
我很好奇小说是怎么构思出来的,从来不知道怎么写故事我就,sigh...
回到这个问题,我就觉得旧的交流方式挺让人神往的──比如看一两百年前人的
书信集,平时的很多事都写信来交流。可似乎更晚的一辈就不同了,email都懒得用
就短信、msn、qq……

思的

【在 l****r 的大作中提到】
: 可以啊,等我哪天开个新贴去俱乐部说
: 一般我有啥构思宁可直接写了,这个我觉得我写不了,但是又觉得想法本身是有点意思的
: 两年前的念头了,现在需要点时间回忆下

avatar
l*r
73
小说简单啊,就是八卦。一开始说认识的人的,甚至牺牲自己,慢慢的说得专业了,不
认识的,没谱儿的事也往上编了,说得有鼻子有眼的,为了取悦听众拔高自己,还加点
景物啊煽情之类,甚至自以为是的揣度别人的内心。。。
我倒好奇诗是怎么写出来的。您刚才写的那个曾经什么眼眉而今一瞬间,我没看懂。。。

【在 e***e 的大作中提到】
: 我很好奇小说是怎么构思出来的,从来不知道怎么写故事我就,sigh...
: 回到这个问题,我就觉得旧的交流方式挺让人神往的──比如看一两百年前人的
: 书信集,平时的很多事都写信来交流。可似乎更晚的一辈就不同了,email都懒得用
: 就短信、msn、qq……
:
: 思的

avatar
J*8
74
文豪阿, 不是包子的问题, 我只是觉得别人做好的事, 如果要改, 你要让做的人去改,
这样比较合常理. 我和你一向直来直去, 我知道你不会介意.
周末领导回家吗? 我今天在家休息, 在做干菜扣肉.

【在 wh 的大作中提到】
: 噢,哈哈,那你mark回去好了。我以为你想mark sasa,不知道你还另有道理。什么道
: 理?一个包子,不必生气。周末好!

avatar
J*8
75
你不知道那个可爱的瓜瓜? 嘻嘻

【在 u*****u 的大作中提到】
: 瓜,很像西北人的说法
avatar
l*r
76
对。好比古人说上言加餐饭,下言长相忆,就觉得特别有味道
到后面的交流形式,比如twitter,真的有打激素嗑药的感觉了,信息来得太直接迅速
,缺乏回味的余地,没有思念的间隙,更像是单纯的刺激。

【在 e***e 的大作中提到】
: 我很好奇小说是怎么构思出来的,从来不知道怎么写故事我就,sigh...
: 回到这个问题,我就觉得旧的交流方式挺让人神往的──比如看一两百年前人的
: 书信集,平时的很多事都写信来交流。可似乎更晚的一辈就不同了,email都懒得用
: 就短信、msn、qq……
:
: 思的

avatar
e*e
77
但还是要八出结构来啊,要很多细节,选择那些细节来表达啊。我从前好多次
想牺牲朋友或者自己来八,对着屏幕就八不出来……
刚才那个,就是,嗯,曾经唧唧歪歪、连篇累牍的相思不懂,那个锦瑟里抄来
的两句这个苦,要是matrix了,不就一闪念的事儿么?
我其实也好奇诗是怎么写出来的,我大概只在程序之类的东东里觉得自己有点
诗意吧,真拿文字写,要不靠翻译,要不靠撰抄。

。。

【在 l****r 的大作中提到】
: 小说简单啊,就是八卦。一开始说认识的人的,甚至牺牲自己,慢慢的说得专业了,不
: 认识的,没谱儿的事也往上编了,说得有鼻子有眼的,为了取悦听众拔高自己,还加点
: 景物啊煽情之类,甚至自以为是的揣度别人的内心。。。
: 我倒好奇诗是怎么写出来的。您刚才写的那个曾经什么眼眉而今一瞬间,我没看懂。。。

avatar
a*7
78
傻子才会这么允许人家这么折腾自己的脑子吧。想想网上多少病毒。。。
开了个口,人家往里面放什么就无法控制了

【在 e***e 的大作中提到】
: 但还是要八出结构来啊,要很多细节,选择那些细节来表达啊。我从前好多次
: 想牺牲朋友或者自己来八,对着屏幕就八不出来……
: 刚才那个,就是,嗯,曾经唧唧歪歪、连篇累牍的相思不懂,那个锦瑟里抄来
: 的两句这个苦,要是matrix了,不就一闪念的事儿么?
: 我其实也好奇诗是怎么写出来的,我大概只在程序之类的东东里觉得自己有点
: 诗意吧,真拿文字写,要不靠翻译,要不靠撰抄。
:
: 。。

avatar
l*r
79
你要是去听真正有水平的大妈八卦,那也绝对是悬念丛生,语言生动的
当然三八婆这话一点不对,大爷大哥绝对不输大妈。北京人侃大山,四川人摆龙门阵,
各有神通。
关键还是要有8的热情,不断练习,互相切磋,最后就8出水平了。。。
程序还能有诗意,我头回听说。也许您该贴段code,让大家看看是律诗还是梨花。

【在 e***e 的大作中提到】
: 但还是要八出结构来啊,要很多细节,选择那些细节来表达啊。我从前好多次
: 想牺牲朋友或者自己来八,对着屏幕就八不出来……
: 刚才那个,就是,嗯,曾经唧唧歪歪、连篇累牍的相思不懂,那个锦瑟里抄来
: 的两句这个苦,要是matrix了,不就一闪念的事儿么?
: 我其实也好奇诗是怎么写出来的,我大概只在程序之类的东东里觉得自己有点
: 诗意吧,真拿文字写,要不靠翻译,要不靠撰抄。
:
: 。。

avatar
n*o
80
难说啊,难说。
不是说心有灵犀一点通,有些人只要一对视,就明白对方了。眼神能传播信息。
至于信息啊思维能否离开语言,这个就不知道了。如果能离开语言就不是语言能描绘的状态,也不是现在能想得明白的。

【在 e***e 的大作中提到】
: 但还是要八出结构来啊,要很多细节,选择那些细节来表达啊。我从前好多次
: 想牺牲朋友或者自己来八,对着屏幕就八不出来……
: 刚才那个,就是,嗯,曾经唧唧歪歪、连篇累牍的相思不懂,那个锦瑟里抄来
: 的两句这个苦,要是matrix了,不就一闪念的事儿么?
: 我其实也好奇诗是怎么写出来的,我大概只在程序之类的东东里觉得自己有点
: 诗意吧,真拿文字写,要不靠翻译,要不靠撰抄。
:
: 。。

avatar
wh
81
那多麻烦,我想着就是个小事,随手就做了,呵呵,好,那我以后不动你的东西。
对,领导昨晚半夜回来了。嗯,我要吃干菜和瘦的扣肉,不吃肥的。哈哈。

【在 J*********8 的大作中提到】
: 文豪阿, 不是包子的问题, 我只是觉得别人做好的事, 如果要改, 你要让做的人去改,
: 这样比较合常理. 我和你一向直来直去, 我知道你不会介意.
: 周末领导回家吗? 我今天在家休息, 在做干菜扣肉.

avatar
wh
82
应该没有吧。他说他以前不怎么灌水的,还是从遇到我们开始才灌的。你可以看这个帖
子:
http://www.mitbbs.com/clubarticle/WHandFriends/14957_0.html
他嫌自己灌多了,现在要戒网了。很可惜是不是。

【在 e***e 的大作中提到】
: 但还是要八出结构来啊,要很多细节,选择那些细节来表达啊。我从前好多次
: 想牺牲朋友或者自己来八,对着屏幕就八不出来……
: 刚才那个,就是,嗯,曾经唧唧歪歪、连篇累牍的相思不懂,那个锦瑟里抄来
: 的两句这个苦,要是matrix了,不就一闪念的事儿么?
: 我其实也好奇诗是怎么写出来的,我大概只在程序之类的东东里觉得自己有点
: 诗意吧,真拿文字写,要不靠翻译,要不靠撰抄。
:
: 。。

avatar
wh
83
两集阿童木是什么意思?我们小时候看的那个日本阿童木电视剧?你听上去好像是有点堕落的样子……哈哈。

【在 e***e 的大作中提到】
: 但还是要八出结构来啊,要很多细节,选择那些细节来表达啊。我从前好多次
: 想牺牲朋友或者自己来八,对着屏幕就八不出来……
: 刚才那个,就是,嗯,曾经唧唧歪歪、连篇累牍的相思不懂,那个锦瑟里抄来
: 的两句这个苦,要是matrix了,不就一闪念的事儿么?
: 我其实也好奇诗是怎么写出来的,我大概只在程序之类的东东里觉得自己有点
: 诗意吧,真拿文字写,要不靠翻译,要不靠撰抄。
:
: 。。

avatar
s*a
84
关于古希腊喜剧的悬念问题,你说的是正是大家都觉得正常的问题,俄狄浦斯那个杀父
娶母的诅咒怎么可能不是悬念呢?不过亚里斯多德在诗学里面说得清楚,希腊观众在观
看索福克勒斯悲剧(以及当时所有的悲剧)的时候,都是对结局知道得清清楚楚的,观
众关心的是怎样的问题,就是俄狄浦斯是怎样发现自己身世的,而不是身世是什么。所
以并不是说希腊人没有悬念的概念,而是说在他们的文学作品中悬念作为一个现代表现
手法(what happens next? will she die?)是不存在的,作家们纠结的是how的问题。

【在 wh 的大作中提到】
: sasa那我把原帖里我的回帖拷贝到这里来:
: “harold bloom年轻时候很激进,后来也回归传统了。我不
: 是很熟悉他,看到过他的办公室,很小的一间,不知道他现在是不是上课。要是上课我
: 一定要找机会听。还有那个史学家jonathan spencer,许纪霖说他上课非常生动吸引人
: 对吧,也不知道他现在还上不上。”
: harold bloom年轻时和耶鲁一批人搞过一个挺激进的反传统潮流。eco在他的书里批评
: 他,说阐释还是应该有客观标准,引用了他评论的william blake的名诗tiger tiger
: burning bright。但我不记得他怎么评论了。harold bloom后来说是对所谓的文化潮流
: 失去兴趣了,专心搞文本分析,对浪漫主义诗歌研究很深。我也觉得潮流很无聊,还不
: 如扎扎实实搞一点文本研究好。

avatar
s*a
85
美国人摆龙门阵也是很神的,比如马克吐温讲怎么讲故事,如何用停顿来制造恐怖气氛
,可以参看他的文章 how to tell a story:
http://classiclit.about.com/library/bl-etexts/mtwain/bl-mtwain-howto.htm

【在 l****r 的大作中提到】
: 你要是去听真正有水平的大妈八卦,那也绝对是悬念丛生,语言生动的
: 当然三八婆这话一点不对,大爷大哥绝对不输大妈。北京人侃大山,四川人摆龙门阵,
: 各有神通。
: 关键还是要有8的热情,不断练习,互相切磋,最后就8出水平了。。。
: 程序还能有诗意,我头回听说。也许您该贴段code,让大家看看是律诗还是梨花。

avatar
wh
86
赞。我最近看了mark twain的adventures of huck finn电影,很喜欢,觉得这个人心
境应该很开阔,喜欢在海上自由流浪;但又对周围的人感情很深,很负责任。

【在 s**a 的大作中提到】
: 美国人摆龙门阵也是很神的,比如马克吐温讲怎么讲故事,如何用停顿来制造恐怖气氛
: ,可以参看他的文章 how to tell a story:
: http://classiclit.about.com/library/bl-etexts/mtwain/bl-mtwain-howto.htm

avatar
wh
87
这段话我似曾相识——“对希腊人来说不是悬念,希腊人完全知道结局,只是看作家如
何表现”。让我慢慢想想我是在哪里看到的。不过我还是对这话有疑问,比如t-bag对
雪叔乐子karoun来说完全熟悉,我和七妹等就不熟悉。哈姆雷特的故事似乎应该大家都
知道,但其实很多人不熟悉。对所谓的大众、公众作假设,总让人怀疑。
另外这个悬念,听上去有点像口头/群众文学和个人文学的区别。荷马史诗和古希腊戏
剧,都是流传很广的口头文学加工固定下来的,所以对情节众所周知。以后发展到个人
创作的文学,就不是众所周知的故事了。

题。

【在 s**a 的大作中提到】
: 关于古希腊喜剧的悬念问题,你说的是正是大家都觉得正常的问题,俄狄浦斯那个杀父
: 娶母的诅咒怎么可能不是悬念呢?不过亚里斯多德在诗学里面说得清楚,希腊观众在观
: 看索福克勒斯悲剧(以及当时所有的悲剧)的时候,都是对结局知道得清清楚楚的,观
: 众关心的是怎样的问题,就是俄狄浦斯是怎样发现自己身世的,而不是身世是什么。所
: 以并不是说希腊人没有悬念的概念,而是说在他们的文学作品中悬念作为一个现代表现
: 手法(what happens next? will she die?)是不存在的,作家们纠结的是how的问题。

avatar
l*r
88
多谢。
我有个朋友推荐On writing,stephen king的,讲写作。我还没看。
sasa啊,你不要走。少灌可以,别玩消失哦。

【在 s**a 的大作中提到】
: 美国人摆龙门阵也是很神的,比如马克吐温讲怎么讲故事,如何用停顿来制造恐怖气氛
: ,可以参看他的文章 how to tell a story:
: http://classiclit.about.com/library/bl-etexts/mtwain/bl-mtwain-howto.htm

avatar
s*a
89
那我应该把上次tony morrison来学校讲演自己怎样写作的内容贴出来,给你做一个写
作的参考。我当时做了一些笔记,但是没有成文。
我尽量争取到这里来呀。其实我是玩心重,来了就要灌水,所以要控制自己呀。

【在 l****r 的大作中提到】
: 多谢。
: 我有个朋友推荐On writing,stephen king的,讲写作。我还没看。
: sasa啊,你不要走。少灌可以,别玩消失哦。

avatar
s*a
90
你是和瓜弟一起看的电影吗?他们反映怎样?

【在 wh 的大作中提到】
: 赞。我最近看了mark twain的adventures of huck finn电影,很喜欢,觉得这个人心
: 境应该很开阔,喜欢在海上自由流浪;但又对周围的人感情很深,很负责任。

avatar
i*t
91
92年,我在一个偏远的乡下,突然收到本儿纳博科夫的黑暗中的笑声,他老人家上来噼
里啪啦几句话把故事梗概交代了,然后再从头细讲。哪有变戏法的先把大襟撩起来给人
看的呢?我想知道他卖的什么药,一页页读下去,直到最后,发现故事就是他开篇说得
那样。这没悬念的悬念吸引我读完全书。
sasa,你和wh关于悬念的讨论,我觉得最有价值的地方,就在于它证明了绝大多数的人
文研究,恕我直言,是非常无聊的语词捉迷藏。一二三四,二二三四,换个姿势,再来
一次。对了,还有关于扎实的问题,这东西累人啊,你们就跑吧,啥时候跟阿甘一样,
停下来,扭头惨兮兮地说,i'm pretty tired. i'll go home now. 那会儿你们才真正
扎实。刚刚看完prestige,好玩,比coens哥俩那些了无悬念的电影版希腊故事引人入
胜多了。
60年代郭沫若去北大给学生讲座,说做学问要进得去出得来出出进进来去自如,没错,
就是我那个头像的in-and-out,牛筋已经不in了,难道你也要out吗?最爱看你八卦,
老九不要走。。。好像又有点喝多了,俺睡觉去,要是哪句话说错了,明天我不认账。

题。

【在 s**a 的大作中提到】
: 关于古希腊喜剧的悬念问题,你说的是正是大家都觉得正常的问题,俄狄浦斯那个杀父
: 娶母的诅咒怎么可能不是悬念呢?不过亚里斯多德在诗学里面说得清楚,希腊观众在观
: 看索福克勒斯悲剧(以及当时所有的悲剧)的时候,都是对结局知道得清清楚楚的,观
: 众关心的是怎样的问题,就是俄狄浦斯是怎样发现自己身世的,而不是身世是什么。所
: 以并不是说希腊人没有悬念的概念,而是说在他们的文学作品中悬念作为一个现代表现
: 手法(what happens next? will she die?)是不存在的,作家们纠结的是how的问题。

avatar
s*a
92
切不可从我没有想清楚知道得不够的东西,得出结论人文研究都是语言游戏呀。说我无
能就行了,我其实每天都在感到自己无能,罚我回去再想10年20年都是可以的。
这次我说的东西没有意义,下次也许说的就有意义,下次不行,还有再下次,直到我和
问号都死了,还有人来说。其实研究正在于研究的结果不可预测呀,怎么知道一定能得
出有价值的东西呢?这个不仅仅在于人文研究,理工研究也是一样呀。

【在 i*********t 的大作中提到】
: 92年,我在一个偏远的乡下,突然收到本儿纳博科夫的黑暗中的笑声,他老人家上来噼
: 里啪啦几句话把故事梗概交代了,然后再从头细讲。哪有变戏法的先把大襟撩起来给人
: 看的呢?我想知道他卖的什么药,一页页读下去,直到最后,发现故事就是他开篇说得
: 那样。这没悬念的悬念吸引我读完全书。
: sasa,你和wh关于悬念的讨论,我觉得最有价值的地方,就在于它证明了绝大多数的人
: 文研究,恕我直言,是非常无聊的语词捉迷藏。一二三四,二二三四,换个姿势,再来
: 一次。对了,还有关于扎实的问题,这东西累人啊,你们就跑吧,啥时候跟阿甘一样,
: 停下来,扭头惨兮兮地说,i'm pretty tired. i'll go home now. 那会儿你们才真正
: 扎实。刚刚看完prestige,好玩,比coens哥俩那些了无悬念的电影版希腊故事引人入
: 胜多了。

avatar
wh
93
哈哈为啥sasa是老九?你在喝什么酒啊?

【在 i*********t 的大作中提到】
: 92年,我在一个偏远的乡下,突然收到本儿纳博科夫的黑暗中的笑声,他老人家上来噼
: 里啪啦几句话把故事梗概交代了,然后再从头细讲。哪有变戏法的先把大襟撩起来给人
: 看的呢?我想知道他卖的什么药,一页页读下去,直到最后,发现故事就是他开篇说得
: 那样。这没悬念的悬念吸引我读完全书。
: sasa,你和wh关于悬念的讨论,我觉得最有价值的地方,就在于它证明了绝大多数的人
: 文研究,恕我直言,是非常无聊的语词捉迷藏。一二三四,二二三四,换个姿势,再来
: 一次。对了,还有关于扎实的问题,这东西累人啊,你们就跑吧,啥时候跟阿甘一样,
: 停下来,扭头惨兮兮地说,i'm pretty tired. i'll go home now. 那会儿你们才真正
: 扎实。刚刚看完prestige,好玩,比coens哥俩那些了无悬念的电影版希腊故事引人入
: 胜多了。

avatar
l*r
94
贴吧,想看的
其实我也觉得自己灌水太多有负罪感。不过生活里没有机会聊这些话题,来这里说说还
是挺有意思的

【在 s**a 的大作中提到】
: 那我应该把上次tony morrison来学校讲演自己怎样写作的内容贴出来,给你做一个写
: 作的参考。我当时做了一些笔记,但是没有成文。
: 我尽量争取到这里来呀。其实我是玩心重,来了就要灌水,所以要控制自己呀。

avatar
l*r
95
他是在说你们的讨论是语言游戏吗?
我昨天等人的时候还发呆想,文学就是语言游戏,其中有些思想的核在里面,但是主要
还是包装。。。
今早看到in&out的帖子,还以为他说的和我想的差不多呢。。。

【在 s**a 的大作中提到】
: 切不可从我没有想清楚知道得不够的东西,得出结论人文研究都是语言游戏呀。说我无
: 能就行了,我其实每天都在感到自己无能,罚我回去再想10年20年都是可以的。
: 这次我说的东西没有意义,下次也许说的就有意义,下次不行,还有再下次,直到我和
: 问号都死了,还有人来说。其实研究正在于研究的结果不可预测呀,怎么知道一定能得
: 出有价值的东西呢?这个不仅仅在于人文研究,理工研究也是一样呀。

avatar
s*a
96
关于黑暗中的笑声,这正说明了纳博科夫发明了一种新的悬念的办法。这是他先读透了
你作为读者的心理,才能发明这个办法。你已经做了一个研究,得出一个结论了。如果
你再在文学传统中去找这个方式,看以前有没有这个办法,就可以写一本书了。
我和问号的悬念讨论,始于我介绍auerbach的文本分析,实际上问号对我的提问,是说
仅仅进行文本分析是不够的,要知道当时希腊人到底怎么看剧的,他们看戏会不会有悬
念,这就要激发很多考古学材料学的研究。我想这类研究的目的,就是想窥探到底希腊
人的精神世界是怎样的。

【在 i*********t 的大作中提到】
: 92年,我在一个偏远的乡下,突然收到本儿纳博科夫的黑暗中的笑声,他老人家上来噼
: 里啪啦几句话把故事梗概交代了,然后再从头细讲。哪有变戏法的先把大襟撩起来给人
: 看的呢?我想知道他卖的什么药,一页页读下去,直到最后,发现故事就是他开篇说得
: 那样。这没悬念的悬念吸引我读完全书。
: sasa,你和wh关于悬念的讨论,我觉得最有价值的地方,就在于它证明了绝大多数的人
: 文研究,恕我直言,是非常无聊的语词捉迷藏。一二三四,二二三四,换个姿势,再来
: 一次。对了,还有关于扎实的问题,这东西累人啊,你们就跑吧,啥时候跟阿甘一样,
: 停下来,扭头惨兮兮地说,i'm pretty tired. i'll go home now. 那会儿你们才真正
: 扎实。刚刚看完prestige,好玩,比coens哥俩那些了无悬念的电影版希腊故事引人入
: 胜多了。

avatar
e*e
97
这个设置悬念的方法,我记得狄德罗就已经讲过了吧?

【在 s**a 的大作中提到】
: 关于黑暗中的笑声,这正说明了纳博科夫发明了一种新的悬念的办法。这是他先读透了
: 你作为读者的心理,才能发明这个办法。你已经做了一个研究,得出一个结论了。如果
: 你再在文学传统中去找这个方式,看以前有没有这个办法,就可以写一本书了。
: 我和问号的悬念讨论,始于我介绍auerbach的文本分析,实际上问号对我的提问,是说
: 仅仅进行文本分析是不够的,要知道当时希腊人到底怎么看剧的,他们看戏会不会有悬
: 念,这就要激发很多考古学材料学的研究。我想这类研究的目的,就是想窥探到底希腊
: 人的精神世界是怎样的。

avatar
s*a
98
狄德罗哪本书?让我去翻翻。

【在 e***e 的大作中提到】
: 这个设置悬念的方法,我记得狄德罗就已经讲过了吧?
avatar
e*e
99
中译《狄德罗美学论文选》?我不确定了。里边有他几篇关于戏剧的,那时还拿着跟中
戏的小孩掉书袋来着……

【在 s**a 的大作中提到】
: 狄德罗哪本书?让我去翻翻。
avatar
s*a
100
我也记得这本书,我去找来翻翻看。

【在 e***e 的大作中提到】
: 中译《狄德罗美学论文选》?我不确定了。里边有他几篇关于戏剧的,那时还拿着跟中
: 戏的小孩掉书袋来着……

avatar
e*e
101
这本书也能马上找来翻翻?弓虽啊!
是不是《视觉艺术的含义》也在手边?:)
夏天在万圣对面的旧书店买到本王道乾译的《拉辛与莎士比亚》,译文真好。

【在 s**a 的大作中提到】
: 我也记得这本书,我去找来翻翻看。
avatar
s*a
102
主要是这些老书在新浪爱问上面一般都能搜到,果然就找到了。

【在 e***e 的大作中提到】
: 这本书也能马上找来翻翻?弓虽啊!
: 是不是《视觉艺术的含义》也在手边?:)
: 夏天在万圣对面的旧书店买到本王道乾译的《拉辛与莎士比亚》,译文真好。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。