R语言，小笔记本，如何调参? - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

R语言，小笔记本，如何调参?

R语言，小笔记本，如何调参?# Programming - 葵花宝典

w*92017-04-19 07:04

1 楼

又上来万能的版面问各位：
想买把面包刀(bread knife)，请问有无物美价廉的推荐？在店里看到很多，价格差别
也很大。还有，刀柄是长的好还是短的好？
多谢～！

T*M2017-04-19 07:04

2 楼

女儿这周学校的活动是关于Johnny Appleseed.
头一次听说这个人,google了一下,也跟着学习了.
跟着孩子一起长大,学习美国文化,历史,人物.
明天要和她装饰一个苹果,做一顶 cooking pot hat带去学校.
Johnny Appleseed was a legendary American who planted and supplied apple
trees to much of the United States of America. Many people think that Johnny
Appleseed was a fictional character, but he was a real person.
Johnny was a skilled nurseryman who grew trees and supplied apple seeds to
the pioneers in the mid-western USA. Appleseed gave away and sold many trees
. He owned many nu

m*n2017-04-19 07:04

3 楼

☆─────────────────────────────────────☆
orangeblue (orangeblue) 于 (Fri Sep 27 22:33:29 2013, 美东) 提到:
激情片断link贴二楼了。朱亚文演得不错，周迅的表演一向有个问题，她很投入，但是
总像是和自己在表演和较量，缺乏和对手的chemistry.
☆─────────────────────────────────────☆
orangeblue (orangeblue) 于 (Fri Sep 27 22:34:43 2013, 美东) 提到:
http://www.youtube.com/watch?v=KDdLxPB7zTQ

☆─────────────────────────────────────☆
fading (逝) 于 (Fri Sep 27 22:40:33 2013, 美东) 提到:
尼玛，穿着那么多搞p啊，起码露个背吧
☆─────────────────────────────────────☆
moonriver (a mile) 于 (Fri Sep 27 22:47:06 2013, 美东) 提到:
迅哥儿很有经验嘛。。。
☆─────────────────────────────────────☆
PetTurtle (Paul^I am what I am!) 于 (Sat Sep 28 00:47:03 2013, 美东) 提到:
骗人！哪有激情！
也就劈腿那下还不错
配乐还不错啊是啥？
国内导演真是不知死啊红高粱都敢乱碰？
☆─────────────────────────────────────☆
orangeblue (orangeblue) 于 (Sat Sep 28 09:28:09 2013, 美东) 提到:
郑小龙算不错的导演了。
我怎么觉得这个音乐配的糟透了。还慢镜头，感觉娇小的周迅费好大劲才拉动大个子的
朱亚文。
朱亚文的我'爷爷'比姜文的更生，少一些憨猛。
☆─────────────────────────────────────☆
aetv8 (随便看看) 于 (Sat Sep 28 10:55:39 2013, 美东) 提到:
有背。。。男的背

q*c2017-04-19 07:04

4 楼

虽然号称硬科幻其实软的和泥巴一样，但是不想科学部分，还是能看的
就是重生之超级战舰

m*r2017-04-19 07:04

5 楼

民科一枚，想请教一下R语言里面你们是如何做parameter tuning的。比如说随机森林
法，至少有两个参数，mtree, mtry。一个参数比如选5~10个数，mtree = 10, 50, 100
, 500, 1000, 1500, etc
另外一个参数mtry,再选5 ~10个数 mtry = 2, 5, 10, 15, 20, etc. 这个grid就有25
~ 100节点。
如果fold = 5 (似乎不能再小了吧？)，如果想要遍历所有的grid, 所花的时间非常的
大，我是民科，只有最简单的笔记本，平时上班用，只好晚上跑；冬天还好，可以开着
窗户跑，夏天听着风扇玩命转真是心疼啊；公家东西也不能糟蹋，是不是。更重要的
是，晚上要是跑不完，早上起来就得强行关掉，否则上班没法用这个机器。这样就浪
费了一晚上的工作量。
第二个问题，随机森林还算好对付，民科我也知道森林大小怎么也不会超过5000, 变量
个数也是有限的。可是其他方法矢量机啦，收缩网啦，那些混合系数,惩罚系数从百
万分之一，到一百万都有可能；这种几乎没有上限的参数，你们怎么试验？对于混合
系数，也许可以试试0, .1, .2, .3,...1 请问还有更好的方法嘛？

R*s2017-04-19 07:04

6 楼

切面包的随便买把就好了吧。。

h*r2017-04-19 07:04

7 楼

原来还真有典故啊。我儿子学校也做过Johnny Appleseed的手工，我还以为就是随便给
那个苹果起了个名字叫Johnny。我还纳闷为什么不是叫苹果，而是叫苹果籽。

Johnny
trees

【在 T********M 的大作中提到】

: 女儿这周学校的活动是关于Johnny Appleseed.
: 头一次听说这个人,google了一下,也跟着学习了.
: 跟着孩子一起长大,学习美国文化,历史,人物.
: 明天要和她装饰一个苹果,做一顶 cooking pot hat带去学校.
: Johnny Appleseed was a legendary American who planted and supplied apple
: trees to much of the United States of America. Many people think that Johnny
: Appleseed was a fictional character, but he was a real person.
: Johnny was a skilled nurseryman who grew trees and supplied apple seeds to
: the pioneers in the mid-western USA. Appleseed gave away and sold many trees
: . He owned many nu

H*i2017-04-19 07:04

8 楼

早看过，是不错。
这种科幻书都是开始还行，后面都是瞎琢磨了。

g*t2017-04-19 07:04

9 楼

找个好电脑，找个快速语言。

w*92017-04-19 07:04

10 楼

我说的是那种刀口有锯齿状的切硬面包的
以前买了一个便宜的，结果一切就弯，遇到Artisan bread 还切不下去

【在 R*****s 的大作中提到】

: 切面包的随便买把就好了吧。。

j*e2017-04-19 07:04

11 楼

this reminds me of a children's book - do you have a hat? highly recommend.
the book introduces historical figures like John Chapman (johnny applaseed
is his nick name) with a hat like cooking pot, Abe Lincoln wore a stovepipe
hat, and many others like walt whitman, fransisco de goya, carmen miranda...
each with a unique hat

M*t2017-04-19 07:04

12 楼

赞，看了
不错

【在 q*c 的大作中提到】

: 虽然号称硬科幻其实软的和泥巴一样，但是不想科学部分，还是能看的
: 就是重生之超级战舰

w*m2017-04-19 07:04

13 楼

其实做统计用R的，对随机森林这些完全没有需求，没地方用。

R*s2017-04-19 07:04

14 楼

我知道啊，怎么会有刀切不动的面包。。。石头面包？

【在 w*****9 的大作中提到】

: 我说的是那种刀口有锯齿状的切硬面包的
: 以前买了一个便宜的，结果一切就弯，遇到Artisan bread 还切不下去

M*t2017-04-19 07:04

15 楼

有点抄袭三体

v*e2017-04-19 07:04

16 楼

就学校里面憋文章的phd们用用，贡献了许多的degrees,功劳大大的。

: 其实做统计用R的，对随机森林这些完全没有需求，没地方用。

【在 w********m 的大作中提到】

: 其实做统计用R的，对随机森林这些完全没有需求，没地方用。

d*22017-04-19 07:04

17 楼

artisan面包阿
http://www.cutleryandmore.com/mac-superior/bread-knife-p18087
http://www.cutleryandmore.com/messermeister-meridian-elite/offset-bread-knife-p17860

l*o2017-04-19 07:04

18 楼

没有。哈，完全不同路啊

【在 M********t 的大作中提到】

: 有点抄袭三体

n*72017-04-19 07:04

19 楼

grid search 还是上cluster吧
几百个node跑一天等于你跑一年

100
25

【在 m******r 的大作中提到】

: 民科一枚，想请教一下R语言里面你们是如何做parameter tuning的。比如说随机森林
: 法，至少有两个参数，mtree, mtry。一个参数比如选5~10个数，mtree = 10, 50, 100
: , 500, 1000, 1500, etc
: 另外一个参数mtry,再选5 ~10个数 mtry = 2, 5, 10, 15, 20, etc. 这个grid就有25
: ~ 100节点。
: 如果fold = 5 (似乎不能再小了吧？)，如果想要遍历所有的grid, 所花的时间非常的
: 大，我是民科，只有最简单的笔记本，平时上班用，只好晚上跑；冬天还好，可以开着
: 窗户跑，夏天听着风扇玩命转真是心疼啊；公家东西也不能糟蹋，是不是。更重要的
: 是，晚上要是跑不完，早上起来就得强行关掉，否则上班没法用这个机器。这样就浪
: 费了一晚上的工作量。

R*s2017-04-19 07:04

20 楼

ft, 面包刀也这么贵，不如买把电锯好了。。

【在 d****2 的大作中提到】

: artisan面包阿
: http://www.cutleryandmore.com/mac-superior/bread-knife-p18087
: http://www.cutleryandmore.com/messermeister-meridian-elite/offset-bread-knife-p17860

H*i2017-04-19 07:04

21 楼

完全不同
，三体是什么级别啊

【在 M********t 的大作中提到】

: 有点抄袭三体

m*r2017-04-19 07:04

22 楼

我知道你水平高，帮帮忙吧。
其实我只要一个range, 这样的要求，算不算太高？
另外别人是怎么做的？我不相信他们他们撒大网一样试参数。

【在 g****t 的大作中提到】

: 找个好电脑，找个快速语言。

d*22017-04-19 07:04

23 楼

scalloped听说还是可以磨的，比较麻烦一些。artisan面包壳确实硬，
俺差点废了一把slicer。

【在 R*****s 的大作中提到】

: ft, 面包刀也这么贵，不如买把电锯好了。。

M*t2017-04-19 07:04

24 楼

有个二维攻击
类似于二项布

【在 l*****o 的大作中提到】

: 没有。哈，完全不同路啊

g*t2017-04-19 07:04

25 楼

我哪有什么水平啊。
我说的是真的，通用的办法真的只有换电脑。你先把
另外我也在找合适的语言。如果找到个好语言，一天能多试验
一些算法和策略，差别是很大的。就是启发式的瞎猜呗。

【在 m******r 的大作中提到】

: 我知道你水平高，帮帮忙吧。
: 其实我只要一个range, 这样的要求，算不算太高？
: 另外别人是怎么做的？我不相信他们他们撒大网一样试参数。

b*o2017-04-19 07:04

26 楼

厚实的刀面比较好。我在国内买的。39块人民币。

【在 w*****9 的大作中提到】

: 又上来万能的版面问各位：
: 想买把面包刀(bread knife)，请问有无物美价廉的推荐？在店里看到很多，价格差别
: 也很大。还有，刀柄是长的好还是短的好？
: 多谢～！

H*i2017-04-19 07:04

27 楼

纬度都是用烂了，后面有个因果攻击很玄幻的

【在 M********t 的大作中提到】

: 有个二维攻击
: 类似于二项布

w*g2017-04-19 07:04

28 楼

我还真没做过grid search. 下面是我这次kaggle比赛的xgboost参数
model = XGBClassifier(n_estimators=1200, learning_rate=0.01,max_depth=2,
subsample=0.9, colsample_bytree=0.4)
最佳n_estimators随learning_rate增加而增加。这两个是相关的。
learning_rate=0.1时最佳的n_estimator大致是100的样子。
max_depth的最佳值和别的都没啥关系。这次铁定是2.
然后大致调下剩下两个参数，就定了。
grid search我觉得做得太绝，也有可能伤人品，一直没用过（开销也大，我没这耐心）

【在 n******7 的大作中提到】

: grid search 还是上cluster吧
: 几百个node跑一天等于你跑一年
:
: 100
: 25

p*e2017-04-19 07:04

29 楼

锯齿刀，刀身长，刀柄长短无所谓

【在 w*****9 的大作中提到】

M*t2017-04-19 07:04

30 楼

还不错，蛮好看的

【在 H*****i 的大作中提到】

: 纬度都是用烂了，后面有个因果攻击很玄幻的

m*r2017-04-19 07:04

31 楼

这话怎么讲，给说说？max_depth = 2 是由于某种原因，或者基于你的判断得来的。
好，那还剩下两个参数，怎么办? 难道不是做grid search ? 就算你事先知道一定的
range, 比如【0， 1】，那么应该实验10次， 100次，甚至1000次？谁能说得清?

心）

【在 w***g 的大作中提到】

: 我还真没做过grid search. 下面是我这次kaggle比赛的xgboost参数
: model = XGBClassifier(n_estimators=1200, learning_rate=0.01,max_depth=2,
: subsample=0.9, colsample_bytree=0.4)
: 最佳n_estimators随learning_rate增加而增加。这两个是相关的。
: learning_rate=0.1时最佳的n_estimator大致是100的样子。
: max_depth的最佳值和别的都没啥关系。这次铁定是2.
: 然后大致调下剩下两个参数，就定了。
: grid search我觉得做得太绝，也有可能伤人品，一直没用过（开销也大，我没这耐心）

w*92017-04-19 07:04

32 楼

刚从国内回来啊,我怎么没想到要买这东西,后悔中

【在 b*****o 的大作中提到】

: 厚实的刀面比较好。我在国内买的。39块人民币。

f*n2017-04-19 07:04

33 楼

到哪儿了？我看到无私的老幽灵文明死亡好像就没了？

n*g2017-04-19 07:04

34 楼

Mtree = 100
Mtry = 根号p
用不着grid search
[在 magliner (magliner) 的大作中提到：]
:民科一枚，想请教一下R语言里面你们是如何做parameter tuning的。比如说随机森
林法，至少有两个参数，mtree, mtry。一个参数比如选5~10个数，mtree = 10, 50,
100, 500, 1000, 1500, etc
:另外一个参数mtry,再选5 ~10个数 mtry = 2, 5, 10, 15, 20, etc. 这个grid就有25
~ 100节点。
:如果fold = 5 (似乎不能再小了吧？)，如果想要遍历所有的grid, 所花的时间非常的
:大，我是民科，只有最简单的笔记本，平时上班用，只好晚上跑；冬天还好，可以开
着窗户跑，夏天听着风扇玩命转真是心疼啊；公家东西也不能糟蹋，是不是。更重要
的是，晚上要是跑不完，早上起来就得强行关掉，否则上班没法用这个机器。这样就
浪费了一晚上的工作量。
:第二个问题，随机森林还算好对付，民科我也知道森林大小怎么也不会超过5000, 变
量个数也是有限的。可是其他方法矢量机啦，收缩网啦，那些混合系数,惩罚系数从百
:万分之一，到一百万都有可能；这种几乎没有上限的参数，你们怎么试验？对于混合
:系数，也许可以试试0, .1, .2, .3,...1 请问还有更好的方法嘛？

w*92017-04-19 07:04

35 楼

谢谢!

【在 p*****e 的大作中提到】

: 锯齿刀，刀身长，刀柄长短无所谓

M*t2017-04-19 07:04

36 楼

完本了

【在 f*****n 的大作中提到】

: 到哪儿了？我看到无私的老幽灵文明死亡好像就没了？

m*r2017-04-19 07:04

37 楼

奇怪，怎么就伤人品了？难道业界真有这种说法？我怎么不知道。
我说做gridsearch, 都是从书上看的。不是我自己想的。

心）

【在 w***g 的大作中提到】

l*s2017-04-19 07:04

38 楼

没吃过那么硬的面包
面包刀都能拉坏掉
那还不把牙给崩掉啦

f*n2017-04-19 07:04

39 楼

感谢

【在 M********t 的大作中提到】

: 完本了

n*72017-04-19 07:04

40 楼

你是根正苗红道上的，追本溯源，讲究江湖规矩
我这种野路子三脚猫，不求甚解，只图简单粗暴

心）

【在 w***g 的大作中提到】

M*t2017-04-19 07:04

41 楼

作者尽然是个18岁的高考学生，前途无量啊！

【在 f*****n 的大作中提到】

: 感谢

n*72017-04-19 07:04

42 楼

这类经典算法，R/python 都是层包裹而已，核心代码应该都是C/C++之类的
瓶颈应该不在语言

【在 g****t 的大作中提到】

: 我哪有什么水平啊。
: 我说的是真的，通用的办法真的只有换电脑。你先把
: 另外我也在找合适的语言。如果找到个好语言，一天能多试验
: 一些算法和策略，差别是很大的。就是启发式的瞎猜呗。

q*c2017-04-19 07:04

43 楼

也是一波流。
后面的书不是烂尾就是不行了

【在 M********t 的大作中提到】

: 作者尽然是个18岁的高考学生，前途无量啊！

n*72017-04-19 07:04

44 楼

我觉得grid search的粒度不用太细
不管你怎么设置，只要你是根据performance来调参数
都会有overfitting的危险
最普适的模型应该是参数尽可能少，或者少调的

【在 m******r 的大作中提到】

: 这话怎么讲，给说说？max_depth = 2 是由于某种原因，或者基于你的判断得来的。
: 好，那还剩下两个参数，怎么办? 难道不是做grid search ? 就算你事先知道一定的
: range, 比如【0， 1】，那么应该实验10次， 100次，甚至1000次？谁能说得清?
:
: 心）

f*n2017-04-19 07:04

45 楼

我觉得他很厉害啊

【在 M********t 的大作中提到】

: 作者尽然是个18岁的高考学生，前途无量啊！

w*g2017-04-19 07:04

46 楼

总结的很到位。我说的伤人品其实也是这个意思，凡事留点余地少点overfit。

【在 n******7 的大作中提到】

: 我觉得grid search的粒度不用太细
: 不管你怎么设置，只要你是根据performance来调参数
: 都会有overfitting的危险
: 最普适的模型应该是参数尽可能少，或者少调的

m*n2017-04-19 07:04

47 楼

关键的问题在于循环里不能用这三个函数
c（）
cbind（）
rbind（）
但凡你用了，慢得出奇。
解决办法是刚开始就建好纯零矩阵，然后填数。
快百倍不止。

m*n2017-04-19 07:04