m*c
2 楼
最近电面了一个大药厂的职位。这道题不知怎么答好。
有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
可以用于病人对于该治疗的预测?
Two patient cohorts, all treated with the same drug. One cohort are the
responders, who has response to the treatment and the other one are non-
responders who does not respond to the treatment. RNAseq was performed and
we have the normalized gene expression values of the 20,000 genes for each
of the patients. The expression value ranges from 0-100 with total average
of 1.
The question is how to find out a gene set (a small portion of the 20,000
gene) and use their combined (maybe weighted) gene expression value to
predict if a patient is either a responder or non-responder to the drug
treatment. It's a binary prediction.
Hope this clear.
多谢指教。
有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
可以用于病人对于该治疗的预测?
Two patient cohorts, all treated with the same drug. One cohort are the
responders, who has response to the treatment and the other one are non-
responders who does not respond to the treatment. RNAseq was performed and
we have the normalized gene expression values of the 20,000 genes for each
of the patients. The expression value ranges from 0-100 with total average
of 1.
The question is how to find out a gene set (a small portion of the 20,000
gene) and use their combined (maybe weighted) gene expression value to
predict if a patient is either a responder or non-responder to the drug
treatment. It's a binary prediction.
Hope this clear.
多谢指教。
j*z
3 楼
我在NSC,但是也希望TSC的兄弟姐妹早绿!
z*e
4 楼
先问每组多少人;
然后PLS-DA,OPLS-DA或者Random forest应该都可以。
然后PLS-DA,OPLS-DA或者Random forest应该都可以。
f*e
5 楼
同绿,多绿,肉烂烂锅里,不要给了烙印。
v*e
6 楼
中值为1还差不,均值为1,一个1000的需要2000个0.5的来平衡?你看他题目是不是写
错了。
错了。
p*j
7 楼
爆发个头。比NSC差了几条街。
a*8
11 楼
现在只是小放水,等爆
d*m
12 楼
你能不能贴下英文?看得我不太明白
H*i
13 楼
TSC双飞是王道!
d*m
14 楼
统计上来讲,一切都是density estimation,你自己想想有哪几个variables,弄几个
assumptions,构建joint density,然后再想想哪些方法可以estimate
conditional density,哪些就能做预测了。这个看起来就是个classification的问题
,方法取决于你对于表达量density function assumption。
assumptions,构建joint density,然后再想想哪些方法可以estimate
conditional density,哪些就能做预测了。这个看起来就是个classification的问题
,方法取决于你对于表达量density function assumption。
s*s
18 楼
不太明白这个均值为1有啥用途,可能是让你提到有些algorithm
要把predictor normalize吧
没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
找subset要么自动找,要么手动stepwise找。前者可以用用lasso
啥的,后者就是把p-value大的,或者information gain多的predictor
一个一个加回去,直到predictor power(比如AUC)不增加为止。当
然最后要一个binary classifier, 那就在外面wrap一个logistic regression
就行了,比如logistic lasso.
机器学习玩的不多,有了feature selection,后面搞点naive bayes
或者decision tree就好了。random forest, neuron networks啥的不说
不管feature selection, 另外这些花样的结果比较难解释,药厂一般
不会搞这些吧。一般偏clinical side的都要容易解释.
现有
得范
达值
【在 m******c 的大作中提到】
: 最近电面了一个大药厂的职位。这道题不知怎么答好。
: 有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
: 每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
: 围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
: 学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
: 可以用于病人对于该治疗的预测?
: Two patient cohorts, all treated with the same drug. One cohort are the
: responders, who has response to the treatment and the other one are non-
: responders who does not respond to the treatment. RNAseq was performed and
: we have the normalized gene expression values of the 20,000 genes for each
要把predictor normalize吧
没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
找subset要么自动找,要么手动stepwise找。前者可以用用lasso
啥的,后者就是把p-value大的,或者information gain多的predictor
一个一个加回去,直到predictor power(比如AUC)不增加为止。当
然最后要一个binary classifier, 那就在外面wrap一个logistic regression
就行了,比如logistic lasso.
机器学习玩的不多,有了feature selection,后面搞点naive bayes
或者decision tree就好了。random forest, neuron networks啥的不说
不管feature selection, 另外这些花样的结果比较难解释,药厂一般
不会搞这些吧。一般偏clinical side的都要容易解释.
现有
得范
达值
【在 m******c 的大作中提到】
: 最近电面了一个大药厂的职位。这道题不知怎么答好。
: 有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
: 每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
: 围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
: 学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
: 可以用于病人对于该治疗的预测?
: Two patient cohorts, all treated with the same drug. One cohort are the
: responders, who has response to the treatment and the other one are non-
: responders who does not respond to the treatment. RNAseq was performed and
: we have the normalized gene expression values of the 20,000 genes for each
C*n
19 楼
TSC可能之前在干别的事情吧
USCIS announced today that data entry of all FY15 H-1B cap petitions has
been completed. USCIS will now begin returning all H-1B cap petitions that
were not selected in the lottery. U.S. businesses use the H-1B program to
employ foreign workers in occupations that require highly specialized
knowledge in fields such as science, engineering, and computer programming.
USCIS announced today that data entry of all FY15 H-1B cap petitions has
been completed. USCIS will now begin returning all H-1B cap petitions that
were not selected in the lottery. U.S. businesses use the H-1B program to
employ foreign workers in occupations that require highly specialized
knowledge in fields such as science, engineering, and computer programming.
d*m
20 楼
赞经验。我昨天下午看到这么大个feature space,一直在想怎么做regularization,
想到似乎有个啥方法可以用,就是
一直想不起来。对,就是这个Lasso。
【在 s******s 的大作中提到】
: 不太明白这个均值为1有啥用途,可能是让你提到有些algorithm
: 要把predictor normalize吧
: 没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
: 找subset要么自动找,要么手动stepwise找。前者可以用用lasso
: 啥的,后者就是把p-value大的,或者information gain多的predictor
: 一个一个加回去,直到predictor power(比如AUC)不增加为止。当
: 然最后要一个binary classifier, 那就在外面wrap一个logistic regression
: 就行了,比如logistic lasso.
: 机器学习玩的不多,有了feature selection,后面搞点naive bayes
: 或者decision tree就好了。random forest, neuron networks啥的不说
想到似乎有个啥方法可以用,就是
一直想不起来。对,就是这个Lasso。
【在 s******s 的大作中提到】
: 不太明白这个均值为1有啥用途,可能是让你提到有些algorithm
: 要把predictor normalize吧
: 没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
: 找subset要么自动找,要么手动stepwise找。前者可以用用lasso
: 啥的,后者就是把p-value大的,或者information gain多的predictor
: 一个一个加回去,直到predictor power(比如AUC)不增加为止。当
: 然最后要一个binary classifier, 那就在外面wrap一个logistic regression
: 就行了,比如logistic lasso.
: 机器学习玩的不多,有了feature selection,后面搞点naive bayes
: 或者decision tree就好了。random forest, neuron networks啥的不说
z*t
22 楼
只是个简单的两组分比对。数值0-100是nb 分布,log转换后平均值1就变成0了。一般
这种分布用glm求p值,然后p值rank,设定显著化水平为0.05后,用dh法求差异化表达
基因的个数。
这种分布用glm求p值,然后p值rank,设定显著化水平为0.05后,用dh法求差异化表达
基因的个数。
k*1
23 楼
快爆发吧
c*i
24 楼
怎么还不爆发啊
m*9
25 楼
等等等等阿等,求快绿
l*m
26 楼
add oil, both
H*C
27 楼
Re
m*a
28 楼
求爆发
a*8
29 楼
今天还得继续等不还是礼拜五再回来等?
相关阅读
Shit Graduate Students Say关于: 胡乱选的基因比发表出来的“cancer marker”能更准确为什么说postdoc而不是graduate student 是academic的最底层Biorad Sales/Field Applications Scientist opening请教:去德国开会签证问题。一个极品实验室用家用柜式空调(1-2台)能建一个小的37度Warm Room吗?又一个老印倒下了如何判断mRNA序列5'UTR的TOP序列? 帽子结构依赖型的翻译要分离小鼠脾B细胞, 求教Please help for SNP detection请教个统计方面的问题有了解J. Craig Venter Institute的吗?paper help!!推荐一家卖lentivirus的公司吧求推荐bioinformatics找工作的网站请教心脏echo的问题在什么情况下细胞会下调RNA polymerase II啊?paper help, thanks!paper help