m*c
2 楼
最近电面了一个大药厂的职位。这道题不知怎么答好。
有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
可以用于病人对于该治疗的预测?
Two patient cohorts, all treated with the same drug. One cohort are the
responders, who has response to the treatment and the other one are non-
responders who does not respond to the treatment. RNAseq was performed and
we have the normalized gene expression values of the 20,000 genes for each
of the patients. The expression value ranges from 0-100 with total average
of 1.
The question is how to find out a gene set (a small portion of the 20,000
gene) and use their combined (maybe weighted) gene expression value to
predict if a patient is either a responder or non-responder to the drug
treatment. It's a binary prediction.
Hope this clear.
多谢指教。
有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
可以用于病人对于该治疗的预测?
Two patient cohorts, all treated with the same drug. One cohort are the
responders, who has response to the treatment and the other one are non-
responders who does not respond to the treatment. RNAseq was performed and
we have the normalized gene expression values of the 20,000 genes for each
of the patients. The expression value ranges from 0-100 with total average
of 1.
The question is how to find out a gene set (a small portion of the 20,000
gene) and use their combined (maybe weighted) gene expression value to
predict if a patient is either a responder or non-responder to the drug
treatment. It's a binary prediction.
Hope this clear.
多谢指教。
j*z
3 楼
我在NSC,但是也希望TSC的兄弟姐妹早绿!
z*e
4 楼
先问每组多少人;
然后PLS-DA,OPLS-DA或者Random forest应该都可以。
然后PLS-DA,OPLS-DA或者Random forest应该都可以。
f*e
5 楼
同绿,多绿,肉烂烂锅里,不要给了烙印。
v*e
6 楼
中值为1还差不,均值为1,一个1000的需要2000个0.5的来平衡?你看他题目是不是写
错了。
错了。
p*j
7 楼
爆发个头。比NSC差了几条街。
a*8
11 楼
现在只是小放水,等爆
d*m
12 楼
你能不能贴下英文?看得我不太明白
H*i
13 楼
TSC双飞是王道!
d*m
14 楼
统计上来讲,一切都是density estimation,你自己想想有哪几个variables,弄几个
assumptions,构建joint density,然后再想想哪些方法可以estimate
conditional density,哪些就能做预测了。这个看起来就是个classification的问题
,方法取决于你对于表达量density function assumption。
assumptions,构建joint density,然后再想想哪些方法可以estimate
conditional density,哪些就能做预测了。这个看起来就是个classification的问题
,方法取决于你对于表达量density function assumption。
s*s
18 楼
不太明白这个均值为1有啥用途,可能是让你提到有些algorithm
要把predictor normalize吧
没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
找subset要么自动找,要么手动stepwise找。前者可以用用lasso
啥的,后者就是把p-value大的,或者information gain多的predictor
一个一个加回去,直到predictor power(比如AUC)不增加为止。当
然最后要一个binary classifier, 那就在外面wrap一个logistic regression
就行了,比如logistic lasso.
机器学习玩的不多,有了feature selection,后面搞点naive bayes
或者decision tree就好了。random forest, neuron networks啥的不说
不管feature selection, 另外这些花样的结果比较难解释,药厂一般
不会搞这些吧。一般偏clinical side的都要容易解释.
现有
得范
达值
【在 m******c 的大作中提到】
: 最近电面了一个大药厂的职位。这道题不知怎么答好。
: 有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
: 每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
: 围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
: 学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
: 可以用于病人对于该治疗的预测?
: Two patient cohorts, all treated with the same drug. One cohort are the
: responders, who has response to the treatment and the other one are non-
: responders who does not respond to the treatment. RNAseq was performed and
: we have the normalized gene expression values of the 20,000 genes for each
要把predictor normalize吧
没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
找subset要么自动找,要么手动stepwise找。前者可以用用lasso
啥的,后者就是把p-value大的,或者information gain多的predictor
一个一个加回去,直到predictor power(比如AUC)不增加为止。当
然最后要一个binary classifier, 那就在外面wrap一个logistic regression
就行了,比如logistic lasso.
机器学习玩的不多,有了feature selection,后面搞点naive bayes
或者decision tree就好了。random forest, neuron networks啥的不说
不管feature selection, 另外这些花样的结果比较难解释,药厂一般
不会搞这些吧。一般偏clinical side的都要容易解释.
现有
得范
达值
【在 m******c 的大作中提到】
: 最近电面了一个大药厂的职位。这道题不知怎么答好。
: 有两组病人,用同一种药治疗,其中一组病人的效果好,而另外一组的疗效不好。现有
: 每个病人的RNAseq数据,也就是两万多个基因的表达值数据(normalized),这个值得范
: 围可能是0-100,非随机,非线性分布,但总体的均值为1. 问用什么样的机器
: 学习的方法或统计方法来找出一组基因,也就是两万多个基因中的一小部分,其表达值
: 可以用于病人对于该治疗的预测?
: Two patient cohorts, all treated with the same drug. One cohort are the
: responders, who has response to the treatment and the other one are non-
: responders who does not respond to the treatment. RNAseq was performed and
: we have the normalized gene expression values of the 20,000 genes for each
C*n
19 楼
TSC可能之前在干别的事情吧
USCIS announced today that data entry of all FY15 H-1B cap petitions has
been completed. USCIS will now begin returning all H-1B cap petitions that
were not selected in the lottery. U.S. businesses use the H-1B program to
employ foreign workers in occupations that require highly specialized
knowledge in fields such as science, engineering, and computer programming.
USCIS announced today that data entry of all FY15 H-1B cap petitions has
been completed. USCIS will now begin returning all H-1B cap petitions that
were not selected in the lottery. U.S. businesses use the H-1B program to
employ foreign workers in occupations that require highly specialized
knowledge in fields such as science, engineering, and computer programming.
d*m
20 楼
赞经验。我昨天下午看到这么大个feature space,一直在想怎么做regularization,
想到似乎有个啥方法可以用,就是
一直想不起来。对,就是这个Lasso。
【在 s******s 的大作中提到】
: 不太明白这个均值为1有啥用途,可能是让你提到有些algorithm
: 要把predictor normalize吧
: 没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
: 找subset要么自动找,要么手动stepwise找。前者可以用用lasso
: 啥的,后者就是把p-value大的,或者information gain多的predictor
: 一个一个加回去,直到predictor power(比如AUC)不增加为止。当
: 然最后要一个binary classifier, 那就在外面wrap一个logistic regression
: 就行了,比如logistic lasso.
: 机器学习玩的不多,有了feature selection,后面搞点naive bayes
: 或者decision tree就好了。random forest, neuron networks啥的不说
想到似乎有个啥方法可以用,就是
一直想不起来。对,就是这个Lasso。
【在 s******s 的大作中提到】
: 不太明白这个均值为1有啥用途,可能是让你提到有些algorithm
: 要把predictor normalize吧
: 没做过biomarker, 不过这题目不是让你建模,而是让你找subset.
: 找subset要么自动找,要么手动stepwise找。前者可以用用lasso
: 啥的,后者就是把p-value大的,或者information gain多的predictor
: 一个一个加回去,直到predictor power(比如AUC)不增加为止。当
: 然最后要一个binary classifier, 那就在外面wrap一个logistic regression
: 就行了,比如logistic lasso.
: 机器学习玩的不多,有了feature selection,后面搞点naive bayes
: 或者decision tree就好了。random forest, neuron networks啥的不说
z*t
22 楼
只是个简单的两组分比对。数值0-100是nb 分布,log转换后平均值1就变成0了。一般
这种分布用glm求p值,然后p值rank,设定显著化水平为0.05后,用dh法求差异化表达
基因的个数。
这种分布用glm求p值,然后p值rank,设定显著化水平为0.05后,用dh法求差异化表达
基因的个数。
k*1
23 楼
快爆发吧
c*i
24 楼
怎么还不爆发啊
m*9
25 楼
等等等等阿等,求快绿
l*m
26 楼
add oil, both
H*C
27 楼
Re
m*a
28 楼
求爆发
a*8
29 楼
今天还得继续等不还是礼拜五再回来等?
相关阅读
求建议!包子一个求文献全文博士后申请对方要了推荐信之后多久问进展比较合适?准备辗转世界各地做10年博后请问upenn的Senior Research Investigator一般给多少钱?幫忙推薦做knock out mice 好的公司STAP細胞はありますっ!小保方晴子さんにAV会社が1億2000(转载)饶毅和施一公从来不讲的发表圈子和经费圈子吐槽10大就业最坑爹的名不副实专业[zz]请大侠们交流一下快速写完毕业论文的经验!我给施一公说句话paper help!有没有人认识布朗大学的Prof. Jay Tang?浙大生研院宣讲会Nature vs. Science的审稿biotinylation 一直做不好 load信号很低UW的同学,打听个老板保健品厂及制药厂股权收购信息请教大家,塑料管子MEA测试失败的可能原因是什么呢?施一公的讲话重点