Redian新闻
>
machine learning来对GWAS结果建模
avatar
machine learning来对GWAS结果建模# Biology - 生物学
e*r
1
最近入手了个nook hd+ 照着置顶帖子的步骤破解了原生系统,现在是2.0.4的版本。(
还是test账户,自己创建profile死活不成功)
虽然可以安装app了,但是很多app都发生了突然stop的问题。比如gmail在我每次选中
自动sync的时候就会stop,现在只好手动刷新特傻。另外一些逃脱类的游戏也在打开时
stop了,甚至nook的app也会stop。
在想要不要刷cm10了,担心电池和稳定性的稳定,不过现在这样实在没法正常使用了,
板上的大牛们能否支个招?多谢了~
avatar
r*e
2
最近在做一些machine learning/data science的工作。
因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
难,或者基于top candidate来预测疾病几乎不可能。
那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
个SNP和疾病状态的关系呢?
Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以
得到good estimate of parameters
但为何看到的文章这么少(或许是我孤陋寡闻)?然后也没有看到有很好的genetics
modeling运用到临床的。是因为这个真正做起来非常复杂?还是有太多arbitrary(比
如使用哪种classifier),所以也是一个坑?
不知道有没有做这个方向的,说说这是不是个坑。
avatar
s*s
3
gwas现在的理论是无数作用微小的SNP,太多predictor会overfitting
你要有兴趣的话去看看Nancy Cox在Vanderbilt的工作,用prediXcan把
SNP translate到表达,然后用表达看比较容易点

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

avatar
d*m
4
对SNP modeling完全不了解,是logit or probit regression + hierarchical
probabilistic model + MCMC
这个步骤吗?
avatar
s*s
5
btw, prediXcan其实就是类似的regression,不过dependent variable是expression而已

【在 s******s 的大作中提到】
: gwas现在的理论是无数作用微小的SNP,太多predictor会overfitting
: 你要有兴趣的话去看看Nancy Cox在Vanderbilt的工作,用prediXcan把
: SNP translate到表达,然后用表达看比较容易点

avatar
G*G
6
what is Y?
categorical variable?
what is the x?
genotype? is it categorical variable?

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

avatar
r*x
7
果然隔行如隔山啊,完全无法理解了

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

avatar
G*G
8
the key is to understand what is exactly x and Y.

【在 r***x 的大作中提到】
: 果然隔行如隔山啊,完全无法理解了
avatar
i*e
9
GWAS是很多,但是拿到数据,尤其N多个GWAS,也不是很简单
summarized results都不一定好拿
更不要说需要genotypes的情况下
有用GWAS top SNPs做polygenic risk score来预测
AUC对比之前用流行病或者临床指标的模型
结果没有太明显突出增强
也有用全基因组的SNPs做类似的工作
或者增加几个权重,比如SNP annotation或者local ancestray之类的
GWAS已经被统计流行病那拨人玩残了
genotypes是一方面,但是疾病表型是另一方面,而且是最重要的一个
这方面高质量的数据,不一定好拿到
此外像shakuras说的那种进一步结合或者转换到更有生物学意义的数据,可能是一个方法
生物学有时空性
但是目前这种snapshot类型的数据来源
多少能反应生物学,那就另说了
但是能玩

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

avatar
h*6
10
Genomic selection 在 cattle 已经做了很多了。prediction accuracy 能在40%左右
就不错了

【在 r**********e 的大作中提到】
: 最近在做一些machine learning/data science的工作。
: 因为过去做过很多genomics,突然有一个想法,比如GWAS里top candidate的解释很困
: 难,或者基于top candidate来预测疾病几乎不可能。
: 那么是不是可以用各种machine learning办法来training比如几万个SNP;得到这几万
: 个SNP和疾病状态的关系呢?
: Y = a1x1 + a2x2 + a3x3 + ....anxn (n = SNP number比如几万个)
: 比如这种最简单的线性关系,然后来寻找W=(a1,a2,a3,...an)这个vector的最优解
: 去搜了一下,有一些这样的paper,但并不是很多。大量GWAS data都是online
: available的,而用python的机器学习package的运算量,也不会太大吧?反正比我们分
: 析WGS要小很多吧?所以我觉得每一种疾病的GWAS都可以拿来做modeling,看是否可以

avatar
G*G
11
谁能告诉我们
模型中的x是什么?Y又是什么?
x是genotype,还是expression value?
Y是phenotype吗?是categorial,还是continuous?

【在 h********6 的大作中提到】
: Genomic selection 在 cattle 已经做了很多了。prediction accuracy 能在40%左右
: 就不错了

avatar
r*e
12
Yes.
Y=control or disease,转化为0或1
X=genotype,比如0,1,2
当然看到有人说直接把AA AC CC化为0,1,2是不是不妥。
我只是对这个问题很有兴趣,但没具体做过。估计很多stat people做过可以来讲讲


: what is Y?

: categorical variable?

: what is the x?

: genotype? is it categorical variable?



【在 G***G 的大作中提到】
: 谁能告诉我们
: 模型中的x是什么?Y又是什么?
: x是genotype,还是expression value?
: Y是phenotype吗?是categorial,还是continuous?

avatar
G*G
13
感觉不容易。binary variables are not suitable for linear regression.

【在 r**********e 的大作中提到】
: Yes.
: Y=control or disease,转化为0或1
: X=genotype,比如0,1,2
: 当然看到有人说直接把AA AC CC化为0,1,2是不是不妥。
: 我只是对这个问题很有兴趣,但没具体做过。估计很多stat people做过可以来讲讲
:
:
: what is Y?
:
: categorical variable?
:
: what is the x?
:
: genotype? is it categorical variable?

avatar
d*m
14
there are things called generalized linear models

【在 G***G 的大作中提到】
: 感觉不容易。binary variables are not suitable for linear regression.
avatar
I*r
15
Bayesian sparse LMM
avatar
r*e
16
Many thanks!
我没有找到正确的关键词polygenic
一搜polygenic,一大堆文章,果然就是被biostatistics玩残了的。
我在想:
1, input selection (应该选择多少snp,是否根据snp的功能分配weight)
2, machine learning的不同model (svm,random forest,linear mixed
regression, sparse regression..)
3, 有如此多不同的疾病
感觉跟作实验一样,也是很多不同hypothesis:assume不同的input snp,尝试不同的
model;然后如此多不同疾病的大量的gwas数据,说不定就碰运气得到好的performance
,然后用到临床上去的?
比如最近这个:
http://www.nature.com/nature/journal/v542/n7639/full/nature21056.html#ref4
Dermatologist-level classification of skin cancer with deep neural networks
还没仔细读,但能到nature上,不知道是否是很成功的deep learning用到临床

【在 i*e 的大作中提到】
: GWAS是很多,但是拿到数据,尤其N多个GWAS,也不是很简单
: summarized results都不一定好拿
: 更不要说需要genotypes的情况下
: 有用GWAS top SNPs做polygenic risk score来预测
: AUC对比之前用流行病或者临床指标的模型
: 结果没有太明显突出增强
: 也有用全基因组的SNPs做类似的工作
: 或者增加几个权重,比如SNP annotation或者local ancestray之类的
: GWAS已经被统计流行病那拨人玩残了
: genotypes是一方面,但是疾病表型是另一方面,而且是最重要的一个

avatar
G*G
17
are you sure it will work?
in his model, y and x both are binary.
I am not a statistician. Can someone confirm the following statement for us?
Generalized linear model cannot deal well with binary x.

【在 d********m 的大作中提到】
: there are things called generalized linear models
avatar
G*G
18
first time heard of this.
is this powerful?
For the Linear Mixed model, is it good when predictors are all binary?

【在 I**********r 的大作中提到】
: Bayesian sparse LMM
avatar
d*m
19
Let me put it this way. ANOVA is a linear regression model with random error
being normally distributed and predictors being encoded categorically. It'
s called dummy variables.
The same idea can certainly be applied on to generalized linear model with
different form of random errors.

us?

【在 G***G 的大作中提到】
: are you sure it will work?
: in his model, y and x both are binary.
: I am not a statistician. Can someone confirm the following statement for us?
: Generalized linear model cannot deal well with binary x.

avatar
g*y
20
glm的y有个link function,binary 一般是logit。
glm的x可以是binary,这里的binary必须作为categorical。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。