Redian新闻
>
说说自己的研究:Gene module在生物医学癌症分类(clustering)的应用
avatar
说说自己的研究:Gene module在生物医学癌症分类(clustering)的应用# Biology - 生物学
p*m
1
raid0 raid0
【总结:综合素质上佳 绝对发烧友专项】
从各项测试看,950 PRO并没有压倒一切的优势,经常会不如SM951、Intel SSD 750,
但是前者只是OEM产品,根本买不到,而后者直接从企业级产品搬过来的,只提供PCI-E
扩展卡、U.2 2.5寸两种规格,而且容量和价格都偏高:400GB 389美元、1.2TB 1029美
元。
950 PRO的性能则比较稳定,基本都在前列,经常还能领先,而且容量和价格都更“亲
民”:256GB 200美元、512GB 350美元。
唯一的遗憾就是512GB经常过热导致性能下滑,用在笔记本里会更明显,而在台机里可
以考虑增加机箱对应散热,或者是来一个PCI-E/M.2转接卡,既能用在有PCI-E插槽而无
M.2接口的系统里,也能改善散热。
当然了,950 PRO仍然不是给普通人准备的,一般用户也用不到动辄上GB/s的读写速度
,只有极限发烧友们才适合它。
更关键的是,它代表了一种新的趋势:“高端SATA SSD”即将成为历史名词,PCI-E才
是未来!
NVMe技术前景光明,但是也不用急,三星此前的XP941、SM951都还在用AHCI,这主要是
考虑兼容性和驱动问题,而且电源管理也亟需改善,尤其是用在移动平台上。
950 RPO 512GB时不时过热更凸显了这一问题的严峻性,要知道256GB型号最高也只用到
了PCI-E 3.0 x4带宽的一半,如果想跑满发热量将更加可观。
512GB型号也只有一面安装了闪存,所以完全可以打造双面1TB,只是那样一来散热就更
成问题了。也正因为如此,现在才只有单面256/512GB。
Intel是目前唯一推出U.2 2.5寸固态硬盘的,性能空间也很大,只是系统支持实在匮乏
,尚需时日。
avatar
E*T
2
Gene module在生物医学癌症分类(clustering),以及生物活性marker鉴定的应用
生物医学样品的分类(clustering)及其复杂,有几个原因: 医学样品的构成,比如
说白血病病人,有年龄,性别,癌症分级(I,II,III),用药情况,癌症类别(AML
,ALL)等等。按照不同的标准,就可以把病人样品分成不同的类别(clustering).
更深一层次,不同的类别如果从生物学上来看,是由不同的基因,信号通路引起。如果
能找到这些不同类别对应的pathway,那么相对应的分类也就能被发现。 比如,白血病
里面的一种AML,他相应的信号通路就不同于另一种ALL,所以根据这些基因就能把白血
病分成AML和ALL。同理,如果能发现与癌症分级不同的信号通路,就能把白血病分成I
,II,III等不同的级别。但是,在平常的研究当中,这些具体的分类都不是特别清楚
。大多数情况下,仅仅知道其中的一种,比如在白血病里面就知道AML和ALL的分类,至
于其他的信息,很难得到。所以我们用了unsupervised learning的思想来研究这个问
题。
从生物角度来看,如果一个pathway被启动,那么就有一组基因被turn on. 比如说在
AML, 一组基因high expressed,但是在ALL里面,却是低表达。 这样的一组基因有一
个特性就是他们的correlation很高。 我们就是利用这个原理来寻找相关基因或者信号
通路的。 这里面,特别说明的是我们感兴趣的是一组基因或者相关的信号通路而不是
某个基因。这样的好处是准确率高,假阳性低。很简单的道理,有时候一个基因能很好
的区分一组样品,但是另一组样品里面就失去效果。但是一组基因,或者一个信号通路
,就去掉了很大的假阳性,在不同的样品组里面,都有作用。
根据以上原理,我们设计了一种新的发现一组基因(gene module)的方法。这里面我
们定义了gene module. 他是指有很高相互作用的基因。比如在基因pathway里面,可
能有的基因仅仅和另一个基因有相互作用,我们对这样的基因不是很感兴趣。但是另外
一组基因,他们可能互相作用,形成一个联系很高的网状结构,这就是gene module.
在某种意义上,我们可以认为是gene pathway.
具体的方法: 首先依靠gene correlation建立一个gene co-expression network. 这
个很简单,在matlab或者R里面,就是用一个简单的命令corr(data). 这样就生成了一
个symmetric matrix. 根据基因的数量,这个matrix可能很大,比如说10000X10000.
为了减少后面的计算量,你也可以先做初选,比如选择high variance 的基因。这个过
程是gene filter。在matlab或者R里面就有相应的命令,比如genefilter(data,
Percent=80),就是去掉80% low variance gene. 下一步是对correlation设立一个阈
值,大于这个阈值的,我们说他们之间有相互作用,或者他们相似,就是1,小于的就
是0,没有相互作用。 这样形成的matrix,在network里面叫adjacency matrix. 往往这
样的matrix还很难看出相互作用的分布,因为一般情况是很稀疏的。 我们的下一步的
工作就是neighborhood的引入。如果两个基因的邻居完全一致,或者重合的很多,那么
他们就应当有很高的可能性相互作用,或者相似度很高。这个也很容易实现,就是把
adjacency matrix自己相乘。 如果相似度低,那么对应的matrix里面的值就很低,甚
至有可能是0,代表完全不同。如果相似度很高,对应的值就很高。 下面就是要把高的
都放在一起,低的放在另一边。在R或者matlab里面就是一个命令heatmap。其实是对横
轴纵轴做了两个clustering。这样就看到形似度高的就很热(red),低的很冷(green
)。而且有不同的block,每一个block对应于一gene module,也就是对应于不同的gene
pathway. 如果你用每个gene module里面的基因做clustering,就把医学样品分成不同
的分类。 比如白血病dataset, 有的module可以把它分成AML,ALL,有的把它分成AML-
B cell, AML-T cell等等。 这样就会发现一些新的分类模式。
这种方法对于癌症研究特别有用。和以前说的,就是他们的分类很复杂,比如说有的癌
症类别有可能有特定的基因突变,如果你不测序很可能不知道,但是用这种方法就可以
被发现。主要原因是这些突变改变了很多相关的基因pathway,在co-expression
network里面就容易被捕捉到,相应的heatmap里面形成gene module.
相关文章发表在BMC bioinformatics上面,有问题或者索取相关R,matlab code的站内
回信。
Wang et al., 2014. Improving the sensitivity of sample clustering by
leveraging gene co-expression networks in variable selection, BMC
Bioinformatics 15, 153
avatar
a*o
3
为毛不做成通用PCIe插槽的?这个m2俺们穷人没有啊。

-E

【在 p*******m 的大作中提到】
: raid0 raid0
: 【总结:综合素质上佳 绝对发烧友专项】
: 从各项测试看,950 PRO并没有压倒一切的优势,经常会不如SM951、Intel SSD 750,
: 但是前者只是OEM产品,根本买不到,而后者直接从企业级产品搬过来的,只提供PCI-E
: 扩展卡、U.2 2.5寸两种规格,而且容量和价格都偏高:400GB 389美元、1.2TB 1029美
: 元。
: 950 PRO的性能则比较稳定,基本都在前列,经常还能领先,而且容量和价格都更“亲
: 民”:256GB 200美元、512GB 350美元。
: 唯一的遗憾就是512GB经常过热导致性能下滑,用在笔记本里会更明显,而在台机里可
: 以考虑增加机箱对应散热,或者是来一个PCI-E/M.2转接卡,既能用在有PCI-E插槽而无

avatar
R*n
4
你是一作还是Corresponding?如果你这个strategy怎么扩展到多个层,比如DNA的
epigenetics,small RNA的interaction。我现在的理解是gene expression network受
TF的影响最大,如果几个基因共享transcription complex。

AML

I

【在 E******T 的大作中提到】
: Gene module在生物医学癌症分类(clustering),以及生物活性marker鉴定的应用
: 生物医学样品的分类(clustering)及其复杂,有几个原因: 医学样品的构成,比如
: 说白血病病人,有年龄,性别,癌症分级(I,II,III),用药情况,癌症类别(AML
: ,ALL)等等。按照不同的标准,就可以把病人样品分成不同的类别(clustering).
: 更深一层次,不同的类别如果从生物学上来看,是由不同的基因,信号通路引起。如果
: 能找到这些不同类别对应的pathway,那么相对应的分类也就能被发现。 比如,白血病
: 里面的一种AML,他相应的信号通路就不同于另一种ALL,所以根据这些基因就能把白血
: 病分成AML和ALL。同理,如果能发现与癌症分级不同的信号通路,就能把白血病分成I
: ,II,III等不同的级别。但是,在平常的研究当中,这些具体的分类都不是特别清楚
: 。大多数情况下,仅仅知道其中的一种,比如在白血病里面就知道AML和ALL的分类,至

avatar
D*3
5


【在 a*o 的大作中提到】
: 为毛不做成通用PCIe插槽的?这个m2俺们穷人没有啊。
:
: -E

avatar
R*n
6
你这个把TCGA的数据玩玩,灌个三五篇应该很容易,关键是要和临床的人合作,
validate你的结果。如果只建模,恐怕发不上去好的。

【在 E******T 的大作中提到】
: Gene module在生物医学癌症分类(clustering),以及生物活性marker鉴定的应用
: 生物医学样品的分类(clustering)及其复杂,有几个原因: 医学样品的构成,比如
: 说白血病病人,有年龄,性别,癌症分级(I,II,III),用药情况,癌症类别(AML
: ,ALL)等等。按照不同的标准,就可以把病人样品分成不同的类别(clustering).
: 更深一层次,不同的类别如果从生物学上来看,是由不同的基因,信号通路引起。如果
: 能找到这些不同类别对应的pathway,那么相对应的分类也就能被发现。 比如,白血病
: 里面的一种AML,他相应的信号通路就不同于另一种ALL,所以根据这些基因就能把白血
: 病分成AML和ALL。同理,如果能发现与癌症分级不同的信号通路,就能把白血病分成I
: ,II,III等不同的级别。但是,在平常的研究当中,这些具体的分类都不是特别清楚
: 。大多数情况下,仅仅知道其中的一种,比如在白血病里面就知道AML和ALL的分类,至

avatar
r*i
7
有一种SSD,叫做Flash DIMM

-E

【在 p*******m 的大作中提到】
: raid0 raid0
: 【总结:综合素质上佳 绝对发烧友专项】
: 从各项测试看,950 PRO并没有压倒一切的优势,经常会不如SM951、Intel SSD 750,
: 但是前者只是OEM产品,根本买不到,而后者直接从企业级产品搬过来的,只提供PCI-E
: 扩展卡、U.2 2.5寸两种规格,而且容量和价格都偏高:400GB 389美元、1.2TB 1029美
: 元。
: 950 PRO的性能则比较稳定,基本都在前列,经常还能领先,而且容量和价格都更“亲
: 民”:256GB 200美元、512GB 350美元。
: 唯一的遗憾就是512GB经常过热导致性能下滑,用在笔记本里会更明显,而在台机里可
: 以考虑增加机箱对应散热,或者是来一个PCI-E/M.2转接卡,既能用在有PCI-E插槽而无

avatar
E*T
8
这个也是一个系列的,怎么不给mark呀? 嘻嘻
avatar
r*i
11
不确定,很可能不行,这个走的是内存总线...

【在 p*******m 的大作中提到】
:
: 其他电脑可以用吗?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。