Redian新闻
>
Gene length bias for ontology analysis.
avatar
Gene length bias for ontology analysis.# Biology - 生物学
l*6
1
前房主种在菜园子里的,但也不排除是什么花,有包子酬谢!
比较矮,匍匐在地上长的.
avatar
r*e
2
要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker,
找出所有含有at least one such transposon element的基因,然后把gene list直接
放到GO term里去(这里background gene set就是default的人类基因组的所有基因)
。目的是看这些基因是否专门富集到某种category
最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义
说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。
对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper
也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
已经考虑了这个基因大小的bias?
我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon
element作为分子;这样一除就是一个权重score,比如:
gene1 1/3000
gene2 2/50000
大家是如何处理这个基因长度的bias的?谢谢
avatar
a*u
3
土豆

【在 l********6 的大作中提到】
: 前房主种在菜园子里的,但也不排除是什么花,有包子酬谢!
: 比较矮,匍匐在地上长的.

avatar
n*7
4
对这个問題没经验
我感觉这种問題的一般思路就是评估一个background (H0)
只有严重偏离background的才是true signal
btw, 一般TFBS不是看调节区域吗,binding site在gene体的似乎不多?
avatar
a*u
5
土豆

【在 l********6 的大作中提到】
: 前房主种在菜园子里的,但也不排除是什么花,有包子酬谢!
: 比较矮,匍匐在地上长的.

avatar
G*n
6
你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list, 所以
在GO的时候不用考虑length
TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用
考虑。其他的model需要考虑
avatar
l*d
7
RE!

【在 a**u 的大作中提到】
: 土豆
avatar
r*e
8
binding site在intron的也很多啊

【在 n******7 的大作中提到】
: 对这个問題没经验
: 我感觉这种問題的一般思路就是评估一个background (H0)
: 只有严重偏离background的才是true signal
: btw, 一般TFBS不是看调节区域吗,binding site在gene体的似乎不多?

avatar
l*6
9
谢谢。我只有两包子,前面两个都有。
avatar
c*r
10
你做DE analysis的时候是用什么package?
如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化
,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。
然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene
length无关。
写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。
你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到
GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。
如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO
里,应该没问题,也不需要考虑gene length。理由同上。
avatar
j*p
11
长得真好看。
avatar
r*e
12
我就是先MACS算出所有的peaks,bed format,chr:start-end
然后根据这个bed去intersect hg19 gene list
这样就得到所有至少含有一个peaks的gene的list
我的目的就是想看看至少含有一个peaks的gene到底是什么category的(但就会有gene
length bias这个问题)
“考虑过gene length之后算出来的一个list”
怎么算呢?如我说的,比如gene A,这个基因里有3个binding sites,然后基因长度是
10000,然后3/10000就是这个geneA的权重score?
然后人为的设置一个cutoff?比如score排名top 100的基因筛选出来进行 GO TERM?

【在 G******n 的大作中提到】
: 你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list, 所以
: 在GO的时候不用考虑length
: TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用
: 考虑。其他的model需要考虑

avatar
y*8
13
我还以为是basil
真不认得土豆
呵呵

土豆

【在 a**u 的大作中提到】
: 土豆
avatar
r*e
14
或许我没说清楚。DE什么的我完全不懂,貌似是RNA-seq数据分析?differential
expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析)
其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的
binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one
such transposon element的基因,把gene list直接放到GO term里去。
而我的背景list就是default的人类基因组所有的基因吧?

reference。
GO

【在 c*********r 的大作中提到】
: 你做DE analysis的时候是用什么package?
: 如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化
: ,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
: ,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。
: 然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene
: length无关。
: 写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。
: 你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到
: GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。
: 如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO

avatar
a*t
15
不认识土豆的人还真是不少呢。有一天。LG在院子里散步,突然觉得应该赞美我,于是
说,嗯,今年的西红柿长得很好么,只是这么高了怎么还不开花呢?
avatar
c*r
16
如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或
者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。
如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO
分析的结果。

one

【在 r**********e 的大作中提到】
: 或许我没说清楚。DE什么的我完全不懂,貌似是RNA-seq数据分析?differential
: expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析)
: 其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的
: binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one
: such transposon element的基因,把gene list直接放到GO term里去。
: 而我的背景list就是default的人类基因组所有的基因吧?
:
: reference。
: GO

avatar
m*6
17
我也不认识土豆,没种过,话说土豆那么便宜,还是埋在地里不知道怎么看生熟。实在
是没必要种啊~~
avatar
r*e
18
请教下,ChIP-seq之后如何做DE分析和GO分析呢?
我过去分析过一点点ChIP-seq,用的MACS,直接给peak。

GO

【在 c*********r 的大作中提到】
: 如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
: expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或
: 者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。
: 如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
: 况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO
: 分析的结果。
:
: one

avatar
h*w
19
basil +1.....
avatar
y*8
21
听说自己种的和店里卖的味道有天壤之别
又听说土豆只要结了就可以吃,只有大小区别,没有生土豆一说。挖开掰一块再盖上土
后会继续生长的,很神奇的

我也不认识土豆,没种过,话说土豆那么便宜,还是埋在地里不知道怎么看生熟。实在
是没必要种啊~~

【在 m**6 的大作中提到】
: 我也不认识土豆,没种过,话说土豆那么便宜,还是埋在地里不知道怎么看生熟。实在
: 是没必要种啊~~

avatar
c*r
22
我也没做过,想想就觉得不容易。RNA-seq大多数基因都有明确的boundary,很好统计
每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考
虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知
识估计还不完全吧。
简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎
都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑
基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件
,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也
提到length of differential region, 不过我就没有细看了。希望能有点帮助。
http://bib.oxfordjournals.org/content/early/2016/01/12/bib.bbv1

【在 r**********e 的大作中提到】
: 请教下,ChIP-seq之后如何做DE分析和GO分析呢?
: 我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
:
: GO

avatar
l*6
23
我完全没有管,一个月前自己冒出来的,只是想起来的时候才浇点水,比较适合新手种
种。

【在 j******p 的大作中提到】
: 长得真好看。
avatar
r*e
24
受教了
遗憾自己一直没什么RNA-seq的训练
而现在好像bioinfor找工作好多好多都是分析RNA-seq

【在 c*********r 的大作中提到】
: 我也没做过,想想就觉得不容易。RNA-seq大多数基因都有明确的boundary,很好统计
: 每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
: 不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考
: 虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知
: 识估计还不完全吧。
: 简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎
: 都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑
: 基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件
: ,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也
: 提到length of differential region, 不过我就没有细看了。希望能有点帮助。

avatar
l*6
25
这样也太好了,哪天没有菜吃,就来刨地。
听说开花以后地里的土豆就长出来了,当然留得越久,土豆越大吧。

【在 y*****8 的大作中提到】
: 听说自己种的和店里卖的味道有天壤之别
: 又听说土豆只要结了就可以吃,只有大小区别,没有生土豆一说。挖开掰一块再盖上土
: 后会继续生长的,很神奇的
:
: 我也不认识土豆,没种过,话说土豆那么便宜,还是埋在地里不知道怎么看生熟。实在
: 是没必要种啊~~

avatar
N*n
26
都看几个,找几个有意义的基因就行了。
channel gene 可以先排除,第二富集的的啥?
avatar
h*w
27
土豆不是爬地的吗?怎么会长的西红柿一样高?

【在 a*****t 的大作中提到】
: 不认识土豆的人还真是不少呢。有一天。LG在院子里散步,突然觉得应该赞美我,于是
: 说,嗯,今年的西红柿长得很好么,只是这么高了怎么还不开花呢?

avatar
r*e
28
为啥先排除channel gene?

【在 N******n 的大作中提到】
: 都看几个,找几个有意义的基因就行了。
: channel gene 可以先排除,第二富集的的啥?

avatar
a*t
29
土豆能张到一尺半高。不算高啦。
新土豆很好吃,随便煮煮,洒点葱花就很香。每年土豆开花后就可以扒开根边的土偷新
土豆吃,盖上土浇点水它还继续长,挺好的。 而且小朋友都喜欢挖土豆,掘宝似的。

【在 h**w 的大作中提到】
: 土豆不是爬地的吗?怎么会长的西红柿一样高?
avatar
m*6
31
也是,和我种胡萝卜一样啊,味道好是关键!

【在 y*****8 的大作中提到】
: 听说自己种的和店里卖的味道有天壤之别
: 又听说土豆只要结了就可以吃,只有大小区别,没有生土豆一说。挖开掰一块再盖上土
: 后会继续生长的,很神奇的
:
: 我也不认识土豆,没种过,话说土豆那么便宜,还是埋在地里不知道怎么看生熟。实在
: 是没必要种啊~~

avatar
c*y
32
ontology enrichment是功能性分析和长度应该没有关系吧.
你说的在讨论这些问题的paper能给个link吗?

paper

【在 r**********e 的大作中提到】
: 要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker,
: 找出所有含有at least one such transposon element的基因,然后把gene list直接
: 放到GO term里去(这里background gene set就是default的人类基因组的所有基因)
: 。目的是看这些基因是否专门富集到某种category
: 最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义
: 说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。
: 对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper
: 也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
: 已经考虑了这个基因大小的bias?
: 我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon

avatar
c*r
33
RNA-seq分析其实入门挺容易的,edX上的课程看看就会了。

【在 r**********e 的大作中提到】
: 受教了
: 遗憾自己一直没什么RNA-seq的训练
: 而现在好像bioinfor找工作好多好多都是分析RNA-seq

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。