r*e
2 楼
要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker,
找出所有含有at least one such transposon element的基因,然后把gene list直接
放到GO term里去(这里background gene set就是default的人类基因组的所有基因)
。目的是看这些基因是否专门富集到某种category
最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义
说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。
对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper
也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
已经考虑了这个基因大小的bias?
我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon
element作为分子;这样一除就是一个权重score,比如:
gene1 1/3000
gene2 2/50000
大家是如何处理这个基因长度的bias的?谢谢
找出所有含有at least one such transposon element的基因,然后把gene list直接
放到GO term里去(这里background gene set就是default的人类基因组的所有基因)
。目的是看这些基因是否专门富集到某种category
最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义
说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。
对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper
也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
已经考虑了这个基因大小的bias?
我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon
element作为分子;这样一除就是一个权重score,比如:
gene1 1/3000
gene2 2/50000
大家是如何处理这个基因长度的bias的?谢谢
n*7
4 楼
对这个問題没经验
我感觉这种問題的一般思路就是评估一个background (H0)
只有严重偏离background的才是true signal
btw, 一般TFBS不是看调节区域吗,binding site在gene体的似乎不多?
我感觉这种問題的一般思路就是评估一个background (H0)
只有严重偏离background的才是true signal
btw, 一般TFBS不是看调节区域吗,binding site在gene体的似乎不多?
G*n
6 楼
你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list, 所以
在GO的时候不用考虑length
TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用
考虑。其他的model需要考虑
在GO的时候不用考虑length
TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用
考虑。其他的model需要考虑
l*6
9 楼
谢谢。我只有两包子,前面两个都有。
c*r
10 楼
你做DE analysis的时候是用什么package?
如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化
,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。
然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene
length无关。
写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。
你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到
GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。
如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO
里,应该没问题,也不需要考虑gene length。理由同上。
如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化
,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。
然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene
length无关。
写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。
你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到
GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。
如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO
里,应该没问题,也不需要考虑gene length。理由同上。
j*p
11 楼
长得真好看。
r*e
12 楼
我就是先MACS算出所有的peaks,bed format,chr:start-end
然后根据这个bed去intersect hg19 gene list
这样就得到所有至少含有一个peaks的gene的list
我的目的就是想看看至少含有一个peaks的gene到底是什么category的(但就会有gene
length bias这个问题)
“考虑过gene length之后算出来的一个list”
怎么算呢?如我说的,比如gene A,这个基因里有3个binding sites,然后基因长度是
10000,然后3/10000就是这个geneA的权重score?
然后人为的设置一个cutoff?比如score排名top 100的基因筛选出来进行 GO TERM?
【在 G******n 的大作中提到】
: 你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list, 所以
: 在GO的时候不用考虑length
: TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用
: 考虑。其他的model需要考虑
然后根据这个bed去intersect hg19 gene list
这样就得到所有至少含有一个peaks的gene的list
我的目的就是想看看至少含有一个peaks的gene到底是什么category的(但就会有gene
length bias这个问题)
“考虑过gene length之后算出来的一个list”
怎么算呢?如我说的,比如gene A,这个基因里有3个binding sites,然后基因长度是
10000,然后3/10000就是这个geneA的权重score?
然后人为的设置一个cutoff?比如score排名top 100的基因筛选出来进行 GO TERM?
【在 G******n 的大作中提到】
: 你GO term给的gene list 应该是你考虑过gene length之后算出来的一个list, 所以
: 在GO的时候不用考虑length
: TF的话,要看你用什么办法算的,如果是简单的像DAVID一样的enrichment,那也不用
: 考虑。其他的model需要考虑
r*e
14 楼
或许我没说清楚。DE什么的我完全不懂,貌似是RNA-seq数据分析?differential
expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析)
其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的
binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one
such transposon element的基因,把gene list直接放到GO term里去。
而我的背景list就是default的人类基因组所有的基因吧?
reference。
GO
【在 c*********r 的大作中提到】
: 你做DE analysis的时候是用什么package?
: 如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化
: ,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
: ,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。
: 然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene
: length无关。
: 写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。
: 你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到
: GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。
: 如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO
expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析)
其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的
binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one
such transposon element的基因,把gene list直接放到GO term里去。
而我的背景list就是default的人类基因组所有的基因吧?
reference。
GO
【在 c*********r 的大作中提到】
: 你做DE analysis的时候是用什么package?
: 如果是DESeq2或者EdgeR,默认不需要考虑gene length。因为默认是比较相对表达变化
: ,不依赖于gene length。control和treatment或者不同tissue的reference都是一样的
: ,gene length也都是一样的,所以不依赖于gene length。除非你用不同的reference。
: 然后GO analysis input 是DE analysis output,只分析那些DE gene,也和gene
: length无关。
: 写到这里我又看了一下你的问题,突然明白了我以上回答答非所问。。。
: 你只看了某“一个”TF的binding site,然后把这一个list,没有做任何DE,直接放到
: GO里了吗?如果只有一个组织,没有做DE,我不确定这样做是否正确。
: 如果是同一个TF,但是有两个或更多的不同组织,做了DE之后,然后把DE list放到GO
a*t
15 楼
不认识土豆的人还真是不少呢。有一天。LG在院子里散步,突然觉得应该赞美我,于是
说,嗯,今年的西红柿长得很好么,只是这么高了怎么还不开花呢?
说,嗯,今年的西红柿长得很好么,只是这么高了怎么还不开花呢?
c*r
16 楼
如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或
者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。
如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO
分析的结果。
one
【在 r**********e 的大作中提到】
: 或许我没说清楚。DE什么的我完全不懂,貌似是RNA-seq数据分析?differential
: expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析)
: 其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的
: binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one
: such transposon element的基因,把gene list直接放到GO term里去。
: 而我的背景list就是default的人类基因组所有的基因吧?
:
: reference。
: GO
expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或
者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。
如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO
分析的结果。
one
【在 r**********e 的大作中提到】
: 或许我没说清楚。DE什么的我完全不懂,貌似是RNA-seq数据分析?differential
: expression?(刚才查阅后才知道好像ChIP-seq也是可以用DESeq2来分析)
: 其实我真正研究的是某一种transposon element(只不过碰巧是某个TF ChIP-seq的
: binding之一)。我其实做的事情就是根据repeatmasker,找出所有含有at least one
: such transposon element的基因,把gene list直接放到GO term里去。
: 而我的背景list就是default的人类基因组所有的基因吧?
:
: reference。
: GO
m*6
17 楼
我也不认识土豆,没种过,话说土豆那么便宜,还是埋在地里不知道怎么看生熟。实在
是没必要种啊~~
是没必要种啊~~
r*e
18 楼
请教下,ChIP-seq之后如何做DE分析和GO分析呢?
我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
GO
【在 c*********r 的大作中提到】
: 如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
: expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或
: 者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。
: 如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
: 况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO
: 分析的结果。
:
: one
我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
GO
【在 c*********r 的大作中提到】
: 如果是RNA-seq DE之后的GO分析我熟。像你这种的ChIP-seq之后没有做differential
: expression(DE)分析的GO分析,我就不太熟悉了。如果是用来比较TFBS的“密度”或
: 者“浓度”,我觉得需要考虑gene length。但是具体怎么做,我不知道。
: 如果是做DE之后做GO,毕竟需要一个p-value的cutoff来决定你的gene list。你这种情
: 况你怎么确定你的gene list的?这个gene list的大小和选择标准直接关系到后面的GO
: 分析的结果。
:
: one
h*w
19 楼
basil +1.....
d*u
20 楼
试试chip-enrich?
http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk
【在 r**********e 的大作中提到】
: 请教下,ChIP-seq之后如何做DE分析和GO分析呢?
: 我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
:
: GO
http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk
【在 r**********e 的大作中提到】
: 请教下,ChIP-seq之后如何做DE分析和GO分析呢?
: 我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
:
: GO
c*r
22 楼
我也没做过,想想就觉得不容易。RNA-seq大多数基因都有明确的boundary,很好统计
每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考
虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知
识估计还不完全吧。
简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎
都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑
基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件
,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也
提到length of differential region, 不过我就没有细看了。希望能有点帮助。
http://bib.oxfordjournals.org/content/early/2016/01/12/bib.bbv1
【在 r**********e 的大作中提到】
: 请教下,ChIP-seq之后如何做DE分析和GO分析呢?
: 我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
:
: GO
每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考
虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知
识估计还不完全吧。
简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎
都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑
基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件
,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也
提到length of differential region, 不过我就没有细看了。希望能有点帮助。
http://bib.oxfordjournals.org/content/early/2016/01/12/bib.bbv1
【在 r**********e 的大作中提到】
: 请教下,ChIP-seq之后如何做DE分析和GO分析呢?
: 我过去分析过一点点ChIP-seq,用的MACS,直接给peak。
:
: GO
r*e
24 楼
受教了
遗憾自己一直没什么RNA-seq的训练
而现在好像bioinfor找工作好多好多都是分析RNA-seq
【在 c*********r 的大作中提到】
: 我也没做过,想想就觉得不容易。RNA-seq大多数基因都有明确的boundary,很好统计
: 每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
: 不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考
: 虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知
: 识估计还不完全吧。
: 简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎
: 都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑
: 基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件
: ,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也
: 提到length of differential region, 不过我就没有细看了。希望能有点帮助。
遗憾自己一直没什么RNA-seq的训练
而现在好像bioinfor找工作好多好多都是分析RNA-seq
【在 c*********r 的大作中提到】
: 我也没做过,想想就觉得不容易。RNA-seq大多数基因都有明确的boundary,很好统计
: 每个gene/transcript的count。但是ChIP-seq就太复杂了。是按照每个binding site在
: 不同条件下来比较呢?还是调节某个基因的所有binding sites来比较?后者不但要考
: 虑gene length,还要考虑如何定义哪些binding sites是调节哪个基因的,这个现有知
: 识估计还不完全吧。
: 简单查了一下,目前differential binding analysis(我之前叫DE其实不对),几乎
: 都是比较单个的binding site/peak的count差异(如果是这样的话我觉得应该不用考虑
: 基因长度的影响)。下边篇文章比较了十几个ChIP-seq differential analysis的软件
: ,简单的提到了gene ontology,找nearest gene。所以应该还是可以做GO的。里边也
: 提到length of differential region, 不过我就没有细看了。希望能有点帮助。
N*n
26 楼
都看几个,找几个有意义的基因就行了。
channel gene 可以先排除,第二富集的的啥?
channel gene 可以先排除,第二富集的的啥?
r*e
30 楼
多谢多谢
读了这个chip-enrich,还发现另外一个很好的software:GREAT
http://bejerano.stanford.edu/great/public/html/splash.php
专门解决ChIP-seq gene enrichment的问题,自然是normalize了这个gene length的
【在 d*********u 的大作中提到】
: 试试chip-enrich?
: http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk
读了这个chip-enrich,还发现另外一个很好的software:GREAT
http://bejerano.stanford.edu/great/public/html/splash.php
专门解决ChIP-seq gene enrichment的问题,自然是normalize了这个gene length的
【在 d*********u 的大作中提到】
: 试试chip-enrich?
: http://m.nar.oxfordjournals.org/content/early/2014/05/30/nar.gk
c*y
32 楼
ontology enrichment是功能性分析和长度应该没有关系吧.
你说的在讨论这些问题的paper能给个link吗?
paper
【在 r**********e 的大作中提到】
: 要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker,
: 找出所有含有at least one such transposon element的基因,然后把gene list直接
: 放到GO term里去(这里background gene set就是default的人类基因组的所有基因)
: 。目的是看这些基因是否专门富集到某种category
: 最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义
: 说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。
: 对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper
: 也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
: 已经考虑了这个基因大小的bias?
: 我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon
你说的在讨论这些问题的paper能给个link吗?
paper
【在 r**********e 的大作中提到】
: 要研究某一种transposon element在基因组的分布情况。就是根据repeatmasker,
: 找出所有含有at least one such transposon element的基因,然后把gene list直接
: 放到GO term里去(这里background gene set就是default的人类基因组的所有基因)
: 。目的是看这些基因是否专门富集到某种category
: 最后结果的top hit是channel gene;但是有一个问题,很多channel gene(或者广义
: 说brain gene)整个的gene size就比一般的基因大的多,有非常长的intron区域。
: 对于gene enrichment/ontology,这个基因长度是不是很大的bias?我搜索到一些paper
: 也有讨论这个问题的。我不知道gene ontology的网站或者什么DAVID在计算的时候是否
: 已经考虑了这个基因大小的bias?
: 我还有一个想法,就是那gene size作为分母,而一个基因里含有几个transposon
相关阅读
请问Invitrogen的GFP抗体(A11122)是否可以识别AcGFP和ZsGreen1今年的春晚还真是创纪录A question about Immunology两组数据看清华离诺贝尔奖到底有多远?(zz) (转载)cell surface marker staining 问题求助protein carry over and de novo synthesisHelp for paper!MTT assay IC50问一个小鼠死亡的问题postdoc on-site interview的机票生物phd去做人类学的东西会不会很囧啊。。。请教版上个位前辈,博后老板的选择。生物 PHD 报个转码工的 offer (转载)问microRNA mimics, inhibitor 的问题,血清细胞培养脂肪组织提取的蛋白做western为啥跟火箭一样?有啥办法改进?求文章: Three-Dimensional Folding and Functional Organization Principles of the Drosophila Genome请问下priject name后面有(white paper)是啥意思请大牛科普一下,想系统学习一下如何建立实验动物模型,该从何处入手?请教确定interacting proteins的方法