我不是很懂, 抛砖引玉
P-value 就是false的discovery (positive)的概率,用统计的话说就是,incorrect
rejection of a true null hypothesis (也就是你的 false positive)。 但是这个是
针对single test, 但是对于multiple test, 在用p-value就会造成过多的false
positives, 所以需要adjust, 最简单的就是Bonferroni, 直接除以the number of
tests, 但是这样的话会造成很多true positives 不能被发现, 降低了power. 于是,
BH 提出FDR(False discovery rate), 其实也是一种adjust p-value的方法 for
multiple tests, 是p-values 排序(step-up, step-down)的方法来找到threshold. 这
样能保证false positive 在一定level情况下, 找到尽可能多的true positives. 但
是BH证明时, set assumption of independence of tests, 很多情况下并不适用,
于是不断有人做优化, 针对不同depend structure (e.g effective number Meff).
比如, 做blast,在对比query sequence with database时, 由于the size of
database, lengths of sequences 的不同, the number of test 也不同, 所以提出
E-value as adjusted p-value based on the size of database and query sequence
.
不过我也不是很懂