Redian新闻
>
Molecular Index 一般用什么格式存储?
avatar
Molecular Index 一般用什么格式存储?# Biology - 生物学
D*3
1
3岁的男孩一方面开始想着让他上preschool(或是daycare) 这样有同龄的小朋友一起
social。 另一方面想着是不是要开始学些什么了。 希望能强身健体的。 游泳,或是
武术能开始学了吗?
avatar
z*c
2
avatar
n*7
3
现在很多应用都会用上Molecular Index
一般这样的数据,用MI对原始fastq做了demultiplexing之后
用什么格式存储呢?
我看有的人用BAM格式,应该是利用BAM里面很灵活的tags来记录MI的信息
而且很多工具可以用来提取这个信息
但是我总觉得BAM格式overkill了,毕竟这里面没有任何alignment信息
我也听说有人直接根据MI把fastq分了,存在很多subfolder里面
结果就有问题了
我琢磨直接用fastq的ID line存这个信息
因为本质上还是fastq 格式
就是这样记录MI的方式就比较随意了
不是通用标准
avatar
r*f
4

你自己多陪陪孩子,就知道能不能了.

【在 D*****3 的大作中提到】
: 3岁的男孩一方面开始想着让他上preschool(或是daycare) 这样有同龄的小朋友一起
: social。 另一方面想着是不是要开始学些什么了。 希望能强身健体的。 游泳,或是
: 武术能开始学了吗?

avatar
B*u
5
整后是好看些啊
avatar
s*s
6
是说index的序列么?fastq里面支持呀

【在 n******7 的大作中提到】
: 现在很多应用都会用上Molecular Index
: 一般这样的数据,用MI对原始fastq做了demultiplexing之后
: 用什么格式存储呢?
: 我看有的人用BAM格式,应该是利用BAM里面很灵活的tags来记录MI的信息
: 而且很多工具可以用来提取这个信息
: 但是我总觉得BAM格式overkill了,毕竟这里面没有任何alignment信息
: 我也听说有人直接根据MI把fastq分了,存在很多subfolder里面
: 结果就有问题了
: 我琢磨直接用fastq的ID line存这个信息
: 因为本质上还是fastq 格式

avatar
B*e
7
可以啊,起码游泳可以,我们还上一个gym,就跟体育课差不多。画画。如果不介意他
就是去玩玩,不一定学得到什么的话,什么都可以学了,呵呵

【在 D*****3 的大作中提到】
: 3岁的男孩一方面开始想着让他上preschool(或是daycare) 这样有同龄的小朋友一起
: social。 另一方面想着是不是要开始学些什么了。 希望能强身健体的。 游泳,或是
: 武术能开始学了吗?

avatar
z*c
8
才好看一些?! Come On。。。

【在 B*******u 的大作中提到】
: 整后是好看些啊
avatar
n*7
9
谢谢,其实我就是想等你来回答:)
我查了一下,这个是illumina Casava 1.8以后的格式,index在ID这一行的最后:
With Casava 1.8 the format of the '@' line has changed:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
EAS139 the unique instrument name
136 the run id
FC706VJ the flowcell id
2 flowcell lane
2104 tile number within the flowcell lane
15343 'x'-coordinate of the cluster within the tile
197393 'y'-coordinate of the cluster within the tile
1 the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
Y Y if the read is filtered, N otherwise
18 0 when none of the control bits are on, otherwise it is an even number
ATCACG index sequence
我check了一下,这个是用I7/I5 demultiplexing的时候自动生成的
而我是想处理inline barcode sequence,跟这个不一样
不过这个让我有了另一个问题:
这个fastq ID的信息有用吗?
我好像从来没有关注过reads ID
这里面唯一可能有用的就是paired end的/1 /2了
好像早年有些代码还是用这个来识别两个reads
现在都是单独存两个文件了

【在 s******s 的大作中提到】
: 是说index的序列么?fastq里面支持呀
avatar
l*z
10
除了嘴,都做了
开双眼皮,垫鼻梁,鼻翼缩小,削下颌骨加成型。。。
加上化妆,变得彻底
估计得拿上什么证明重新办身份证和护照了,不然入关难了。。。
avatar
s*s
11
en, 现在PE多数都是两个文件了。
大多数工具align的时候,这些信息都默认丢掉了吧。其实理论上也可以做做
batch effect analysis, 不过可能大家觉得数据量够大了,不需要微调了,做做
bqsr就够了,最近说现在机器质量好,连bqsr可能都不用了。
Broad是BAM的忠实使用者,据说他们的机器读出来以后直接都搞成unaligned
BAM, 根本没有FASTQ这个中间状态。这里有BI的人过来确认一下么?
btw,Stanford好像最近扔了一篇文章出来,说hiseq 4000的新chemistry有问题,
做multiplex有5%-10%的错误率,不知道Illumina会不会跳出来撇清。

【在 n******7 的大作中提到】
: 谢谢,其实我就是想等你来回答:)
: 我查了一下,这个是illumina Casava 1.8以后的格式,index在ID这一行的最后:
: With Casava 1.8 the format of the '@' line has changed:
: @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
: EAS139 the unique instrument name
: 136 the run id
: FC706VJ the flowcell id
: 2 flowcell lane
: 2104 tile number within the flowcell lane
: 15343 'x'-coordinate of the cluster within the tile

avatar
n*0
12
象我的韩国邻居。
小区里韩国美女真不少,别都是这样做出来的吧。
avatar
n*7
13
谢谢
记得bam是不记录fastq id line
那我决定随便搞了
board是喜欢bam,我之前说的那个用bam记录demultiplexed reads的就是board出来的
人弄的
还没看源码,感觉是基于picard做的
我问过能不能用fastq.gz
他说fastq只是temporary的格式。。
只是存序列的话,我还是喜欢fastq.gz
简单明了,兼容所有reads处理工具
最多用gzip pipe一下
unaligned bam的压缩比应该差不多,但是后续处理大部分第三方工具不支持
我猜board是喜欢自己搞整个工具链吧
你说的那个hiseq4000的error rate太吓人了,伊鲁米娜肯定不承认,或者会快速修复的

【在 s******s 的大作中提到】
: en, 现在PE多数都是两个文件了。
: 大多数工具align的时候,这些信息都默认丢掉了吧。其实理论上也可以做做
: batch effect analysis, 不过可能大家觉得数据量够大了,不需要微调了,做做
: bqsr就够了,最近说现在机器质量好,连bqsr可能都不用了。
: Broad是BAM的忠实使用者,据说他们的机器读出来以后直接都搞成unaligned
: BAM, 根本没有FASTQ这个中间状态。这里有BI的人过来确认一下么?
: btw,Stanford好像最近扔了一篇文章出来,说hiseq 4000的新chemistry有问题,
: 做multiplex有5%-10%的错误率,不知道Illumina会不会跳出来撇清。

avatar
z*c
14
耳朵没整啊。
所以现在护照加信息条了 :)

【在 l*****z 的大作中提到】
: 除了嘴,都做了
: 开双眼皮,垫鼻梁,鼻翼缩小,削下颌骨加成型。。。
: 加上化妆,变得彻底
: 估计得拿上什么证明重新办身份证和护照了,不然入关难了。。。

avatar
s*s
15
http://biorxiv.org/content/early/2017/04/09/125724
HiSeq 4000 problems
``` We discovered that up to 5-10% of sequencing reads (or signals) are
incorrectly assigned from a given sample to other samples in a multiplexed
pool. We provide evidence that this "spreading-of-signals" arises from low
levels of free index primers present in the pool. These index primers can
prime pooled library fragments at random via complementary 3′ ends, and get
extended by DNA polymerase, creating a new library molecule with a new
index before binding to the patterned flow cell to generate a cluster for
sequencing. This causes the resulting read from that cluster to be assigned
to a different sample, causing the spread of signals within multiplexed
samples. ```

【在 n******7 的大作中提到】
: 谢谢
: 记得bam是不记录fastq id line
: 那我决定随便搞了
: board是喜欢bam,我之前说的那个用bam记录demultiplexed reads的就是board出来的
: 人弄的
: 还没看源码,感觉是基于picard做的
: 我问过能不能用fastq.gz
: 他说fastq只是temporary的格式。。
: 只是存序列的话,我还是喜欢fastq.gz
: 简单明了,兼容所有reads处理工具

avatar
n*g
16
应该是做的,不整容的韩国女孩太丑了

【在 n*********0 的大作中提到】
: 象我的韩国邻居。
: 小区里韩国美女真不少,别都是这样做出来的吧。

avatar
n*7
17
擦,这要是真的,玩大了啊
我看摘要,这不光是HiSeq4000,还有hiseq3000和X ten都有这个问题
In 2015, a new chemistry of cluster generation was introduced in the newer
Illumina machines (HiSeq 3000/4000/X Ten) called exclusion amplification (
ExAmp), which was a fundamental shift from the earlier method of random
cluster generation by bridge amplification on a non-patterned flow cell.
可能最新的novaseq也会有这问题
这要是用来测 tumor samples, 结果完全废了
---
看了一下正文,通篇说hiseq4000是因为他们只有这个测试
Since the HiSeq 3000 and HiSeq X Ten share the same chemistry as the HiSeq
4000, it
is possible that such index switching may also occur at a similar rate using
these sequencers,
although we have not tested this directly.

get
assigned

【在 s******s 的大作中提到】
: http://biorxiv.org/content/early/2017/04/09/125724
: HiSeq 4000 problems
: ``` We discovered that up to 5-10% of sequencing reads (or signals) are
: incorrectly assigned from a given sample to other samples in a multiplexed
: pool. We provide evidence that this "spreading-of-signals" arises from low
: levels of free index primers present in the pool. These index primers can
: prime pooled library fragments at random via complementary 3′ ends, and get
: extended by DNA polymerase, creating a new library molecule with a new
: index before binding to the patterned flow cell to generate a cluster for
: sequencing. This causes the resulting read from that cluster to be assigned

avatar
p*n
18
你这个生下第二代还得整啊
转基因才是王道

【在 z**c 的大作中提到】

avatar
s*s
19
坐等illumina跳出来spin

【在 n******7 的大作中提到】
: 擦,这要是真的,玩大了啊
: 我看摘要,这不光是HiSeq4000,还有hiseq3000和X ten都有这个问题
: In 2015, a new chemistry of cluster generation was introduced in the newer
: Illumina machines (HiSeq 3000/4000/X Ten) called exclusion amplification (
: ExAmp), which was a fundamental shift from the earlier method of random
: cluster generation by bridge amplification on a non-patterned flow cell.
: 可能最新的novaseq也会有这问题
: 这要是用来测 tumor samples, 结果完全废了
: ---
: 看了一下正文,通篇说hiseq4000是因为他们只有这个测试

avatar
z*c
20
听说现在韩国因为整过头,又开始流行单眼皮了 :)
avatar
z*t
21
弱问next-seq 500/550会不会受影响?

:擦,这要是真的,玩大了啊
:我看摘要,这不光是HiSeq4000,还有hiseq3000和X ten都有这个问题
:In 2015, a new chemistry of cluster generation was introduced in the newer
:Illumina machines (HiSeq 3000/4000/X Ten) called exclusion amplification (
:ExAmp), which was a fundamental shift from the earlier method of random
:cluster generation by bridge amplification on a non-patterned flow cell.
:可能最新的novaseq也会有这问题
:这要是用来测 tumor samples, 结果完全废了
:---
:看了一下正文,通篇说hiseq4000是因为他们只有这个测试
:..........

【在 n******7 的大作中提到】
: 擦,这要是真的,玩大了啊
: 我看摘要,这不光是HiSeq4000,还有hiseq3000和X ten都有这个问题
: In 2015, a new chemistry of cluster generation was introduced in the newer
: Illumina machines (HiSeq 3000/4000/X Ten) called exclusion amplification (
: ExAmp), which was a fundamental shift from the earlier method of random
: cluster generation by bridge amplification on a non-patterned flow cell.
: 可能最新的novaseq也会有这问题
: 这要是用来测 tumor samples, 结果完全废了
: ---
: 看了一下正文,通篇说hiseq4000是因为他们只有这个测试

avatar
y*n
22
一猪头整成了孙菲菲,真是化腐朽为神奇。
avatar
n*7
23
no

newer
(

【在 z*t 的大作中提到】
: 弱问next-seq 500/550会不会受影响?
:
: :擦,这要是真的,玩大了啊
: :我看摘要,这不光是HiSeq4000,还有hiseq3000和X ten都有这个问题
: :In 2015, a new chemistry of cluster generation was introduced in the newer
: :Illumina machines (HiSeq 3000/4000/X Ten) called exclusion amplification (
: :ExAmp), which was a fundamental shift from the earlier method of random
: :cluster generation by bridge amplification on a non-patterned flow cell.
: :可能最新的novaseq也会有这问题
: :这要是用来测 tumor samples, 结果完全废了

avatar
B*e
24
我怎么觉得两个耳朵不一样?
avatar
B*4
26
头脸里面塞这么多异物,不会有问题?
avatar
w*n
27
多少钱?
avatar
r*e
28
整容这方面,棒子确实很牛

【在 z**c 的大作中提到】

avatar
z*c
29
我说整过以后的比较面熟,才想起来,象郭美美大侠啊。
avatar
b*o
30
瓦,好神奇!
avatar
k*n
31
唉。。何必呢,原来的很自然亲切的亚,整得再怎么样都是不自然
avatar
c*l
32
人老的话那些填料会合周围的真肉一齐松弛吗?
avatar
i*r
33
孙菲菲也整过,不过底子好些而已

【在 y*******n 的大作中提到】
: 一猪头整成了孙菲菲,真是化腐朽为神奇。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。