c*b
2 楼
最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
拿到的数据format如下(恳请告知是什么format):
ACAAACGACTCTCGGCAACGGTTGT 2
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
ATAATAGAGGTTTTGCAAAACAAT 1
后面的数字代表read number。
我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
拿到的数据format如下(恳请告知是什么format):
ACAAACGACTCTCGGCAACGGTTGT 2
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
ATAATAGAGGTTTTGCAAAACAAT 1
后面的数字代表read number。
我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
u*1
4 楼
我觉得你要解释更清楚点这到底是什么数据
一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
想对应的phred value的;所以你这肯定不是sequencing数据
印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
sequence?但不懂后面的1,2是什么意思。
总之不知道是什么。还求高人指点。
【在 c********b 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
想对应的phred value的;所以你这肯定不是sequencing数据
印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
sequence?但不懂后面的1,2是什么意思。
总之不知道是什么。还求高人指点。
【在 c********b 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
c*b
6 楼
不好意思,是小RNA的deep sequencing (不是genome sequence),后面的number是表
示read number(abundance)。
我就想把它变成fasta或者其他可以被下游软件识别的格式。
ref
【在 u*********1 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 我觉得你要解释更清楚点这到底是什么数据
: 一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
: 想对应的phred value的;所以你这肯定不是sequencing数据
: 印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
: sequence?但不懂后面的1,2是什么意思。
: 总之不知道是什么。还求高人指点。
示read number(abundance)。
我就想把它变成fasta或者其他可以被下游软件识别的格式。
ref
【在 u*********1 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 我觉得你要解释更清楚点这到底是什么数据
: 一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
: 想对应的phred value的;所以你这肯定不是sequencing数据
: 印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
: sequence?但不懂后面的1,2是什么意思。
: 总之不知道是什么。还求高人指点。
g*e
7 楼
re
a*h
8 楼
我觉得你这个像是tag count file (参考 GBS pipeline)。
自己用 linux shell commands will do that (假设你的文件是space delimit):
cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
>1_2
ACAAACGACTCTCGGCAACGGTTGT
>2_1
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
>3_1
ATAATAGAGGTTTTGCAAAACAAT
sequence ID will be unique if you only have one file and also include read
number information. For multiple files, just do: cat file1 file2 file2 | nl
| gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
自己用 linux shell commands will do that (假设你的文件是space delimit):
cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
>1_2
ACAAACGACTCTCGGCAACGGTTGT
>2_1
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
>3_1
ATAATAGAGGTTTTGCAAAACAAT
sequence ID will be unique if you only have one file and also include read
number information. For multiple files, just do: cat file1 file2 file2 | nl
| gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
c*l
10 楼
Looks like microRNA or other siRNA. A script can do this job.
【在 c********b 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
【在 c********b 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
a*h
12 楼
补充一个:如果是tab delimit:
cat input.txt | nl | sed 's/ //g' | gawk -F'\t' '{print ">"$1"_"$3"\n"$2}'
cat input.txt | nl | sed 's/ //g' | gawk -F'\t' '{print ">"$1"_"$3"\n"$2}'
q*d
13 楼
re
j*p
14 楼
学写script吧~
h*e
19 楼
cong
t*a
20 楼
这解法多漂亮简洁,顶一个
楼主就别发愣了,这个好使
【在 a********h 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 我觉得你这个像是tag count file (参考 GBS pipeline)。
: 自己用 linux shell commands will do that (假设你的文件是space delimit):
: cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
: >1_2
: ACAAACGACTCTCGGCAACGGTTGT
: >2_1
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
: >3_1
: ATAATAGAGGTTTTGCAAAACAAT
: sequence ID will be unique if you only have one file and also include read
楼主就别发愣了,这个好使
【在 a********h 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 我觉得你这个像是tag count file (参考 GBS pipeline)。
: 自己用 linux shell commands will do that (假设你的文件是space delimit):
: cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
: >1_2
: ACAAACGACTCTCGGCAACGGTTGT
: >2_1
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
: >3_1
: ATAATAGAGGTTTTGCAAAACAAT
: sequence ID will be unique if you only have one file and also include read
i*e
23 楼
chi
一些常见面试题的答案与总结 -
http://www.ihas1337code.com
一些常见面试题的答案与总结 -
http://www.ihas1337code.com
a*h
28 楼
don't know Python. My feeling is: perl is much easier to learn than Python
and a bit flexible/powerful than shell script. But it is getting old (no
major updates for a few years!) Python is somewhat like java, your code is
based on how you familiar with the "funcitons" others already written.but
more powerful if you are into some complex problem and for large software (
package) work (where the codes are developed by a team or even multiple
teams). For small informatics jobs, perl or shell is enough.
【在 c********e 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
:
: BTW, what do you think about python vs Perl?
: I exclusively use python and found many traditional labs prefer
: Perl.
s*9
29 楼
恭喜,恭喜!有什么喜事说出来听听~
l*1
30 楼
plus 各取所需 用C++ or Perl or python or R etc 取决于生信分析的对象
样品数量和目的项目
比如楼主的问题 如是 NGS high.through raw data 也可 try python based
Bcbio-nextgen
cited,
Summary: Python scripts and modules for automated next gen sequencing
analysis. These provide a fully automated pipeline for taking sequencing
results from an Illumina sequencer, converting them to standard Fastq format
, aligning to a reference genome, doing SNP calling, and producing a summary
PDF of results
web link:
HTTP: //seqanswers.com/wiki/Bcbio-nextgen
or alternatively,
HTTPS: //bcbio-nextgen.readthedocs.org/en/latest/
for more RNA-seq softs based on different programing platforms,
pls refer,
HTTP: //seqanswers.com/wiki/Software/list
【在 c********e 的大作中提到】![](/moin_static193/solenoid/img/up.png)
:
: BTW, what do you think about python vs Perl?
: I exclusively use python and found many traditional labs prefer
: Perl.
样品数量和目的项目
比如楼主的问题 如是 NGS high.through raw data 也可 try python based
Bcbio-nextgen
cited,
Summary: Python scripts and modules for automated next gen sequencing
analysis. These provide a fully automated pipeline for taking sequencing
results from an Illumina sequencer, converting them to standard Fastq format
, aligning to a reference genome, doing SNP calling, and producing a summary
PDF of results
web link:
HTTP: //seqanswers.com/wiki/Bcbio-nextgen
or alternatively,
HTTPS: //bcbio-nextgen.readthedocs.org/en/latest/
for more RNA-seq softs based on different programing platforms,
pls refer,
HTTP: //seqanswers.com/wiki/Software/list
【在 c********e 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
:
: BTW, what do you think about python vs Perl?
: I exclusively use python and found many traditional labs prefer
: Perl.
r*x
33 楼
re
k*8
34 楼
re
B*l
36 楼
re
R*9
38 楼
good
c*t
40 楼
不客气了
c*t
41 楼
不客气了
t*n
48 楼
吃!
J*a
50 楼
re
T*a
52 楼
cong!
l*t
53 楼
re
g*3
54 楼
re
f*t
55 楼
re
f*y
56 楼
re
f*t
57 楼
re~
z*d
58 楼
re~~
s*3
59 楼
re
h*1
60 楼
RE
z*s
61 楼
re
感谢!
感谢!
相关阅读
现在斗争的双方主要是谁和谁?Solute: Xiaodong is the MAN!刚才这个帖子怎么马上给删了?[问题] 免疫:neutralizaiton, opsonization的区别是啥啊?这次11公是最大的赢家谣言:Michael Karin 要到 MD Anderson了。国外院士和国内院士的最根本区别帮助了解一下体制内的声音熙熙攘攘,皆为利来!细胞如何从美国带回中国哪位能给我们科普一下当院士到底有什么好处?quit PHD之后再申请别的专业PHD是不是很难询问哥伦比亚大学医学院的博后情况~!【文献求助】Adv Exp Med Biol王晓东们是救世主吗?(zz from 科学网)讨论一下对施饶的批评选院士只有学术这个唯一标准吗?一篇 CNS 值多少钱绕一被淘汰再次说明院士们是有骨气,有良知的问个学术问题,有什么peptide在ER里聚集会导致apoptosis