c*b
2 楼
最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
拿到的数据format如下(恳请告知是什么format):
ACAAACGACTCTCGGCAACGGTTGT 2
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
ATAATAGAGGTTTTGCAAAACAAT 1
后面的数字代表read number。
我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
拿到的数据format如下(恳请告知是什么format):
ACAAACGACTCTCGGCAACGGTTGT 2
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
ATAATAGAGGTTTTGCAAAACAAT 1
后面的数字代表read number。
我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
u*1
4 楼
我觉得你要解释更清楚点这到底是什么数据
一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
想对应的phred value的;所以你这肯定不是sequencing数据
印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
sequence?但不懂后面的1,2是什么意思。
总之不知道是什么。还求高人指点。
【在 c********b 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
想对应的phred value的;所以你这肯定不是sequencing数据
印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
sequence?但不懂后面的1,2是什么意思。
总之不知道是什么。还求高人指点。
【在 c********b 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
c*b
6 楼
不好意思,是小RNA的deep sequencing (不是genome sequence),后面的number是表
示read number(abundance)。
我就想把它变成fasta或者其他可以被下游软件识别的格式。
ref
【在 u*********1 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 我觉得你要解释更清楚点这到底是什么数据
: 一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
: 想对应的phred value的;所以你这肯定不是sequencing数据
: 印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
: sequence?但不懂后面的1,2是什么意思。
: 总之不知道是什么。还求高人指点。
示read number(abundance)。
我就想把它变成fasta或者其他可以被下游软件识别的格式。
ref
【在 u*********1 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 我觉得你要解释更清楚点这到底是什么数据
: 一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
: 想对应的phred value的;所以你这肯定不是sequencing数据
: 印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
: sequence?但不懂后面的1,2是什么意思。
: 总之不知道是什么。还求高人指点。
g*e
7 楼
re
a*h
8 楼
我觉得你这个像是tag count file (参考 GBS pipeline)。
自己用 linux shell commands will do that (假设你的文件是space delimit):
cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
>1_2
ACAAACGACTCTCGGCAACGGTTGT
>2_1
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
>3_1
ATAATAGAGGTTTTGCAAAACAAT
sequence ID will be unique if you only have one file and also include read
number information. For multiple files, just do: cat file1 file2 file2 | nl
| gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
自己用 linux shell commands will do that (假设你的文件是space delimit):
cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
>1_2
ACAAACGACTCTCGGCAACGGTTGT
>2_1
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
>3_1
ATAATAGAGGTTTTGCAAAACAAT
sequence ID will be unique if you only have one file and also include read
number information. For multiple files, just do: cat file1 file2 file2 | nl
| gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
c*l
10 楼
Looks like microRNA or other siRNA. A script can do this job.
【在 c********b 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
【在 c********b 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
a*h
12 楼
补充一个:如果是tab delimit:
cat input.txt | nl | sed 's/ //g' | gawk -F'\t' '{print ">"$1"_"$3"\n"$2}'
cat input.txt | nl | sed 's/ //g' | gawk -F'\t' '{print ">"$1"_"$3"\n"$2}'
q*d
13 楼
re
j*p
14 楼
学写script吧~
h*e
19 楼
cong
t*a
20 楼
这解法多漂亮简洁,顶一个
楼主就别发愣了,这个好使
【在 a********h 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 我觉得你这个像是tag count file (参考 GBS pipeline)。
: 自己用 linux shell commands will do that (假设你的文件是space delimit):
: cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
: >1_2
: ACAAACGACTCTCGGCAACGGTTGT
: >2_1
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
: >3_1
: ATAATAGAGGTTTTGCAAAACAAT
: sequence ID will be unique if you only have one file and also include read
楼主就别发愣了,这个好使
【在 a********h 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 我觉得你这个像是tag count file (参考 GBS pipeline)。
: 自己用 linux shell commands will do that (假设你的文件是space delimit):
: cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
: >1_2
: ACAAACGACTCTCGGCAACGGTTGT
: >2_1
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
: >3_1
: ATAATAGAGGTTTTGCAAAACAAT
: sequence ID will be unique if you only have one file and also include read
i*e
23 楼
chi
一些常见面试题的答案与总结 -
http://www.ihas1337code.com
一些常见面试题的答案与总结 -
http://www.ihas1337code.com
a*h
28 楼
don't know Python. My feeling is: perl is much easier to learn than Python
and a bit flexible/powerful than shell script. But it is getting old (no
major updates for a few years!) Python is somewhat like java, your code is
based on how you familiar with the "funcitons" others already written.but
more powerful if you are into some complex problem and for large software (
package) work (where the codes are developed by a team or even multiple
teams). For small informatics jobs, perl or shell is enough.
【在 c********e 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
:
: BTW, what do you think about python vs Perl?
: I exclusively use python and found many traditional labs prefer
: Perl.
s*9
29 楼
恭喜,恭喜!有什么喜事说出来听听~
l*1
30 楼
plus 各取所需 用C++ or Perl or python or R etc 取决于生信分析的对象
样品数量和目的项目
比如楼主的问题 如是 NGS high.through raw data 也可 try python based
Bcbio-nextgen
cited,
Summary: Python scripts and modules for automated next gen sequencing
analysis. These provide a fully automated pipeline for taking sequencing
results from an Illumina sequencer, converting them to standard Fastq format
, aligning to a reference genome, doing SNP calling, and producing a summary
PDF of results
web link:
HTTP: //seqanswers.com/wiki/Bcbio-nextgen
or alternatively,
HTTPS: //bcbio-nextgen.readthedocs.org/en/latest/
for more RNA-seq softs based on different programing platforms,
pls refer,
HTTP: //seqanswers.com/wiki/Software/list
【在 c********e 的大作中提到】![](/moin_static193/solenoid/img/up.png)
:
: BTW, what do you think about python vs Perl?
: I exclusively use python and found many traditional labs prefer
: Perl.
样品数量和目的项目
比如楼主的问题 如是 NGS high.through raw data 也可 try python based
Bcbio-nextgen
cited,
Summary: Python scripts and modules for automated next gen sequencing
analysis. These provide a fully automated pipeline for taking sequencing
results from an Illumina sequencer, converting them to standard Fastq format
, aligning to a reference genome, doing SNP calling, and producing a summary
PDF of results
web link:
HTTP: //seqanswers.com/wiki/Bcbio-nextgen
or alternatively,
HTTPS: //bcbio-nextgen.readthedocs.org/en/latest/
for more RNA-seq softs based on different programing platforms,
pls refer,
HTTP: //seqanswers.com/wiki/Software/list
【在 c********e 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
:
: BTW, what do you think about python vs Perl?
: I exclusively use python and found many traditional labs prefer
: Perl.
r*x
33 楼
re
k*8
34 楼
re
B*l
36 楼
re
R*9
38 楼
good
c*t
40 楼
不客气了
c*t
41 楼
不客气了
t*n
48 楼
吃!
J*a
50 楼
re
T*a
52 楼
cong!
l*t
53 楼
re
g*3
54 楼
re
f*t
55 楼
re
f*y
56 楼
re
f*t
57 楼
re~
z*d
58 楼
re~~
s*3
59 楼
re
h*1
60 楼
RE
z*s
61 楼
re
感谢!
感谢!
相关阅读
pepar help有在NIH作postdoc的童鞋J1 waiver成功的吗?看到Genescript 13万薪水的帖子想到的paper help!FW:Re-又一起学术造假冤案,坚守操持的教授被停职LD数据库?为什么grant 的project end date 和 budget end date是不同的?有人知道sloan-kettering的Hans-Guido Wendel吗北京拟引进500余名海外人才 每位一次性奖100万 (转载)可以推荐一些防止dialysis 蛋白沉淀的方法吗?辉瑞(武汉)全球研发中心招聘 (转载)any inside info about Michael LevittMore Life-Science Jobs Despite Recession吼一声,波士顿top pharm急招co-op intern一名,local only求助:有没有看博士论文的地方?居然发了篇cns (转载) (这么快结果就出来了????)那里可以买到不同分子量的 cellulose? (转载)据说今年7月以后Biomedical Engineering, tissue engineering 前景到底如何啊?能否用solexa测序找到差别表达基因呀?