c*b
2 楼
最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
拿到的数据format如下(恳请告知是什么format):
ACAAACGACTCTCGGCAACGGTTGT 2
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
ATAATAGAGGTTTTGCAAAACAAT 1
后面的数字代表read number。
我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
拿到的数据format如下(恳请告知是什么format):
ACAAACGACTCTCGGCAACGGTTGT 2
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
ATAATAGAGGTTTTGCAAAACAAT 1
后面的数字代表read number。
我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
u*1
4 楼
我觉得你要解释更清楚点这到底是什么数据
一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
想对应的phred value的;所以你这肯定不是sequencing数据
印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
sequence?但不懂后面的1,2是什么意思。
总之不知道是什么。还求高人指点。
【在 c********b 的大作中提到】
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
想对应的phred value的;所以你这肯定不是sequencing数据
印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
sequence?但不懂后面的1,2是什么意思。
总之不知道是什么。还求高人指点。
【在 c********b 的大作中提到】
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
c*b
6 楼
不好意思,是小RNA的deep sequencing (不是genome sequence),后面的number是表
示read number(abundance)。
我就想把它变成fasta或者其他可以被下游软件识别的格式。
ref
【在 u*********1 的大作中提到】
: 我觉得你要解释更清楚点这到底是什么数据
: 一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
: 想对应的phred value的;所以你这肯定不是sequencing数据
: 印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
: sequence?但不懂后面的1,2是什么意思。
: 总之不知道是什么。还求高人指点。
示read number(abundance)。
我就想把它变成fasta或者其他可以被下游软件识别的格式。
ref
【在 u*********1 的大作中提到】
: 我觉得你要解释更清楚点这到底是什么数据
: 一般的sequencing reads的数据,首先最短的reads也有36bp,其次所有的base都是有
: 想对应的phred value的;所以你这肯定不是sequencing数据
: 印象中一般都是reference genome是fasta格式,所以我猜测你这是什么species的ref
: sequence?但不懂后面的1,2是什么意思。
: 总之不知道是什么。还求高人指点。
g*e
7 楼
re
a*h
8 楼
我觉得你这个像是tag count file (参考 GBS pipeline)。
自己用 linux shell commands will do that (假设你的文件是space delimit):
cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
>1_2
ACAAACGACTCTCGGCAACGGTTGT
>2_1
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
>3_1
ATAATAGAGGTTTTGCAAAACAAT
sequence ID will be unique if you only have one file and also include read
number information. For multiple files, just do: cat file1 file2 file2 | nl
| gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
自己用 linux shell commands will do that (假设你的文件是space delimit):
cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
>1_2
ACAAACGACTCTCGGCAACGGTTGT
>2_1
ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
>3_1
ATAATAGAGGTTTTGCAAAACAAT
sequence ID will be unique if you only have one file and also include read
number information. For multiple files, just do: cat file1 file2 file2 | nl
| gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
c*l
10 楼
Looks like microRNA or other siRNA. A script can do this job.
【在 c********b 的大作中提到】
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
【在 c********b 的大作中提到】
: 最近处理一批发表过的数据,完全没有经验,求大家给科普一下。
: 拿到的数据format如下(恳请告知是什么format):
: ACAAACGACTCTCGGCAACGGTTGT 2
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG 1
: ATAATAGAGGTTTTGCAAAACAAT 1
: 后面的数字代表read number。
: 我想把这个data换成fasta格式的,不知道什么软件合适,几个million,也不知道自己
: 的机子能不能搞定。最好是能够有简单的UI,不然搞不定啊,555.
a*h
12 楼
补充一个:如果是tab delimit:
cat input.txt | nl | sed 's/ //g' | gawk -F'\t' '{print ">"$1"_"$3"\n"$2}'
cat input.txt | nl | sed 's/ //g' | gawk -F'\t' '{print ">"$1"_"$3"\n"$2}'
q*d
13 楼
re
j*p
14 楼
学写script吧~
h*e
19 楼
cong
t*a
20 楼
这解法多漂亮简洁,顶一个
楼主就别发愣了,这个好使
【在 a********h 的大作中提到】
: 我觉得你这个像是tag count file (参考 GBS pipeline)。
: 自己用 linux shell commands will do that (假设你的文件是space delimit):
: cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
: >1_2
: ACAAACGACTCTCGGCAACGGTTGT
: >2_1
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
: >3_1
: ATAATAGAGGTTTTGCAAAACAAT
: sequence ID will be unique if you only have one file and also include read
楼主就别发愣了,这个好使
【在 a********h 的大作中提到】
: 我觉得你这个像是tag count file (参考 GBS pipeline)。
: 自己用 linux shell commands will do that (假设你的文件是space delimit):
: cat input.txt | nl | gawk -F' ' '{print ">"$1"_"$3"\n"$2}'
: >1_2
: ACAAACGACTCTCGGCAACGGTTGT
: >2_1
: ATATGAAGACAAGTAGTGCAGCTCGGAGACGGG
: >3_1
: ATAATAGAGGTTTTGCAAAACAAT
: sequence ID will be unique if you only have one file and also include read
i*e
23 楼
chi
一些常见面试题的答案与总结 -
http://www.ihas1337code.com
一些常见面试题的答案与总结 -
http://www.ihas1337code.com
a*h
28 楼
don't know Python. My feeling is: perl is much easier to learn than Python
and a bit flexible/powerful than shell script. But it is getting old (no
major updates for a few years!) Python is somewhat like java, your code is
based on how you familiar with the "funcitons" others already written.but
more powerful if you are into some complex problem and for large software (
package) work (where the codes are developed by a team or even multiple
teams). For small informatics jobs, perl or shell is enough.
【在 c********e 的大作中提到】
:
: BTW, what do you think about python vs Perl?
: I exclusively use python and found many traditional labs prefer
: Perl.
s*9
29 楼
恭喜,恭喜!有什么喜事说出来听听~
l*1
30 楼
plus 各取所需 用C++ or Perl or python or R etc 取决于生信分析的对象
样品数量和目的项目
比如楼主的问题 如是 NGS high.through raw data 也可 try python based
Bcbio-nextgen
cited,
Summary: Python scripts and modules for automated next gen sequencing
analysis. These provide a fully automated pipeline for taking sequencing
results from an Illumina sequencer, converting them to standard Fastq format
, aligning to a reference genome, doing SNP calling, and producing a summary
PDF of results
web link:
HTTP: //seqanswers.com/wiki/Bcbio-nextgen
or alternatively,
HTTPS: //bcbio-nextgen.readthedocs.org/en/latest/
for more RNA-seq softs based on different programing platforms,
pls refer,
HTTP: //seqanswers.com/wiki/Software/list
【在 c********e 的大作中提到】
:
: BTW, what do you think about python vs Perl?
: I exclusively use python and found many traditional labs prefer
: Perl.
样品数量和目的项目
比如楼主的问题 如是 NGS high.through raw data 也可 try python based
Bcbio-nextgen
cited,
Summary: Python scripts and modules for automated next gen sequencing
analysis. These provide a fully automated pipeline for taking sequencing
results from an Illumina sequencer, converting them to standard Fastq format
, aligning to a reference genome, doing SNP calling, and producing a summary
PDF of results
web link:
HTTP: //seqanswers.com/wiki/Bcbio-nextgen
or alternatively,
HTTPS: //bcbio-nextgen.readthedocs.org/en/latest/
for more RNA-seq softs based on different programing platforms,
pls refer,
HTTP: //seqanswers.com/wiki/Software/list
【在 c********e 的大作中提到】
:
: BTW, what do you think about python vs Perl?
: I exclusively use python and found many traditional labs prefer
: Perl.
r*x
33 楼
re
k*8
34 楼
re
B*l
36 楼
re
R*9
38 楼
good
c*t
40 楼
不客气了
c*t
41 楼
不客气了
t*n
48 楼
吃!
J*a
50 楼
re
T*a
52 楼
cong!
l*t
53 楼
re
g*3
54 楼
re
f*t
55 楼
re
f*y
56 楼
re
f*t
57 楼
re~
z*d
58 楼
re~~
s*3
59 楼
re
h*1
60 楼
RE
z*s
61 楼
re
感谢!
感谢!
相关阅读
Paper Help, thanks!施一公说过世界上有特异功能Re: 围观一下武汉大学纪委怎样包庇对党不老实的李红良文章造质疑批评撤销,美国版本的韩春雨Re: 能老师进入更年期了 (转载)生物人不可不知的国内外十大生命科学领军人物请教学术转工业界的问题手上有一篇生物统计方向的文章需要找reviewer高考状元清华毕业后当保安Re: Tianzi和纽约时报讲一下,正需要打击中国产品的素材人到五十做肠镜paper help生物版,聊一点生物吧Re: 请教一下带学生的经验和方法 (转载)食人族与克鲁氏症饶毅说要跟我(方)直播辩论bio-rad 产品购买南农大给牛针灸给狗把脉,中科院研发聪明汤机器人要抢人类饭碗,你准备好了吗?夜色这么美好,你们还在实验室吗?