+ -
当前位置:首页 → 问答吧 → 又有问题了

又有问题了

时间:2011-03-24

来源:互联网

>2010
------------------------------------------------------------
------------TCCAGAATGTACAATGGTTATGCAGGTGGTTTTGAAGTGCAGGTGATC
CTCGCGGGGAACGCGTTCA--CCGCCGGAAAAATTATATTTGCAGCAGTCCCACCAAATT
T-----------------TCCAACTGAAGGCTTGAGTCCCAGCC---AGGTCACTATGTT
CCCCCATATAATAGTGGATGTTAGGCAATT-------GGAACCTGTGTT-GATCCC----
-------------------CTTACCTGAT-------GTTAGGAATAATTTCTATCACTAT
AATCAGTCAAATGATTCTACCATTA----------AATTGATAGCAATGCTGTATACACC
ACTTAGGGCTAATAATGCTGGG--------------GATGATGTCTTCACAGTCTCTTGA
>2009
------------------------------------------------------------
------------TCCAGAATGTACAATGGTTATGCAGGTGGTTTTGAAGTGCAGGTGATC
CTCGCGGGGAACGCGTTCA--CCGCCGGAAAAATTATATTTGCAGCAGTCCCACCAAATT
T-----------------TCCAACTGAAGGCTTGAGTCCCAGCC---AGGTCACTATGTT
CCCCCATATAATAGTGGATGTTAGGCAATT-------GGAACCTGTGTT-GATCCC----
-------------------CTTACCTGAT-------GTTAGGAATAATTTCTATCACTAT
AATCAGTCAAATGATTCTACCATTA----------AATTGATAGCAATGCTGTATACACC
ACTTAGGGCTAATAATGCTGGG--------------GATGATGTCTTCACAGTCTCTTGA
以上是我比对完之后的序列,不止这两条。我的目的是去掉中间--------较多的那一段区域,好像是设定一个什么值就可以解决的,请高手指教,谢谢!
比如这两条序列中的最后一行那块GGG--------------GAT
                                             GGG--------------GAT,像这种情况就是--比较多的,也不是说不能含有--标记,只是不能太多,我不知道如何设定这个值。我觉得用匹配的话肯定会比较麻烦。

作者: 超级细菌   发布时间: 2011-03-24

awk '{print gsub("-","-",$0)}' file
可以得到每行有几个“-”

作者: yinyuemi   发布时间: 2011-03-24

回复 yinyuemi


    你好,感谢你的回答,但是我还不是很明白,你的代码中的gsub,awk都是什么意思啊?我还没学到这么高深的程度,还有其他的方法吗?

作者: 超级细菌   发布时间: 2011-03-24

回复 yinyuemi


    你好,我刚在终端运行了一下你说的那个命令,也显示了我每行有多少个--符号,但是这并不能达到我的最终目的啊?谢谢!

作者: 超级细菌   发布时间: 2011-03-24

perl的:

perl -ane  '{@field=split(/-/,$_); if ($#field<num) {print}}'

作者: yinyuemi   发布时间: 2011-03-24

回复 yinyuemi


    你好,我再补充一下我的问题,就是假如连续出现了比方说20个“-”符号,那么我就要把含有20个“-”符号的这些列全都删掉,因为有的序列在这20个“-”这块区域是碱基,不是说只找到了就可以了,据说,好像只要设定一个什么值就能解决,谢谢!

作者: 超级细菌   发布时间: 2011-03-24

本帖最后由 yinyuemi 于 2011-03-24 14:04 编辑

回复 超级细菌


    5楼的代码应该可以满足你的要求,把num换成20,试试

如果只删除20个“-”的,把“<” 改成 "!="

作者: yinyuemi   发布时间: 2011-03-24

回复 yinyuemi


    这个好像不行,结果是,运行完直接把一行全都删掉了,也就是说删掉的东西多了

作者: 超级细菌   发布时间: 2011-03-24

回复 超级细菌


    这个……,perl还在学习中,我试试awk能解决不?

作者: yinyuemi   发布时间: 2011-03-24

回复 超级细菌


    是这个意思么?
  1. awk -v FS= -v l=20 '/^>/{print;next}gsub("-","-",$0)==l{gsub("-","",$0)}1'
复制代码

作者: yinyuemi   发布时间: 2011-03-24

bioperl
  1. use Bio::AlignIO;

  2. my $alni = Bio::AlignIO->new(
  3.   -file => aln.fasta, -format => 'fasta',
  4. );

  5. my $aln = $alni->next_aln;

  6. # Remove all alignment gaps
  7. $aln->remove_gaps;

  8. my $alno = Bio::AlignIO->new(
  9.   -file => ">out.fasta", -format => 'fasta',    # output in fasta format
  10. );

  11. $alno->write_aln($aln);  # 输出去掉 gap 的比对
复制代码

作者: longbow0   发布时间: 2011-03-24