当前位置：首页 → 问答吧 → 又有问题了

又有问题了

时间：2011-03-24

来源：互联网

>2010
------------------------------------------------------------
------------TCCAGAATGTACAATGGTTATGCAGGTGGTTTTGAAGTGCAGGTGATC
CTCGCGGGGAACGCGTTCA--CCGCCGGAAAAATTATATTTGCAGCAGTCCCACCAAATT
T-----------------TCCAACTGAAGGCTTGAGTCCCAGCC---AGGTCACTATGTT
CCCCCATATAATAGTGGATGTTAGGCAATT-------GGAACCTGTGTT-GATCCC----
-------------------CTTACCTGAT-------GTTAGGAATAATTTCTATCACTAT
AATCAGTCAAATGATTCTACCATTA----------AATTGATAGCAATGCTGTATACACC
ACTTAGGGCTAATAATGCTGGG--------------GATGATGTCTTCACAGTCTCTTGA
>2009
------------------------------------------------------------
------------TCCAGAATGTACAATGGTTATGCAGGTGGTTTTGAAGTGCAGGTGATC
CTCGCGGGGAACGCGTTCA--CCGCCGGAAAAATTATATTTGCAGCAGTCCCACCAAATT
T-----------------TCCAACTGAAGGCTTGAGTCCCAGCC---AGGTCACTATGTT
CCCCCATATAATAGTGGATGTTAGGCAATT-------GGAACCTGTGTT-GATCCC----
-------------------CTTACCTGAT-------GTTAGGAATAATTTCTATCACTAT
AATCAGTCAAATGATTCTACCATTA----------AATTGATAGCAATGCTGTATACACC
ACTTAGGGCTAATAATGCTGGG--------------GATGATGTCTTCACAGTCTCTTGA
以上是我比对完之后的序列，不止这两条。我的目的是去掉中间--------较多的那一段区域，好像是设定一个什么值就可以解决的，请高手指教，谢谢！
比如这两条序列中的最后一行那块GGG--------------GAT
GGG--------------GAT，像这种情况就是--比较多的，也不是说不能含有--标记，只是不能太多，我不知道如何设定这个值。我觉得用匹配的话肯定会比较麻烦。

作者: 超级细菌发布时间: 2011-03-24

awk '{print gsub("-","-",$0)}' file
可以得到每行有几个“-”

作者: yinyuemi 发布时间: 2011-03-24

回复 yinyuemi

你好，感谢你的回答，但是我还不是很明白，你的代码中的gsub,awk都是什么意思啊？我还没学到这么高深的程度，还有其他的方法吗？

作者: 超级细菌发布时间: 2011-03-24

回复 yinyuemi

你好，我刚在终端运行了一下你说的那个命令，也显示了我每行有多少个--符号，但是这并不能达到我的最终目的啊？谢谢！

作者: 超级细菌发布时间: 2011-03-24

perl的：

perl -ane '{@field=split(/-/,$_); if ($#field<num) {print}}'

作者: yinyuemi 发布时间: 2011-03-24

回复 yinyuemi

你好，我再补充一下我的问题，就是假如连续出现了比方说20个“-”符号，那么我就要把含有20个“-”符号的这些列全都删掉，因为有的序列在这20个“-”这块区域是碱基，不是说只找到了就可以了，据说，好像只要设定一个什么值就能解决，谢谢!

作者: 超级细菌发布时间: 2011-03-24

本帖最后由 yinyuemi 于 2011-03-24 14:04 编辑

回复超级细菌

5楼的代码应该可以满足你的要求，把num换成20，试试

如果只删除20个“-”的，把“<” 改成 "!="