当前位置：首页 → 问答吧 → 求助！比较特殊的去除重复行

求助！比较特殊的去除重复行

时间：2011-05-04

来源：互联网

file.txt

http://www.sina.com.cn

http://www.sina.com.cn

http://www.sina.com.cn

http://www.sina.com.cn

http://www.sina.com.cn

################

http://www.163.com.cn

http://www.163.com.cn

http://www.163.com.cn

http://www.163.com.cn

http://www.163.com.cn

################

http://www.163.com

http://www.163.com

http://www.163.com

http://www.163.com

http://www.163.com

################

我想得到的结果是

http://www.sina.com.cn

################

http:/www.163.com.cn

################

http://www.163.com

################

用sort -u 得到的结果不太一样
这个怎么处理？？

作者: vitas333_cu 发布时间: 2011-05-04

每两个
################
之间的每一行内容都一样?

作者: cjaizss 发布时间: 2011-05-04

本帖最后由 yinyuemi 于 2011-05-04 13:05 编辑

回复 vitas333_cu

awk '!/^#*$/&&++a[$1]==1{print }/^#*$/{delete a;print}' file
http://www.sina.com.cn
################
http://www.163.com.cn
################
http://www.163.com
################

复制代码

作者: yinyuemi 发布时间: 2011-05-04

try:

awk '/^http/&&!a[$0]++{print $0"\n\n################\n"}' urfile

复制代码

作者: ly5066113 发布时间: 2011-05-04

for line in `grep http: urfile | sort -u`
do
echo $line
echo
echo "################"
echo
done

复制代码

作者: Shell_HAT 发布时间: 2011-05-04

如果文件不是以#作为标志。
如下：

http://www.sina.com.cn

http://www.sina.com.cn

http://www.sina.com.cn

http://www.sina.com.cn

http://www.sina.com.cn

----------------------

http://www.163.com.cn

http://www.163.com.cn

http://www.163.com.cn

http://www.163.com.cn

http://www.163.com.cn

----------------------

http://www.163.com

http://www.163.com

http://www.163.com

http://www.163.com

http://www.163.com

----------------------

得到的结果是
http://www.sina.com.cn

----------------------

http:/www.163.com.cn

----------------------

http://www.163.com

----------------------

作者: vitas333_cu 发布时间: 2011-05-04

回复 yinyuemi

不行

作者: vitas333_cu 发布时间: 2011-05-04

其实我想问的就是LZ所要的结果和uniq的结果有什么不一样呢?

作者: cjaizss 发布时间: 2011-05-04

本帖最后由 yinyuemi 于 2011-05-04 13:17 编辑

回复 vitas333_cu

思路一样的啊，
awk '!/^-*$/&&++a[$1]==1{print }/^-*$/{delete a;print}' file

or：

awk '/http/&&++a[$1]==1{print }!/^http/{delete a;print}' file

作者: yinyuemi 发布时间: 2011-05-04

回复 cjaizss

老哥，确实不一样啊。

会把 #### 去掉重复的。只有1个了。

而且 url地址会单独写在开头每行中。

作者: vitas333_cu 发布时间: 2011-05-04

QUOTE:

回复 cjaizss

老哥，确实不一样啊。

会把 #### 去掉重复的。只有1个了。

而且 url ...
vitas333_cu 发表于 2011-05-04 13:16

我说的是uniq,又不是sort -u

作者: cjaizss 发布时间: 2011-05-04