+ -
当前位置:首页 → 问答吧 → 去掉重复行

去掉重复行

时间:2011-03-09

来源:互联网

大家好,我现在手边有一问日志文件,记录了访问出错的URL,格式如下:


1       paper_rpc       2011-03-07 00:05:40     218.202.227.152         http://cn.chinareviewnews.com/crn-webapp/d
oc/docDetail.jsp?coluid=7&kindid=0&docid=101303855    v
2       paper_rpc       2011-03-07 00:11:45     218.202.227.158         http://cqwb.cqnews.net/cqwb/html/2010-02/1
0/content_197777.htm  v
3       paper_rpc       2011-03-07 00:12:31     221.130.177.112         http://www.zhgpl.com/crn-webapp/doc/docDet
ail.jsp?coluid=7&kindid=0&docid=101573061     v
4       paper_rpc       2011-03-07 00:18:42     218.202.227.152         http://ctdsb.cnhubei.com/html/ctdsb/201101
24/ctdsb1288081.html  v
5       paper_rpc       2011-03-07 00:19:37     218.202.227.152         http://www.zhgpl.com/crn-webapp/doc/docDet
ail.jsp?coluid=7&kindid=0&docid=101547127     v
6       paper_rpc       2011-03-07 00:22:08     221.130.177.110         http://enews.xwhb.com/html/2010-04/12/cont
ent_169542.htm        v
7       paper_rpc       2011-03-07 00:23:38     221.130.177.110         http://enews.xwhb.com/html/2010-04/12/cont
ent_169542.htm        v
8       paper_rpc       2011-03-07 00:27:03     221.181.66.236          http://paper.people.com.cn/rmrb/html/2010-
04/22/nw.D110000renmrb_20100422_1-14.htm?div=-1       v
9       paper_rpc       2011-03-07 00:28:21     221.181.66.240          http://www.zhgpl.com/crn-webapp/doc/docDet
ail.jsp?coluid=7&kindid=0&docid=101604371     v
10      paper_rpc       2011-03-07 00:29:43     221.181.66.236          http://paper.people.com.cn/rmrb/html/2010-
04/22/nw.D110000renmrb_20100422_1-14.htm?div=-1       v
11      paper_rpc       2011-03-07 00:29:56     221.130.177.109         http://cqwb.cqnews.net/cqwb/html/2010-02/1
0/content_197783.htm  v
12      paper_rpc       2011-03-07 00:30:34     221.181.66.236          http://paper.people.com.cn/rmrb/html/2010-
04/22/nw.D110000renmrb_20100422_1-14.htm?div=-1       v
13      paper_rpc       2011-03-07 00:42:42     221.130.177.110         http://cqwb.cqnews.net/cqwb/html/2010-01/2
6/content_195323.htm  v


我想从中把URL得到,就是第5列这个可以使用awk命令,还想知道的基本的网址,例如http://cqwb.cqnews.net/cqwb/html/2010-01/2
6/content_195323.htm 这个地址只得到http://cqwb.cqnews.net 这个主网址,并且去掉重复的行,怎么写这个shell呢,
请教一下了,对shell不熟悉,谢谢指教。

作者: tianhailong   发布时间: 2011-03-09

本帖最后由 昭襄王 于 2011-03-09 13:03 编辑

回复 tianhailong
  1. cut -c73- file|cut -f-3 -d"/"
  2. http://cn.chinareviewnews.com

  3. http://cqwb.cqnews.net

  4. http://www.zhgpl.com

  5. http://ctdsb.cnhubei.com

  6. http://www.zhgpl.com

  7. http://enews.xwhb.com

  8. http://enews.xwhb.com

  9. http://paper.people.com.cn

  10. http://www.zhgpl.com

  11. http://paper.people.com.cn

  12. http://cqwb.cqnews.net

  13. http://paper.people.com.cn

  14. http://cqwb.cqnews.net
复制代码

作者: 昭襄王   发布时间: 2011-03-09

去重复行
  1. cut -c73- file|cut -f-3 -d"/"|sort -u

  2. http://cn.chinareviewnews.com
  3. http://cqwb.cqnews.net
  4. http://ctdsb.cnhubei.com
  5. http://enews.xwhb.com
  6. http://paper.people.com.cn
  7. http://www.zhgpl.com
复制代码

作者: 昭襄王   发布时间: 2011-03-09

cat 2.txt | awk '{print $6}' | cut -f -3 -d"/" | sort -u

作者: 只爱睡觉   发布时间: 2011-03-09

awk -F/ '{if(!a[$3]){a[$3]=1;print "http://"$3}}' file

作者: ziyunfei   发布时间: 2011-03-09

回复 tianhailong
  1. awk -v RS="http" -v FS="/" 'NR>1{print RS$1$2 FS FS $3|"sort -u"}' file
  2. http://cn.chinareviewnews.com
  3. http://cqwb.cqnews.net
  4. http://ctdsb.cnhubei.com
  5. http://enews.xwhb.com
  6. http://paper.people.com.cn
  7. http://www.zhgpl.com
复制代码

作者: yinyuemi   发布时间: 2011-03-09

哈哈,谢谢大家了,原来不是很复杂的shell,多亏了大家指教,十分感谢。

作者: tianhailong   发布时间: 2011-03-09

:emn23:呵呵。。。

作者: wengjianbo   发布时间: 2011-03-09