+ -
当前位置:首页 → 问答吧 → python 菜鸟求救

python 菜鸟求救

时间:2011-09-23

来源:互联网

我想从文章里读的中文变成1个字1行的文件。比如有这样的文章。"决赛的<hc>斯托瑟</hc>"
处理以后是:



斯 B-I
托 B-O
瑟 B-O

现在不知道<hc>的部分怎么处理,处理完了以后不要<hc>,</hc>.这个问题要用正则吗?
代码如下:
#!/usr/bin/env python

#coding=utf-8  

  

f = open('1.txt','r')  
lines=f.readlines()

f.close()
f = open('out.txt', 'w') 
for line in lines:

u1 = unicode(line.rstrip().strip(),'gb2312')
length=len(u1)
for i in range(length):
f.write(u1[i].encode("utf8"))
f.write("\n")
f.close()

作者: taijun918   发布时间: 2011-09-23

没看懂B-I和B-O都是什么东东?

作者: iambic   发布时间: 2011-09-23

在这里<hc>..</hc>是代表人名,B-I是人名的开始,B-O剩余的人名。

作者: taijun918   发布时间: 2011-09-23

热门下载

更多