+ -
当前位置:首页 → 问答吧 → 网页解析的编码问题

网页解析的编码问题

时间:2011-08-06

来源:互联网

需要解析一个网页,获得title属性,
情形1:
# -*- coding: gb2312*
import urllib
import lxml.html
down='http://search.dangdang.com/search_pub.php?key=python'
file=urllib.urlopen(down).read()
root=lxml.html.fromstring(file)
tnodes = root.xpath("//div[@class='listitem detail']//li[@class='maintitle']//a")
for i,x in enumerate(tnodes):
  print x.get('title'),x.text
终端无论如何设置编码,都没有正确结果

情形2:
# -*- coding: utf-8*
import urllib
import lxml.html
down='http://search.dangdang.com/search_pub.php?key=python'
file=urllib.urlopen(down).read()
root=lxml.html.fromstring(file)
tnodes = root.xpath("//div[@class='listitem detail']//li[@class='maintitle']//a")
for i,x in enumerate(tnodes):
  print x.get('title'),x.text
也不行

请问,如何解决?

作者: fnzh0003   发布时间: 2011-08-06

提示什么错误?

作者: Waistcoat23   发布时间: 2011-08-06