首页手机软件手机游戏单机游戏资讯文章专题下载游戏合集文章合集 php下载 php教程电脑软件

+ -

当前位置：首页 → 问答吧 → python 循环抓网页问题新手提问

python 循环抓网页问题新手提问

时间：2010-11-01

来源：互联网

http://baike.baidu.com/view/2.html 这个网页我已经能把里面的内容提取了可是我想继续一直往下提取http://baike.baidu.com/view/3.html 那个html前的数字网上加的网页怎么办啊？不能让我手动修改网址啊我的源码如下
import os,sys,datetime
import httplib,urllib,re
from sgmllib import SGMLParser
import types
class Html2txt(SGMLParser):
def reset(self):
self.text=''
self.inbody=True
SGMLParser.reset(self)
def handle_data(self,text):
if self.inbody:
self.text+=text
def start_head(self,text):
self.inbody=False
def end_head(self):
self.inbody=True

parser=Html2txt()
parser.feed(urllib.urlopen("http://baike.baidu.com/view/2.html").read())
parser.close()
#print parser.text.strip()
f=open('shishi.txt','w')
f.write(parser.text.strip())
f.close()

作者: scrapyshendamrwang 发布时间: 2010-11-01

很简单，把URL放到一个函数里吧。
你试试下面这段代码吧
import urllib

def downloadPage(url):
sock = urllib.urlopen(url)
htmlPage = sock.read()
print htmlPage

for i in ('2','3'):
downloadPage("http://baike.baidu.com/view/"+i+".html")

作者: russell_tao 发布时间: 2010-11-01

相关阅读更多

Exor 拒绝 Tether 10 亿欧元报价，确认尤文图斯将继续由家族控股

时间：2025-12-16
Uniswap交易所详解-UNI代币核心功能与实用场景

时间：2025-12-16
资金费率套利——熊市稳赚的合约交易实战策略

时间：2025-12-16
比特币支持者为何强烈抵制摩根大通

时间：2025-12-16
币安App官方下载 v3.6.2 安全安装详细指南

时间：2025-12-16

热门阅读

office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐附激活工具
阅读：74
如何安装mysql8.0
阅读：31
Word快速设置标题样式步骤详解
阅读：28
20+道必知必会的Vue面试题（附答案解析）
阅读：37
HTML如何制作表单
阅读：22
百词斩可以改天数吗？当然可以，4个步骤轻松修改天数！
阅读：31
ET文件格式和XLS格式文件之间如何转化？
阅读：24
react和vue的区别及优缺点是什么
阅读：121
支付宝人脸识别如何关闭?
阅读：21
腾讯微云怎么修改照片或视频备份路径?
阅读：28

热门下载

更多

跨维度自动售货机无限金币
模拟经营 278.82MB

下载
核日之后无限货币
冒险解谜 266.71MB

下载
地牢狗无限金币钻石版
冒险解谜 144.74MB

下载
奇妙星际宇航员安卓版
休闲益智 92.16MB

下载
奇妙农场体验
休闲益智 157.02MB

下载
奇妙农场体验全解锁版(内置功能菜单)
休闲益智 157.02MB

下载
僵尸人入侵手游
休闲益智 70.8MB

下载
手画摩托车手机版
休闲益智 32.27MB

下载
进击的方块君游戏
休闲益智 43.11MB

下载
我的虚拟世界手机版
休闲益智 82.1MB

下载