关于网页信息采集
时间:2011-12-20
来源:互联网
我想做一个采集网络小说的工具、
用WebBrowser.Document实现了、可是我只是要网页信息不想用webbrowser、感觉会影响速度、
想用webclient的downloaddata来实现、
可是获取到的是byte[]、
我想用操作htmlDocument对象的方式操作下载到的数据、但是我找不到string 或byte[]转成htmldocument的方法;
然后我打算xmldocument和xmlreadertext来实现 结果下载到的网页数据不规范、比如属性值没用引号什么的、导致xml读取不了、
想请问下除了正则外还有什么办法能解决这些问题么、
另外我要的只是小说部分的数据、但是却额外的下载了其它诸如广告图片之类的数据、有办法解决吗?
用WebBrowser.Document实现了、可是我只是要网页信息不想用webbrowser、感觉会影响速度、
想用webclient的downloaddata来实现、
可是获取到的是byte[]、
我想用操作htmlDocument对象的方式操作下载到的数据、但是我找不到string 或byte[]转成htmldocument的方法;
然后我打算xmldocument和xmlreadertext来实现 结果下载到的网页数据不规范、比如属性值没用引号什么的、导致xml读取不了、
想请问下除了正则外还有什么办法能解决这些问题么、
另外我要的只是小说部分的数据、但是却额外的下载了其它诸如广告图片之类的数据、有办法解决吗?
作者: lc316546079 发布时间: 2011-12-20
已有的网络采集软件很多很多,早期的什么星云系统,采集大师,风车什么的,你没必要自己做一个.
把内容从网页源文件中分离出来是最最头疼的事情!只能采用自动加手功的方法,应该没有什么更快捷的方法.
把内容从网页源文件中分离出来是最最头疼的事情!只能采用自动加手功的方法,应该没有什么更快捷的方法.
作者: qianjin036a 发布时间: 2011-12-20
引用 1 楼 qianjin036a 的回复:
已有的网络采集软件很多很多,早期的什么星云系统,采集大师,风车什么的,你没必要自己做一个.
把内容从网页源文件中分离出来是最最头疼的事情!只能采用自动加手功的方法,应该没有什么更快捷的方法.
已有的网络采集软件很多很多,早期的什么星云系统,采集大师,风车什么的,你没必要自己做一个.
把内容从网页源文件中分离出来是最最头疼的事情!只能采用自动加手功的方法,应该没有什么更快捷的方法.
我就是想自己动手写写、、、
话说至少要不是动手写这个我还真没想到要让程序有通用性、解析数据这么纠结、、、
帮忙提供一些相关操作的处理经验、、、
作者: lc316546079 发布时间: 2011-12-20
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28