Help 网页抓取源码----神奇网址求抓
时间:2011-12-21
来源:互联网
http://www1.macys.com/catalog/product/index.ognc?ID=596761
用HttpWebRequest死活抓不到源码,报重定向太多。监视了下cookie。加了一堆还是没解决,求教有人能抓的到么。
-------------------------
ps:同样的产品页:比如 http://www1.macys.com/catalog/product/index.ognc?ID=603770 抓取就没问题。一样的代码抓取上面的网址就不行。网上能搜到的代码一一试验了下,均不行。没一个能抓到上面网址源码
-------------------------
测试方法代码:
C# code
private static string getContent(string Url) { string content = ""; try { HttpWebRequest wreq = (HttpWebRequest)WebRequest.Create(Url); wreq.MaximumAutomaticRedirections = 4; wreq.MaximumResponseHeadersLength = 4; //wreq.Credentials = System.Net.CredentialCache.DefaultCredentials; //wreq.Referer = "http://www.macys.com"; //wreq.Headers.Add(HttpRequestHeader.Cookie, "macys_online=4416704358; shippingCountry=US; currency=USD;"); wreq.Method = "Get"; wreq.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"; wreq.UserAgent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30"; CookieContainer cookieCon = new CookieContainer(); //CookieCollection cc = new CookieCollection(); //cc.Add(new System.Net.Cookie("currency", "USD", "/", "macys.com")); //cc.Add(new System.Net.Cookie("PPP", "24", "/", "macys.com")); //cc.Add(new System.Net.Cookie("SignedIn", "0", "/", "macys.com")); //cc.Add(new System.Net.Cookie("shippingCountry", "US", "/", "macys.com")); //cookieCon.Add(cc); wreq.CookieContainer = cookieCon; HttpWebResponse wresp = (HttpWebResponse)wreq.GetResponse(); StreamReader sr = new StreamReader(wresp.GetResponseStream()); content = sr.ReadToEnd(); } catch (Exception ex) { content = ex.Message; } return content; }
作者: mzytechsupport 发布时间: 2011-12-21
跳转过的不行吗
http://www1.macys.com/shop/product/treasured-hearts-diamond-ring-sterling-silver-black-white-diamond-heart-ring-1-4-ct.-t.w.?ID=596761&intnl=true&intnl=true
作者: jiuhexuan 发布时间: 2011-12-21
作者: pmars 发布时间: 2011-12-21
测试代码已放出,随便带入即可执行:
结果当然是:不行。。。。
作者: mzytechsupport 发布时间: 2011-12-21
http://www1.macys.com/catalog/product/index.ognc?ID=596761
能得到源代码吗?得到的是你期望的结果吗
注意是直接输入。
有的页面是需要从上一级页面中点击进来的,否则是不行的
作者: net_lover 发布时间: 2011-12-21
作者: jlingang 发布时间: 2011-12-21
作者: yysyangyangyangshan 发布时间: 2011-12-21
作者: yysyangyangyangshan 发布时间: 2011-12-21
首先,你直接在浏览器里面输入
http://www1.macys.com/catalog/product/index.ognc?ID=596761
能得到源代码吗?得到的是你期望的结果吗
注意是直接输入。
有的页面是需要从上一级页面中点击进来的,否则是不行的
只要有源码出来就行,任何代码。那么就一个body
作者: mzytechsupport 发布时间: 2011-12-21
或者自己试一下,将那个网址作为refer加到代码里面,看看行不行
作者: pmars 发布时间: 2011-12-21
试试这个类,要抓取的url作为参数初始化
测试了:不行。报的错是一样的------尝试自动重定向的次数太多
作者: mzytechsupport 发布时间: 2011-12-21
该回复于2011-12-22 13:00:37被管理员删除
- 对我有用[0]
- 丢个板砖[0]
- 引用
- 举报
- 管理
- TOP
|
#12楼 得分:0回复于:2011-12-24 02:02:03
|
作者: mzytechsupport 发布时间: 2011-12-22
作者: mzytechsupport 发布时间: 2011-12-24
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28