IBM面试题,用JAVA抓取下整个网站
时间:2009-07-29
来源:互联网
1.给定一个网站的URL,抓取下整个网站,包括网页、图片等等。
2.对该网站的所有对象进行一个统计,比如链接、图片、按钮等等分别有多少。
作者: shao0408 发布时间: 2009-07-29
是不是要解析该网站下的源代码哦?
作者: xlxyeyu 发布时间: 2009-07-29
出题的弱智吧,限制条件都说不清楚
作者: eastoneking 发布时间: 2009-07-29
2.对该网站的所有对象进行一个统计,比如链接、图片、按钮等等分别有多少。
分析网页的所有标签,内容、标题、图片、按钮 等等。大家帮忙用JAVA编写一下,小弟在线等待,感激不尽。
作者: shao0408 发布时间: 2009-07-29
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
public class UrlContent {
public static String getHtmlSource(String url)
{
StringBuffer codeBuffer = null;
BufferedReader in=null;
try
{
URLConnection uc = new URL(url).openConnection();
// 读取url流内容
in = new BufferedReader(new InputStreamReader(uc
.getInputStream(), "gb2312"));
codeBuffer = new StringBuffer();
String tempCode = "";
// 把buffer内的值读取出来
while ((tempCode = in.readLine()) != null)
{
codeBuffer.append(tempCode).append("\n");
}
in.close();
}
catch (MalformedURLException e)
{
e.printStackTrace();
}
catch (IOException e)
{
e.printStackTrace();
}
return codeBuffer.toString();
}
public static void main(String[] args)
{
System.out.println(UrlContent.getHtmlSource("http://sports.163.com/zc/"));
}
}
反馈说我理解的不对,然后回复:
作业要求:
1.给定一个网站的URL,抓取下整个网站,包括网页、图片等等。
2.对该网站的所有对象进行一个统计,比如链接、图片、按钮等等分别有多少。
作者: shao0408 发布时间: 2009-07-29
等待牛人解答
作者: zl3450341 发布时间: 2009-07-29
URL url;
HttpURLConnection conn=null;
try{
url=new URL("http://baike.baidu.com/view/2125344.htm");
conn=(HttpURLConnection)url.openConnection();
conn.setRequestProperty("Accept-Charset","utf-8");
conn.setRequestProperty("contentType","utf-8");
BufferedReader reader=new BufferedReader(new InputStreamReader(conn
.getInputStream(),"gbk"));
String downloadURL;
StringBuffer sb=new StringBuffer();
while((downloadURL=reader.readLine())!=null){
sb.append(downloadURL);
}
System.out.println(sb.toString());
这样就可以打印出这个网页了,至于里用正则如何替换,找出按钮,图片的,那还得再弄下.
}catch(Exception e){
}finally{
conn.disconnect();
}
作者: archko 发布时间: 2009-07-29
作者: net_yuhai 发布时间: 2009-07-29
作者: net_yuhai 发布时间: 2009-07-29
作者: shao0408 发布时间: 2009-07-29
作者: bea_java 发布时间: 2009-07-29
作者: ZhaoHuiZiXin 发布时间: 2009-07-29
作者: yingkeda 发布时间: 2009-07-29
作者: shao0408 发布时间: 2009-07-29
PostMethod method = null;
...... //设置method 的参数
//执行post方法
executeHttpMethod(client, method , 3000, new ArrayList());
//获取返回界面
BufferedInputStream f = new BufferedInputStream(method .getResponseBodyAsStream());
//保存下来即可
---------------------------
解析的话就搜索下载下来的文件,统计里面按钮等对应的标签 就可以了
作者: jackz_2007 发布时间: 2009-07-29
该回复于2009-08-12 23:14:49被版主删除
- 对我有用[0]
- 丢个板砖[0]
- 引用
- 举报
- 管理
- TOP
|
#16楼 得分:0回复于:2009-07-29 11:48:49
|
作者: liujiaqiid 发布时间: 2009-07-29
作者: liujiaqiid 发布时间: 2009-07-29
其实,有点类型搜索引擎!
作者: shao0408 发布时间: 2009-07-29
作者: jankrong 发布时间: 2009-07-29
作者: shao0408 发布时间: 2009-07-29
作者: mianfeidog 发布时间: 2009-07-29
作者: ZangXT 发布时间: 2009-07-29
爬虫的基本原理
同意,偶也只是听说过.
另外有相关软件支持分析页面
作者: shao0408 发布时间: 2009-07-29
BufferedReader br = null;
InputStream in = null;
String temp = "";
String text = "";
URLConnection urlConn = (HttpURLConnection)url.openConnection();
urlConn.setDoOutput(true);
in = urlConn.getInputStream();
in = new BufferedInputStream(in);
reader = new InputStreamReader(in);
br = new BufferedReader(new InputStreamReader(url.openStream(), "GBK"));
逐行读文件,写入text中
while ((temp = br.readLine()) != null) {
text += temp;
temp = null;
}
对text进行分析即可,例如超链接匹配<a等
作者: spirit_zyl 发布时间: 2009-07-29
作者: xiaoqiang111111 发布时间: 2009-07-29
作者: shao0408 发布时间: 2009-07-30
作者: shao0408 发布时间: 2009-07-30
作者: jinxinxin1314 发布时间: 2009-07-30
作者: shao0408 发布时间: 2009-07-30
感觉像作业贴。
作者: scottxp 发布时间: 2009-07-30
作者: jinxfei 发布时间: 2009-07-30
对于<html前面的字符我们可以过滤掉。
作者: tobeno2 发布时间: 2009-07-31
作者: shanhenvgui 发布时间: 2009-07-31
作业要求:
1.给定一个网站的URL,抓取下整个网站,包括网页、图片等等。
2.对该网站的所有对象进行一个统计,比如链接、图片、按钮等等分别有多少。
看看 作业要求 哈哈
作者: qgz0910 发布时间: 2009-07-31
作者: qgz0910 发布时间: 2009-07-31
作者: tree006 发布时间: 2009-07-31
作者: wangxf_8341 发布时间: 2009-07-31
作者: upgrade_007 发布时间: 2009-07-31
只是我的想法而已,哈哈
作者: minglois 发布时间: 2009-07-31
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28