网站每天有超过10亿次的页面访问量,想统计一个指定时间段内的区域ip地址访问量问题
时间:2011-09-23
来源:互联网
假设某个网站每天有超过10亿次的页面访问量,出于安全考虑,网站会记录访问客户端访问的ip地址和对应的时间,如果现在已经记录了1000亿条数据,想统计一个指定时间段内的区域ip地址访问量,那么这些数据应该按照何种方式来组织,才能尽快满足上面的统计需求呢,设计完方案后,并指出该方案的优缺点,比如在什么情况下,可能会非常慢?
作者: xiepeifeng 发布时间: 2011-09-23
分析网站内的日志,然后使用hadoop的mapreduce进行分析。完毕
作者: jc8futao 发布时间: 2011-09-23
哦,来说说优缺点的问题。hadoop是一款nosql数据库。学期曲线比较陡。对人员要求,尤其是linux方面的要求较高。鉴于数据量这么大1000亿的数据已经超过事务性数据库处理能力。nosql数据库在处理数据的成本更低。但是mapreduce是通过多次迭代来得到最终结果。不合适复杂的sql查询式的汇总。
作者: jc8futao 发布时间: 2011-09-23
有没有简单一些的啊!因为没学过hadoop。
作者: xiepeifeng 发布时间: 2011-09-23
没学过就学学吧。1000亿这个量太大。之前到了上亿这种规模。oracle已经基本上无法处理。当然我没有用过专门的数据仓库来做这个分析。你的网站都有这种规模了,我觉得hadoop貌似是必然的选择。不会了就学呗。
作者: jc8futao 发布时间: 2011-09-23
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28