+ -
当前位置:首页 → 问答吧 → 网站每天有超过10亿次的页面访问量,想统计一个指定时间段内的区域ip地址访问量问题

网站每天有超过10亿次的页面访问量,想统计一个指定时间段内的区域ip地址访问量问题

时间:2011-09-23

来源:互联网

假设某个网站每天有超过10亿次的页面访问量,出于安全考虑,网站会记录访问客户端访问的ip地址和对应的时间,如果现在已经记录了1000亿条数据,想统计一个指定时间段内的区域ip地址访问量,那么这些数据应该按照何种方式来组织,才能尽快满足上面的统计需求呢,设计完方案后,并指出该方案的优缺点,比如在什么情况下,可能会非常慢?

作者: xiepeifeng   发布时间: 2011-09-23

分析网站内的日志,然后使用hadoop的mapreduce进行分析。完毕

作者: jc8futao   发布时间: 2011-09-23

哦,来说说优缺点的问题。hadoop是一款nosql数据库。学期曲线比较陡。对人员要求,尤其是linux方面的要求较高。鉴于数据量这么大1000亿的数据已经超过事务性数据库处理能力。nosql数据库在处理数据的成本更低。但是mapreduce是通过多次迭代来得到最终结果。不合适复杂的sql查询式的汇总。

作者: jc8futao   发布时间: 2011-09-23

有没有简单一些的啊!因为没学过hadoop。

作者: xiepeifeng   发布时间: 2011-09-23

没学过就学学吧。1000亿这个量太大。之前到了上亿这种规模。oracle已经基本上无法处理。当然我没有用过专门的数据仓库来做这个分析。你的网站都有这种规模了,我觉得hadoop貌似是必然的选择。不会了就学呗。

作者: jc8futao   发布时间: 2011-09-23