+ -
当前位置:首页 → 问答吧 → python处理海量多需求数据方案

python处理海量多需求数据方案

时间:2010-11-10

来源:互联网

我每天会处理数据量G级甚至更高的报文数据,用python写了脚本每天定时或后台自动运行,因为同一批数据可能有好几个不同的需求,有的是扫描统计,有的是分析入库,有的是临时查询……
这些需求的一个共同特点就是去读这些报文,然后按照各自需求去解析这些数据,现在一些需求中在分析时加了一些新的协议规则,而且数据量越来越大,一个脚本跑下来要两三个小时,好几个类似的的脚本,每天需要大量的时间,现在想优化一下,提高运行效率。

我自己也考虑过一些方案,比如把核心代码用c或c++写,然后python调用,但我感觉还是解决不了我面临的问题;我想我需要的是一种新的架构,思想 去解决这个问题,一个脚本两三个小时不可怕,可怕的是多个需求,读取同一批数据解析,时间却不得不累积。
请教一下各位有没有一些想法可以解决这个运行效率的问题,感谢~~

作者: zhoubols   发布时间: 2010-11-10

先分析下性能瓶颈在哪里。
另外运行的时候你的系统的CPU使用是多少,如果比较低,可以并行处理,如果比较高,只能先优化单任务的性能。

作者: iambic   发布时间: 2010-11-10