python处理海量多需求数据方案
时间:2010-11-10
来源:互联网
我每天会处理数据量G级甚至更高的报文数据,用python写了脚本每天定时或后台自动运行,因为同一批数据可能有好几个不同的需求,有的是扫描统计,有的是分析入库,有的是临时查询……
这些需求的一个共同特点就是去读这些报文,然后按照各自需求去解析这些数据,现在一些需求中在分析时加了一些新的协议规则,而且数据量越来越大,一个脚本跑下来要两三个小时,好几个类似的的脚本,每天需要大量的时间,现在想优化一下,提高运行效率。
我自己也考虑过一些方案,比如把核心代码用c或c++写,然后python调用,但我感觉还是解决不了我面临的问题;我想我需要的是一种新的架构,思想 去解决这个问题,一个脚本两三个小时不可怕,可怕的是多个需求,读取同一批数据解析,时间却不得不累积。
请教一下各位有没有一些想法可以解决这个运行效率的问题,感谢~~
这些需求的一个共同特点就是去读这些报文,然后按照各自需求去解析这些数据,现在一些需求中在分析时加了一些新的协议规则,而且数据量越来越大,一个脚本跑下来要两三个小时,好几个类似的的脚本,每天需要大量的时间,现在想优化一下,提高运行效率。
我自己也考虑过一些方案,比如把核心代码用c或c++写,然后python调用,但我感觉还是解决不了我面临的问题;我想我需要的是一种新的架构,思想 去解决这个问题,一个脚本两三个小时不可怕,可怕的是多个需求,读取同一批数据解析,时间却不得不累积。
请教一下各位有没有一些想法可以解决这个运行效率的问题,感谢~~
作者: zhoubols 发布时间: 2010-11-10
先分析下性能瓶颈在哪里。
另外运行的时候你的系统的CPU使用是多少,如果比较低,可以并行处理,如果比较高,只能先优化单任务的性能。
另外运行的时候你的系统的CPU使用是多少,如果比较低,可以并行处理,如果比较高,只能先优化单任务的性能。
作者: iambic 发布时间: 2010-11-10
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28