哈希数组太大,能否先取出一部分输入文件?
时间:2010-12-22
来源:互联网
我的数据:
复制代码
第一列表示在一条序列中的位置,第二列数据表示第一列数据往后的覆盖范围。我现在要统计每个位置被覆盖的次数。比如数据中第5行的4284位置,被前5行数据覆盖,覆盖次数为5。
代码:
复制代码
现在的问题是,文件中有2000多万条数据,也有2000万个位置,全部存在hash数组中,全部统计完,再写入文件,占的内存很大。怎样把已经统计完的hash数值写入文件,不再占用内存?
PS:第一列数据是按顺序排列;第二列数字最大为75;每个位置被覆盖次数不超过100。
- 4272 40
- 4272 45
- 4273 75
- 4273 65
- 4284 30
- 4293 75
- 4294 45
- 4296 20
- 4296 15
- 4296 10
- 4296 70
- 4296 75
- 4296 75
- 4296 75
- 4296 30
- 4296 75
- 4299 45
- 4299 60
第一列表示在一条序列中的位置,第二列数据表示第一列数据往后的覆盖范围。我现在要统计每个位置被覆盖的次数。比如数据中第5行的4284位置,被前5行数据覆盖,覆盖次数为5。
代码:
- open(FILE,"$IN") or die "$!";
- open(OUT,">>$OUT")or die "$!";
-
- my %cov;
-
- while(<FILE>)
- {
- my @c=split /\s+/,$_;
- for($i=$c[0];$i<=$c[0]+$c[1]-1;$i++){$cov{$i}++;}
- }
- foreach my $key (keys %cov)
- {print OUT "$key\t$cov{$key}\n";}
- close FILE;
- close OUT;
现在的问题是,文件中有2000多万条数据,也有2000万个位置,全部存在hash数组中,全部统计完,再写入文件,占的内存很大。怎样把已经统计完的hash数值写入文件,不再占用内存?
PS:第一列数据是按顺序排列;第二列数字最大为75;每个位置被覆盖次数不超过100。
作者: nb509 发布时间: 2010-12-22
我在while循环里加了下面的代码,hash超过500,就输入文件,再删除。
复制代码
- my $num=scalar(keys(%cov));
- if($num>=500){ foreach my $key (sort keys(%cov)){ if($key<$c[1]){ print OUT "$key\t$cov{$key}\n"; delete $cov{$key};}}}
- foreach my $key (sort keys %cov){print OUT "$key\t$cov{$key}\n";}
作者: nb509 发布时间: 2010-12-22
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28