博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
(2010-8-31) awk内存泄漏以及缓慢的正则表达式计算速度
阅读量:5740 次
发布时间:2019-06-18

本文共 1112 字,大约阅读时间需要 3 分钟。

AWK内存泄露:

这几天本来就很郁闷,遇到搭建在hadoop平台上的hive平台有很多问题。写个好好的sql语句,总是说这个错误那个错误。然后,今天遇到一个更加郁闷的问题,居然分析淘宝数据的awk都运行不了了,出现了传说中的内存不足的错误。

如下2个简单的awk语句:

awk '{match($4, /(search.taobao.com.+uniq=seller.*)/,a); if(a[1] != null) c++;}END{print c}'

awk '{match($4, /(search.taobao.com)/,a); if(a[1] != null) c++;}END{print c}'

第一个运行起来好好的,第二个就狂占内存。

google了一番,原来据说是3.1.7版本之前的gawk都有这类内存泄露问题。而我们的服务器安装的居然是老掉牙的3.1.5。

咨询运维的兄弟,请求帮忙安装一个最新版上去,再看看情况。

缓慢的AWK正则:

最近分析的数据量都很大,一般的时候,都需要用awk从日志里面提取有用的信息,大部分时间都是用一个正则表达式搞定一切。

接着,俺就发现一个大问题。每次awk进行提取的时候(用match),总是很缓慢,vmstat看到的磁盘io特别小,但cpu却100%。今天俺用java写了一个小类,用来专门搞正则表达式的提取。一测试,发现了如下的情况:

1、正则表达式:visitKey:([0-9]+).+fullUrl[^,]+([0-9A-F]{32})

2、awk语句: cat /data/comm_click_log/boss_comm/20100516/* | /usr/local/gawk-3.1.8/bin/awk --re-interval '{match($0,/visitKey:([0-9]+).+fullUrl[^,]+([0-9A-F]{32})/,c); print c[1] "\t" c[2]}' >tmp

处理速度为:4040行/s

3、java语句:cat /data/comm_click_log/boss_comm/20100516/* | java -cp dm.jar dm.util.Extract "visitKey:([0-9]+).+fullUrl[^,]+([0-9A-F]{32})" >tmp

处理速度为:15873行/s

用java来做,速度居然是awk的4倍。无语了。遇到大东西俺就用java的库来做了。

转载于:https://www.cnblogs.com/code-style/p/3267349.html

你可能感兴趣的文章
服务的使用
查看>>
Oracle 用户与模式
查看>>
MairDB 初始数据库与表 (二)
查看>>
拥在怀里
查看>>
chm文件打开,有目录无内容
查看>>
whereis、find、which、locate的区别
查看>>
一点不懂到小白的linux系统运维经历分享
查看>>
桌面支持--打不开网页上的pdf附件解决办法(ie-tools-compatibility)
查看>>
nagios监控windows 改了NSclient++默认端口 注意事项
查看>>
干货 | JAVA代码引起的NATIVE野指针问题(上)
查看>>
POI getDataFormat() 格式对照
查看>>
Python 中的进程、线程、协程、同步、异步、回调
查看>>
好的产品原型具有哪些特点?
查看>>
实现java导出文件弹出下载框让用户选择路径
查看>>
刨根问底--技术--jsoup登陆网站
查看>>
OSChina 五一劳动节乱弹 ——女孩子晚上不要出门,发生了这样的事情
查看>>
Spring--通过注解来配置bean
查看>>
pandas 十分钟入门
查看>>
nginx rewrite
查看>>
前端安全系列(一):如何防止XSS攻击?
查看>>