awk切割日志笔记
//nginx 日志格式
1x.2.1xx.1xx - - [20/Sep/2017:00:00:01 +0800] xxxx-xxxx-xxxx-xxxx "GET /xxxx/xxxx/getFields?param=xxxxxxxxxxxxxx HTTP/1.1" 200 212 0.007 "-" "Apache-HttpClient/4.3.1 (java 1.5)” “xx.xxx.xxx.xxx, 1x.x.1xx.2xx"
0.007 HTTP/1.1 77 xxxxxxxx015e9ade1d750a0xxxxxxxxxx
//查看nginx日志调指定接口的调用方
cat access.log | grep "20/Sep/2017:08:0" | grep "/xx/xxxx/getFields" | awk '{split(substr($17,2), a, ","); print a[1]}' | sort | uniq -c | sort -nr
//查看log日志指定时间的接口调用情况
cat item.log.2017092008 |grep "2017-09-20 08:0" | awk -F 'url' '{split(substr($2,2), a, "?");print a[1]}' | sort | uniq -c | sort -nr | grep -v "wduss"
//查看nginx每分钟的调用量
cat access.log | grep "20/Sep/2017:08:3" | awk '{print $4}' | awk -F: '{ a[$2":"($3-$3%2)]++ } END{ for(i in a){ split(i,t,":");print i, t[1]":"t[2]+2, a[i] | "sort -k3rn"} }'
//查看nginx每分钟的接口调用量
cat access.log | grep "20/Sep/2017:08:2" | awk '{split($4, a, ":"); split($8, b, "?"); c[b[1],a[2]":"(a[3]-a[3]%1)]++ } END{ for(i in c){split(i, idx, SUBSEP); print idx[0],idx[1],idx[2], c[idx[1],idx[2]]
| "sort -k3rn"}}'
eg:
/xx/xxxxx/getFields 08:30--08:31 465
/xx/xxxxx/getItemSkuWithAttrList 08:39--08:40 198
/xx/xxxx/getItemSkuWithAttrList 08:32--08:33 186
/xx/xxxx/getFields 08:31--08:32 184
/xx/xxxxx/getItemSkuWithAttrList 08:39--08:40 198
/xx/xxxx/getItemSkuWithAttrList 08:32--08:33 186
/xx/xxxx/getFields 08:31--08:32 184
//每cycle分钟,获取前top
cat access.log | grep "20/Sep/2017:08:" | awk 'BEGIN{cycle=10; top=10} {split($4, a, ":"); split($8, b, "?"); c[b[1],a[2]":"(a[3]-a[3]%cycle)]++ } END{ for(i in c){split(i, idx, SUBSEP); split(idx[2],
time, ":"); print idx[1],idx[2]"--"time[1]":"time[2]+cycle, c[idx[1],idx[2]] | "sort -k3rn | head -n" top}}'
eg:
/xx/xxxx/getFields 08:40--08:50 5822
/xx/xxxx/getFields 08:0--08:10 5698
/xx/xxxx/getFields 08:20--08:30 5638
/xx/xxxx/getItemSkuWithAttrList 08:50--08:60 1884
/xx/xxxx/getItemSkuWithAttrList 08:40--08:50 1693
/xx/xxxx/getFields 08:0--08:10 5698
/xx/xxxx/getFields 08:20--08:30 5638
/xx/xxxx/getItemSkuWithAttrList 08:50--08:60 1884
/xx/xxxx/getItemSkuWithAttrList 08:40--08:50 1693
///使用到的函数简介
一、split
初始化和类型强制
awk的内建函数split允许你把一个字符串分隔为单词并存储在数组中。你可以自己定义域分隔符或者使用现在FS(域分隔符)的值。

awk的内建函数split允许你把一个字符串分隔为单词并存储在数组中。你可以自己定义域分隔符或者使用现在FS(域分隔符)的值。
格式如下:
split (string, array, field separator)
split (string, array) -->如果第三个参数没有提供,awk就默认使用当前FS值。
split (string, array) -->如果第三个参数没有提供,awk就默认使用当前FS值。
例子:
例1:替换分隔符
1
2
3
|
time= "14:31:56"
out=`echo $time |
awk '{split($0,a,":");print
a[1],a[2],a[3]}' `
echo $out
|
二、substr 截取字符串
返回从起始位置起,指定长度之子字符串;若未指定长度,则返回从起始位置到字符串末尾的子字符串。格式如下:
substr(s,p) 返回字符串s中从p开始的后缀部分
substr(s,p,n) 返回字符串s中从p开始长度为n的后缀部分
例子:
1
2
|
[root @test ~] #
echo "12345678" | awk '{print substr($0,1,3)}'
123
|
三、length 字符串长度
length函数返回没有参数的字符串的长度。length函数返回整个记录中的字符数。
1
2
|
[root @test ~] #
echo "123456" | awk '{print length}'
6
|
四、gsub 函数
gsub函数则使得在所有正则表达式被匹配的时候都发生替换。gsub(regular expression, subsitution string, target string);简称 gsub(r,s,t)。
举例:把一个文件里面所有包含 abc 的行里面的 abc 替换成 def,然后输出第一列和第三列
1
|
awk '$0
~ /abc/ {gsub("abc", "def", $0); print $1, $3}' abc.txt
|