awk切割日志笔记

//nginx 日志格式

1x.2.1xx.1xx - - [20/Sep/2017:00:00:01 +0800] xxxx-xxxx-xxxx-xxxx "GET /xxxx/xxxx/getFields?param=xxxxxxxxxxxxxx HTTP/1.1" 200 212 0.007 "-" "Apache-HttpClient/4.3.1 (java 1.5)” “xx.xxx.xxx.xxx, 1x.x.1xx.2xx" 0.007 HTTP/1.1 77 xxxxxxxx015e9ade1d750a0xxxxxxxxxx

//查看nginx日志调指定接口的调用方

cat access.log | grep "20/Sep/2017:08:0" | grep "/xx/xxxx/getFields" | awk '{split(substr($17,2), a, ","); print a[1]}' | sort | uniq -c | sort -nr

//查看log日志指定时间的接口调用情况

cat item.log.2017092008 |grep "2017-09-20 08:0" | awk -F 'url' '{split(substr($2,2), a, "?");print a[1]}' | sort | uniq -c | sort -nr | grep -v "wduss"

//查看nginx每分钟的调用量

cat access.log | grep "20/Sep/2017:08:3" | awk '{print $4}' | awk -F: '{ a[$2":"($3-$3%2)]++ } END{ for(i in a){ split(i,t,":");print i, t[1]":"t[2]+2, a[i] | "sort -k3rn"} }'

//查看nginx每分钟的接口调用量

cat access.log | grep "20/Sep/2017:08:2" | awk '{split($4, a, ":"); split($8, b, "?"); c[b[1],a[2]":"(a[3]-a[3]%1)]++ } END{ for(i in c){split(i, idx, SUBSEP); print idx[0],idx[1],idx[2], c[idx[1],idx[2]] | "sort -k3rn"}}'

eg:

/xx/xxxxx/getFields 08:30--08:31 465
/xx/xxxxx/getItemSkuWithAttrList 08:39--08:40 198
/xx/xxxx/getItemSkuWithAttrList 08:32--08:33 186
/xx/xxxx/getFields 08:31--08:32 184

//每cycle分钟，获取前top

cat access.log | grep "20/Sep/2017:08:" | awk 'BEGIN{cycle=10; top=10} {split($4, a, ":"); split($8, b, "?"); c[b[1],a[2]":"(a[3]-a[3]%cycle)]++ } END{ for(i in c){split(i, idx, SUBSEP); split(idx[2], time, ":"); print idx[1],idx[2]"--"time[1]":"time[2]+cycle, c[idx[1],idx[2]] | "sort -k3rn | head -n" top}}'

eg:

/xx/xxxx/getFields 08:40--08:50 5822
/xx/xxxx/getFields 08:0--08:10 5698
/xx/xxxx/getFields 08:20--08:30 5638
/xx/xxxx/getItemSkuWithAttrList 08:50--08:60 1884
/xx/xxxx/getItemSkuWithAttrList 08:40--08:50 1693

///使用到的函数简介

一、split 初始化和类型强制
awk的内建函数split允许你把一个字符串分隔为单词并存储在数组中。你可以自己定义域分隔符或者使用现在FS(域分隔符)的值。

格式如下：

split (string, array, field separator)
split (string, array) -->如果第三个参数没有提供，awk就默认使用当前FS值。

例子：

例1：替换分隔符

time="14:31:56"

out=`echo $time

|
awk

'{split($0,a,":");print
a[1],a[2],a[3]}'

echo $out

二、substr 截取字符串

返回从起始位置起，指定长度之子字符串；若未指定长度，则返回从起始位置到字符串末尾的子字符串。

格式如下：

substr(s,p) 返回字符串s中从p开始的后缀部分

substr(s,p,n) 返回字符串s中从p开始长度为n的后缀部分

例子：

1 2	`[root@test` `~]# echo "12345678" \| awk '{print substr($0,1,3)}'` `123`

三、length 字符串长度

length函数返回没有参数的字符串的长度。length函数返回整个记录中的字符数。

1 2	`[root@test` `~]# echo "123456" \| awk '{print length}'` `6`

四、gsub 函数

gsub函数则使得在所有正则表达式被匹配的时候都发生替换。gsub(regular expression, subsitution string, target string);简称 gsub（r,s,t)。

举例：把一个文件里面所有包含 abc 的行里面的 abc 替换成 def，然后输出第一列和第三列

1	`awk` `'$0 ~ /abc/ {gsub("abc", "def", $0); print $1, $3}'` `abc.txt`

四、gsub 函数

相关推荐