有關狀態碼的 awk 命令
1. 查找並顯示所有狀態碼爲 404 的請求
awk '($9 ~ /404/)' access.log
2. 統計所有狀態碼爲 404 的請求
awk '($9 ~ /404/)' access.log | awk '{print $9,$7}' | sort
現在我們假設某個請求 ( 例如 : URI: /path/to/notfound ) 産生了大量的 404 錯誤,我們可以通過下面的命令找到這個請求是來自於哪一個引用頁,和來自於什麽瀏覽器。
awk -F\" '($2 ~ "^GET /path/to/notfound "){print $4,$6}' access.log
追查誰在盜鏈網站圖片
系統管理員有時候會發現其他網站出於某種原因,在他們的網站上使用保存在自己網站上的圖片。如果您想知道究竟是誰未經授權使用自己網站上的圖片,我們可以使用下面的命令:
awk -F\" '($2 ~ /\.(jpg|gif|png)/ && $4 !~ /^http:\/\/www\.example\.com/)\ {print $4}' access.log \ | sort | uniq -c | sort
注意:使用前,將 www.example.com 修改爲自己網站的域名。
使用 ” 分解每一行;
請求行中必須包括 “.jpg” 、”.gif” 或 ”.png”;
引用頁不是以您的網站域名字符串開始( 在此例中,即 www.example.com );
顯示出所有引用頁,並統計出現的次數。
訪問 IP 地址相關
統計共有多少個不同的 IP 訪問:
awk '{print $1}' access.log |sort|uniq|wc – l
統計每一個 IP 訪問了多少個頁面:
awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file
將每個 IP 訪問的頁面數進行從小到大排序:
awk '{++S[$1]} END {for (a in S) print S[a],a}' log_file | sort -n
查看某一個 IP(例如 202.106.19.100 )訪問了哪些頁面:
grep ^202.106.19.100 access.log | awk '{print $1,$7}'
統計 2012 年 8 月 31 日 14 時内有多少 IP 訪問 :
awk '{print $4,$1}' access.log | grep 31/Aug/2012:14 | awk '{print $2}'| sort | uniq | wc -l
統計訪問最多的前十個 IP 地址
awk '{print $1}' access.log |sort|uniq -c|sort -nr |head -10
響應頁面大小統計
列出傳輸大小最大的幾個文档
cat access.log |awk '{print $10 " " $1 " " $4 " " $7}'|sort -nr|head -100
列出輸出大於 204800 byte ( 200kb) 的頁面以及對應頁面發生次數
cat access.log |awk '($10 > 200000){print $7}'|sort -n|uniq -c|sort -nr|head -100
頁面響應時間
如果日志最後一列記錄的是頁面文档傳輸時間 (%T),例如我們可以自定義日志格式爲:
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T" combined
可以使用下面的命令統計出所有響應時間超過 3 秒的日志記錄。
awk '($NF > 3){print $0}' access.log
注意:NF 是當前記錄中域的個數。$NF 即最後一個域。
列出相應時間超過 5 秒的請求
awk '($NF > 5){print $0}' access.log | awk -F\" '{print $2}' |sort -n| uniq -c|sort -nr|head -20
統計用戶的瀏覽器(UA)排行
分析出到底是什麽UA在拼命訪問nginx
tail -n 10000 /usr/local/nginx/logs/access.log | awk -F\" '{A[$(NF-1)]++}END{for(k in A)print A[k],k}' | sort -n | tail