linux終端下借助awk命令查詢篩出網站access.log日志裡的統計信息

字號+ 編輯: 种花家 修訂: 种花家 來源: 原创 2026-01-15 我要說兩句(0)

懶得學awk的可以用這一段案例來進行簡單的統計, 改改關鍵字就可以復用。文本將以文档名“access.log”舉例說明。

有關狀態碼的 awk 命令

1. 查找並顯示所有狀態碼為 404 的請求

awk '($9 ~ /404/)' access.log

2. 統計所有狀態碼為 404 的請求

awk '($9 ~ /404/)' access.log | awk '{print $9,$7}' | sort

現在我們假設某個請求 ( 例如 : URI: /path/to/notfound ) 產生了大量的 404 錯誤,我們可以通過下面的命令找到這個請求是來自於哪一個引用頁,和來自於甚麼瀏覽器。

awk -F\" '($2 ~ "^GET /path/to/notfound "){print $4,$6}' access.log

追查誰在盜鏈網站圖片

系統管理員有時候會發現其他網站出於某種原因,在他們的網站上使用保存在自己網站上的圖片。如果您想知道究竟是誰未經授權使用自己網站上的圖片,我們可以使用下面的命令:

awk -F\" '($2 ~ /\.(jpg|gif|png)/ && $4 !~ /^http:\/\/www\.example\.com/)\ 
 {print $4}' access.log \ | sort | uniq -c | sort

注意:使用前,將 www.example.com 修改為自己網站的域名。

  • 使用 ” 分解每一行;

  • 請求行中必須包括 “.jpg” 、”.gif” 或 ”.png”;

  • 引用頁不是以您的網站域名字符串開始( 在此例中,即 www.example.com );

  • 顯示出所有引用頁,並統計出現的次數。

訪問 IP 地址相關

統計共有多少個不同的 IP 訪問:

awk '{print $1}' access.log |sort|uniq|wc – l

統計每一個 IP 訪問了多少個頁面:

awk '{++S[$1]} END {for (a in S) print a,S[a]}' access.log

將每個 IP 訪問的頁面數進行從小到大排序:

awk '{++S[$1]} END {for (a in S) print S[a],a}' access.log | sort -n

查看某一個 IP(例如 202.106.19.100 )訪問了哪些頁面:

grep ^202.106.19.100 access.log | awk '{print $1,$7}'

統計 2012 年 8 月 31 日 14 時內有多少 IP 訪問 :

awk '{print $4,$1}' access.log | grep 31/Aug/2012:14 | awk '{print $2}'| sort | uniq | wc -l

統計訪問最多的前20個 IP 地址

awk '{print $1}' access.log |sort|uniq -c|sort -nr |head -20

響應頁面大小統計

列出傳輸大小最大的幾個文档

cat access.log |awk '{print $10 " " $1 " " $4 " " $7}'|sort -nr|head -100

列出輸出大於 204800 byte ( 200kb) 的頁面以及對應頁面發生次數

cat access.log |awk '($10 > 200000){print $7}'|sort -n|uniq -c|sort -nr|head -100

頁面響應時間

如果日志最後一列記錄的是頁面文档傳輸時間 (%T),例如我們可以自定義日志格式為:

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T" combined

可以使用下面的命令統計出所有響應時間超過 3 秒的日志記錄。

awk '($NF > 3){print $0}' access.log

注意:NF 是當前記錄中域的個數。$NF 即最後一個域。

列出相應時間超過 5 秒的請求

awk '($NF > 5){print $0}' access.log | awk -F\" '{print $2}' |sort -n| uniq -c|sort -nr|head -20

awk命令的其他玩法案例

根據一些常見的指令玩法, 來分析nginx訪問日志, 方便管理員找出惡意訪問的規律

統計用戶的瀏覽器(UA)排行

分析出到底是甚麼UA在拼命訪問nginx

cat access.log | awk -F "\"" '{print $(NF-3)}' | sort | uniq -c | sort -nr | head -20

分析113.103開頭的ip訪問了甚麼頁面, 並且將頁面的出現次數降序排列, 用於對抗分析ddos cc這類攻擊, 這裡113.103開頭的ip也是黑客常用的代理cc攻擊池

awk '$1 ~ /^113\.103\./ {print $7}' access.log | sort | uniq -c | sort -k2

列印出所有113.103開頭的ip訪問的指定頁面時的所有記錄, 例如/detail/xxx.html

awk '$1 ~ /^113\.103\./ && $7 == "/detail/xxx.html" {print}' access.log

列印出所有xxx.xxx開頭的ip通過HTTP 1.1代理訪問的所有ip並按訪問次數排序, 用於篩選出代理攻擊ip

awk '$1 ~ /^xxx\.xxx/ && $0 ~ /GET \/ HTTP\/1\.1/ {print $1, $6, $7, $8}' access.log | sort | uniq -c | sort -nr

其他常用命令

例如netstat也是我們常用於解決cc攻擊的利器,以下是命令樣例:

netstat -nat | awk '{print $5}' | awk -F: '{print $1, $4}' | sort -n -t . -k 1,1 -k 2,2 -k 3,3 -k 4,4


閲完此文,您的感想如何?
  • 有用

    428

  • 沒用

    5

  • 開心

    22

  • 憤怒

    9

  • 可憐

    8

1.如文章侵犯了您的版權,請發郵件通知本站,該文章將在24小時内刪除;
2.本站標注原創的文章,轉發時煩請注明來源;
3.交流群: 2702237 13835667

相關課文
  • 防止退出linux終端退出之後導致的nohup進程強制退出

  • Linux系統下word文档轉成pdf的辦法

  • ubuntu和debian安裝nginx或者tengine報錯, 找不到pcre依賴庫的解決辦法

  • 常見的web中間件請求返回狀態碼

我要說說
網上賓友點評