Linux下筛选Nginx日志中异常IP封禁


经常有一些闲得无聊的人刷我博客的接口,有时候会直接影响其他正常用户的请求,于是我心生一计,短时间禁用这些异常的IP来确保服务器性能稳定,为正常用户的提供服务。

【grep】

    global regular expression print 用最简单术语来说,grep(全局正则表达式打印)--命令用于查找文件里符合条件的字符串。 从文件的第一行开始,grep 将一行复制到 buffer 中,将其与搜索字符串进行比较,如果比较通过,则将该行打印到屏幕上。grep将重复这个过程,直到文件搜索所有行。

     注意:这里没有进程执行 grep 存储行、更改行或仅搜索部分行。

    代码如下:

#!/bin/sh
# 筛选上一分钟请求的IP地址
grep $(date -d "5 minute ago" +"%d/%h/%Y:%H:%M") /home/wwwlogs/nginx_access.log \
# 按IP和时间进行分组
| awk '{print $1,$12}' \
# 过滤爬虫
| grep -i -v -E "google|yahoo|baidu|msnbot|FeedSky|sogou|360|bing|soso|403|admin" \
# 统计IP出现的次数
| awk '{print $1}' | sort | uniq -c | sort -rn \
# 封禁请求超过64次的IP(需根据实际情况调整)
| awk '{if($1>64)print "deny "$2";"}' > /usr/local/nginx/conf/vhost/blockip.conf
# 重启Nginx
/usr/local/nginx/sbin/nginx -s reload


【awk】

    由 Aho,Weinberger 和 Kernighan 创建的文本模式扫描和处理语言。 

    AWK非常复杂,所以这不是一个完整的指南,但应该给你一个知道什么 awk 可以做。它使用起来比较简单,强烈建议使用。

    awk 程序对输入文件的每一行进行操作。它可以有一个可选的 BEGIN{ } 部分在处理文件的任何内容之前执行的命令,然后主{ }部分运行在文件的每一行中,最后还有一个可选的END{ }部分操作将在后面执行文件读取完成:

#!/bin/sh
# 筛选最近5120个请求
tail -n5120 /home/wwwlogs/nginx_access.log \
# 按IP和时间进行分组
| awk '{print $1,$12}' \
# 过滤爬虫
| grep -i -v -E "google|yahoo|baidu|msnbot|FeedSky|sogou|360|bing|soso|403|admin" \
# 统计IP出现的次数
| awk '{print $1}' | sort | uniq -c | sort -rn \
# 封禁请求超过64次的IP(需根据实际情况调整)
| awk '{if($1>64)print "deny "$2";"}' > /usr/local/nginx/conf/vhost/blockip.conf
# 重启Nginx
/usr/local/nginx/sbin/nginx -s reload

【相关】

    说明:

        awk ‘{ print $4}’:取数据的第4域(第4列)

        sort:进行排序。

        uniq -c:打印每一重复行出现的次数。(并去掉重复行)

        sort -nr:按照重复行出现的次序倒序排列。

        head -n 100:取排在前100位的IP


【执行】

    脚本写好了,接下来我们只需要吧脚本配置到crontab中定期执行就可以了,比如我们需要每5分钟执行一次脚本。

*/5 * * * * /etc/profile; /bin/sh /usr/local/nginx/conf/vhost/blockip.sh


【总结】

    可以看到不管是用grep还是awk总体逻辑都是一样的。区别只是在于如何筛选出合适的数据,可以根据自己的实际情况使用具体的方法。


【更多】

统计IP访问量

awk '{print $1}' access.log | sort -n | uniq | wc -l

查看某一时间段的IP访问量(4-5点)

 grep"07/Apr/2017:0[4-5]" access.log | awk '{print $1}' | sort | uniq -c| sort -nr | wc -l

查看访问最频繁的前100个IP

 awk '{print $1}' access.log | sort -n |uniq -c | sort -rn | head -n 100

查看访问100次以上的IP

 awk '{print $1}' access.log | sort -n |uniq -c |awk '{if($1 >100) print $0}'|sort -rn

查询某个IP的详细访问情况,按访问频率排序

 grep'104.217.108.66' access.log |awk '{print $7}'|sort |uniq -c |sort -rn |head -n 100

查看访问最频的页面(TOP100)

 awk '{print $7}' access.log | sort |uniq -c | sort -rn | head -n 100

查看访问最频的页面([排除php页面】(TOP100)

 grep -v ".php"  access.log | awk '{print $7}' | sort |uniq -c | sort -rn | head -n 100

查看页面访问次数超过100次的页面

 cat access.log | cut -d ' ' -f 7 | sort |uniq -c | awk '{if ($1 > 100) print$0}' | less

查看最近1000条记录,访问量最高的页面

 tail -1000 access.log |awk '{print $7}'|sort|uniq -c|sort -nr|less

统计每秒的请求数,top100的时间点(精确到秒)

 awk '{print $4}' access.log |cut -c14-21|sort|uniq -c|sort -nr|head -n 100

每分钟请求量统计 11、统计每分钟的请求数,top100的时间点(精确到分钟)

 awk '{print $4}' access.log |cut -c14-18|sort|uniq -c|sort -nr|head -n 100

每小时请求量统计 12、统计每小时的请求数,top100的时间点(精确到小时)

 awk '{print $4}' access.log |cut -c14-15|sort|uniq -c|sort -nr|head -n 100

在nginx log中最后一个字段加入$request_time 列出传输时间超过 3 秒的页面,显示前20条

 cat access.log|awk '($NF > 3){print$7}'|sort -n|uniq -c|sort -nr|head -20

列出php页面请求时间超过3秒的页面,并统计其出现的次数,显示前100条

 cat access.log|awk '($NF > 1 &&  $7~/\.php/){print$7}'|sort -n|uniq -c|sort -nr|head -100

统计蜘蛛抓取次数

 grep'Baiduspider' access.log|wc -l

统计蜘蛛抓取404的次数

 grep'Baiduspider' access.log |grep'404' | wc -l

查看当前TCP连接数

 netstat -tan | grep"ESTABLISHED" | grep":80" | wc -l

用tcpdump嗅探80端口的访问看看谁最高

 tcpdump -i eth0 -tnn dst port 80 -c1000 | awk -F"." '{print$1"."$2"."$3"."$4}' | sort | uniq -c | sort -nr


上一篇 下一篇

评论

登录后可发表评论