做seo如何shell实现服务器日志分析

    |     2017年3月6日   |   SEO技术   |     0 条评论   |    307

无需求,不脚本!shell实现服务器日志分析、如搓搓麻将,打打小牌!

【需求一:百度爬虫抓取最多的10个页面】

cat test.log | grep 'Baiduspider/2.0' | awk '{print $7}' | sort | uniq -c | sort -nr | head -10

【需求二:百度爬虫非200状态码抓取占比】

cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){n+=1}}END{print n/NR}'

【需求三:打印非200状态码的url】

cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){print $7,$9}}' | sort | uniq -c | sort -nr

【需求四:统计所有状态码数】

cat test.log | grep 'Baiduspider/2.0' | awk '{print $9}' |sort | uniq -c

【需求五:按页面类型统计】

cat test.log | grep 'Baiduspider/2.0' | grep '/catalog/[0-9]' | wc -l

【需求六:统计top 10目录抓取数】

awk '{print $7}' test.log | egrep "[^/\w+/$]" | awk -F"/" '{print $2}' | sort | uniq -c | sort -nr | head -10

日志分析重点:
top 10的页面类型、频道抓取数量,调整站内链接,爬取收录情况分析
非200状态码占比情况,及页面情况,分析or提取404页面,非200对流量影响等问题

小tips:对于新手可以一步一步敲,具体指以“|”为界,看每步打印出的结果,如先敲“cat text.log”打印的结果;灰常简单的

对于日志分析,不会用shell可以用光年日志,或者excel的宏命令等,,一切只为seo服务(ps:不会也不用太过折腾)

 

回复 取消