用Linux Shell网站SEO日志分析 — ★厦门SEO_厦门SEO顾问_厦门网站优化_SEO经验分享-老狼博客

用Linux Shell网站SEO日志分析

来源:本站原创 Linux Shell, 日志分析 超过围观 3条评论

本文正题。。。。。

这里我就整理了下,本人经常拆份的一些项。Shell在Cygwin里跑的一些常用命令符语句,我用的是Windows下Cygwin……大牛的就跳过吧。0.0

【新手哈 有哪错的 望指点 学习,】

现在把罗列下这些项:

//统计不重复抓取数量

//统计所有状态码数量

//统计某个目录抓取次数

//统计各个目录出现404响应码次数

//统计404页面的抓取数量

//统计每个ip下对应URL的抓取次数

//提取百度蜘蛛访问数量前10的网站目录及访问次数,并按降序排列

//提取某个目录百度蛛蛛访问次数

//统计首页抓取的次数占总体抓取次数比率

//统计404响应码占总响应码比率

//计算百度抓取总字节数

//计算平均每次每个网页抓取字节数(小数点后面大于5进1

对于不懂的命令符,大家还是多百度,多问 因为我底下这些都是这样过来的,欢迎评论提问,吐槽。。。指正。。。

下面我们就进入演示。。。。请大家盯紧了。。

 50544

//统计不重复抓取数量

cat baidu.log | awk ‘{print $4}’|sort|uniq|wc -l

02

//统计所有状态码数量

awk ‘{print $10}’ baidu.log |sort|uniq -c

03

//统计某个目录抓取次数

grep “/shop” baidu.log | awk ‘{print $4}’ |sort |wc –l

04

//统计各个目录出现404响应码次数

awk ‘{if($10==”404″){print $0}}’ baidu.log|sort|uniq -c|wc -l

06

//统计404页面的抓取数量

awk ‘{if($10==”404″){print $0}}’ baidu.log|sort|uniq|wc -l

 10

//统计每个ip下对应URL的抓取次数

awk ‘{print $6,$4}’ baidu.log |sort|uniq –c

07

//提取百度蜘蛛访问数量前10的网站目录及访问次数,并按降序排列

awk ‘{print $4}’ baidu.log |grep -P “[^/(a-zA-Z)|^/(a-zA-Z)/]”|awk -F”/” ‘{print $2}’|sort|uniq -c|sort -r|head -10

 08

//提取某个目录百度蛛蛛访问次数

cat baidu.log | grep “/shop/”| wc –l

cat baidu.log |awk ‘{print $4}’ |grep “/shop/” |wc –l

cat baidu.log |awk ‘{print $4} |awk –F”/” ‘{print $2}’|grep “shop”|wc -l

09

//统计首页抓取的次数占总体抓取次数比率

cat baidu.log |awk ‘{print $4}’|awk ‘{if($0==”/”){n=n+1}}END{print n/NR*100″%”}’

10

//统计404响应码占总响应码比率

cat baidu.log |awk ‘{print $10}’|awk ‘{if($0==”404″){n=n+1}}END{print n/NR*100″%”}’

 11

//计算百度抓取总字节数

cat baidu.log |awk ‘{print $11}’|awk ‘BEGIN{total=0}{total+=$1}END{print total}’

 13

//计算平均每次每个网页抓取字节数(小数点后面大于5进1

14

分享到:

  • 相关文章
  • 为您推荐
  • 各种观点
 用Linux Shell网站SEO日志分析:目前有3 条留言
  1. 沙发
    Liz:

    2015-05-11 00:08:08 W3SVC1125 117.27.xxx.xx GET /company.html nyye=3&q==1 80 – 207.46.13.112 Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm) 200 0 0
    2015-05-11 00:08:10 W3SVC1125 117.27.xxx.xx GET /product.html q=%E6%B1%BD%E8% 80 – 123.125.71.72 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0

    cd d:日志文件
    $ cat ex150511.log |grep Baiduspider |awk ‘{print $6}’ |sort -u |wc
    失败了。求指导下

    2015-05-29 下午 4:45 回复
    • admin:

      你想要什么数据。$6 是你的URL,而日志中你的URL是被截断的。可以让技术 把日志格式重新设置下。sort排序 以及wc -l 运用可以百度下

      2015-06-02 下午 4:43 回复
      • Liz:

        嗯。谢谢。统计不重复抓取。后面发现是|符号打成中文的了。- –

        2015-06-03 下午 3:54 回复
发表评论
---

快捷键:Ctrl+Enter