网站当天发布文章爬虫抓取率脚本 — ★厦门SEO_厦门SEO顾问_厦门网站优化_SEO经验分享-老狼博客

网站当天发布文章爬虫抓取率脚本

来源:本站原创 Linux Shell 超过围观 1条评论

除了监控当天发布文章收录率,我们还需要监控最新发布文章的抓取率。这边贴 下代码
#!/bin/bash by 老狼
#today_fabu.log 为当天发布的文章链接不带主域:如 /daojian2/gonglue_12542.html
#baiduspider.log 为百度当天抓取的日志URL
#baobiao.txt为最终抓取率、及未抓取链接报表
#sh -n today.sh 回车
for line in `cat test_today_fabu.log`
do
if cat test_baiduspider.log|grep “$line”;then
echo $line “抓取” >>today_crawll.log
else
echo $line “未抓取” >>today_crawll.log
fi
done <test_baiduspider.log
cat today_crawll.log |awk ‘{print $2}’|awk ‘{if($1==”抓取”){n=n+1}}END{print “抓取率”,n/NR*100″%”}’ >baobiao.txt
cat today_crawll.log |awk ‘{print $0}’|awk ‘{if($2==”未抓取”)print $0}’ >>baobiao.txt;
rm today_crawll.log

结果图:
报表截图

分享到:

  • 相关文章
  • 为您推荐
  • 各种观点
 网站当天发布文章爬虫抓取率脚本:目前有1 条留言
  1. 沙发
    铁涛:

    好东西。

    2015-08-03 下午 3:18 回复
发表评论
---

快捷键:Ctrl+Enter