如何识别搜索引擎爬虫真伪(百度、搜狗、360) — ★厦门SEO_厦门SEO顾问_厦门网站优化_SEO经验分享-老狼博客

如何识别搜索引擎爬虫真伪(百度、搜狗、360)

来源:本站原创 随便写写 超过围观 3条评论

如:在防采集应用上,很重要一个白名单IP就是搜索引擎IP,这分别提供 一下各官方给的识别方法:

1、百度爬虫真假识别:
主要使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

官方详情http://zhanzhang.baidu.com/college/articleinfo?id=34
(百度爬虫识别工具:http://tool.itseo.net/spider.jsp)

目前 我们 百度爬虫UA中集中IP段:

119.167.246.*
123.125.71.*
180.76.5.*
220.181.108.*
180.149.133.*

附://Shell 批量反解析爬虫 $2为IP域//

grep “Baiduspider” xx.log| awk ‘{print $2}’ |sort|uniq >ip.txt;
nslookup <ip.txt |grep -a “baiduspider”|awk -F[-] ‘{print $2″.”$3″.”$4″.”$5}’|awk -F[.] ‘{print $1″.”$2″.”$3”.”$4}’ >baiduip.txt

2、360Spider爬虫真假识别:

UA中都含有 360Spider的ip段:
101.226.166.*
101.226.167.*
101.226.168.*
101.226.169.*
182.118.20.*
182.118.21.*
182.118.22.*
182.118.25.*
182.118.35.*
61.55.185.*
180.153.236.*
182.118.28.*
时效性UA IP端  主要是针对网站内容更新爬取的IP端
182.118.26.110 ~ 182.118.26.239

官方详情http://bbs.360safe.com/thread-4835418-1-1.html

3、待更新

分享到:

  • 相关文章
  • 为您推荐
  • 各种观点
 如何识别搜索引擎爬虫真伪(百度、搜狗、360):目前有3 条留言
  1. 地板
    上海SEO小赛:

    学习啦!!!

    2015-05-12 下午 6:21 回复
  2. 板凳
    广州SEO:

    博主您好,您的文章写的太好了。我是广州SEO爱好者专注于广州seohgsq.com网站优化建设,分享seo核心技术。致力于提高用户体验,发挥SEO最大营销价值,提供广州SEO网站优化,网络营销推广服务,希望能和博主做个朋友,一起学习

    2015-06-01 下午 7:37 回复
  3. 沙发
    铁涛:

    不错哈

    2015-06-24 下午 1:40 回复
发表评论
---

快捷键:Ctrl+Enter