欢迎各位兄弟 发布技术文章
这里的技术是共享的
百度今天(2014-04-28)公开声明Baiduspider的ip池是不断变动的,有部分站长会误判百度蜘蛛为伪蜘蛛而把百度Baiduspider屏蔽导致不必要的损失,因此正确地识别Baiduspider尤为重要。
百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库, 使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
通常来说,蜘蛛百度蜘蛛常见的ip段只有2个,一个是电信(220.181.108.*)、一个是网通(123.125.71.*)。很多人认为不同ip段的Baiduspider代表着不同的的权重,其实这是一个很荒诞的误区!百度Baiduspider没有权重之说,电信、网通多线路同时访问各大网站,分工合作而已!
下面进入主题,谈谈如何识别伪装的Baiduspider:
1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器(win+r,输入cmd调出) 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
3、在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。引
以上方法来自百度官方文件,Ian的电脑系统是win7的,亲测了第二种方法,上面的是本人测试的结果截图。图中解析出ip为220.181.108.92的Baiduspider“名称”为“baiduspider-220-181-108-92.crawl.baidu.com”,后缀符合上述的“*.baidu.com 或*.baidu.jp”,因此可以判断出ip为220.181.108.92是真正的Baiduspider。
一般需要判断辨别Baiduspider真伪的情况在网站运营推广中比较罕见,一般用在遇到网站被大规模攻击采集的时候。