欢迎各位兄弟 发布技术文章

这里的技术是共享的

You are here

如何轻松一招就能看出“真假蜘蛛”! 有大用

我们都知道网站的抓取是靠蜘蛛通过链接来爬取到你的网站才能抓取的,你们我们怎么自动蜘蛛是否来过我们的网站呢?下面来讲讲如何辨别真假百度蜘蛛的方法。

 百度蜘蛛的IP池是不断变动的,通常来讲百度蜘蛛常见的IP段只有2个,一个是电信(220.181.108.*),另一个是网通(123.125.71.*)。

220.181.108.*Baiduspider/2.0(百度网页爬虫),也包括 Baiduspider-image(百度图片爬虫) 【最后一位是“*”代表IP段中的某一个IP。】

123.125.71.* Baiduspider/2.0(百度网页爬虫),也包括 Baiduspider-image(百度图片爬虫) 【最后一位是“*”代表IP段中的某一个IP。】

61.135.186.* Baiduspider-cpro(百度联盟和百度统计爬虫)

【最后一位是“*”代表IP段中的某一个IP。】

 那么,站长该如何通过IP来判断此spider是不是来自百度搜索引擎的呢?

 可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

 1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。医疗仪器健康一体机嵌入式主板终端产品及物联网解决方案。   (有些查得出来 有些查不出来)

 2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

 下面以IP地址123.125.71.106为例,通过windows平台使用nslookup ip命令反解IP,可以看到下图显示的结果就证明这个IP段是真正的百度蜘蛛。  (有些查得出来 有些查不出来)

 3、在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

网站的收录也是看蜘蛛爬取的频率来分析的,如果蜘蛛在你网站停留的时间非常长,那么说明你的网站对蜘蛛来说是非常有价值的,最起码它原因待在你的网站,那么蜘蛛下次也会按时来到你的网站,只有蜘蛛来访你网站的频率很高,就会带走很多的内容,站长小编(http://www.lrioh.com)(http://www.lrist.com)分享seo知识!

来自  https://ask.seowhy.com/article/18337


日志分析之识别真假蜘蛛与处理办法

导读(日志分析是站长必须要做的事情,如果一个网站主或者seoer不对日志进行分析,那么他绝对不是一个合格的站长。日志分析相关知识很多,我相信大部分站长对基础分析都会掌握,但是一些深入的日志分析问题可能或多或少有些迷茫!比如怎么识别真假蜘蛛以及处理方法!)
一,关于日志分析软件:

二,日志重点分析点

三,如何分分辨真假蜘蛛

四,如何处理假蜘蛛

日志分析工具很多,用处大致都相同 ,如果你想要直观化的分析可以选择一个比较容易理解的日志分析工具,比如拉格号在线分析工具等比较合适!

日志分析的重点在于:
1.蜘蛛来类(百度,360,谷歌等),2.抓取目录与页面(观察更新的页面是否被访问与抓取,爬取的目录等)3.蜘蛛访问次数与访问时间(访问频繁代表蜘蛛青睐此网站)4.网站安全与返回码(主要看是否被挂黑链,返回码一般200属于正常,但是如果404页面返回是200就得主要,还有其他500与302需要注意)5.文章权重(部分工具可以分析出访问蜘蛛的权重,权重蜘蛛访问则说明文章优质)。
对于如何分辨真假蜘蛛这里就详细的解答一下,方法很多比如:
1、在linux平台下,可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 .baidu.com 或 .baidu.jp 的格式命名。
2、在windows平台或者IBM OS/2平台下,可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。
3、在mac os平台下,你可以使用dig 命令反解ip来判断是否来自百度spider的抓取。打开命令处理器,输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。

然后我们把有疑问的蜘蛛ip记录下来

比如这个ip段的百度蜘蛛从访问的页面月状态码来看都不正常,所以我们就用上述的第二种方式查询!
操作步骤:打开电脑开始栏→输入cmd打开cmd.exe→使用nslookup ip查询

clipboard.png

我们可以通过查询有疑问的蜘蛛ip发现找不到!这种情况就是假蜘蛛。而一般真常情况的蜘蛛是下面这种显示baidu字样的!

clipboard.png

找到了假冒的蜘蛛那么到底这个假冒蜘蛛有什么危害呢?小编在网上查找答案没有找到相关权威的知识解答,于是去百度站长社区与反馈平台反馈得到的结果也不尽如意。于是就联络一些有过这种情况的站长,经过他们以往的经验来看,小编得出以下的结论!
1、占用网站带宽,导致网站流量上升,增加额外开销,
2、在有限带宽的前提下,阻碍了正常蜘蛛的抓取,误导了我们在对网站开展SEO工作时的思路,
3、部分伪装成假蜘蛛的采集工具剽窃了我们的工作
4..假冒蜘蛛不能抓取内容,不能形成建库收录,所以影响不是很大。
所以假冒蜘蛛存在着一些危害,但总的来说都在可控范围类,所以一旦发现假冒蜘蛛访问与抓取,可以暂时不用屏蔽,可以先观察百度站长的网站抓取是否正常,然后看具体的带来的危害,比如是否长时间出现此类假冒蜘蛛。观察一段时间后如果没问题就不用管,如果有影响就用robots协议屏蔽掉此ip段的假冒蜘蛛,不过需要注意的是在屏蔽的时候不要屏蔽错误。
本文由甲爪联盟原创供稿!原文链接:http://www.jiazhua.com/wz/467...


来自  https://segmentfault.com/a/1190000008186647

普通分类: