屏蔽百度蜘蛛或某一爬虫的四种方法

星期五, 2018-08-24 08:26 — adminshiping1

今天看到群里有人说被一俄罗斯爬虫一天内访问网站几千次，想屏蔽它，其实，类似这样的问题解决方案网上有不少文章，屏蔽俄罗斯爬虫跟屏蔽百度蜘蛛的原理是一样的，可以通过如下四种方法来处理。

打开robots.txt，在开头加入如下语句（以百度蜘蛛为例）：

代码分析，首先要知道该爬虫的名称，如百度爬虫是Baiduspider，Google爬虫是Googlebot，360搜索爬虫是360Spider，你可以通过各大搜索引擎蜘蛛爬虫UA汇总来获取爬虫的名称，例如，微软必应的蜘蛛UA是：

我们就可以知道它的爬虫名称为bingbot。

如果是针对某一个页面屏蔽百度蜘蛛或某一爬虫抓取，那么可以通过Meta标签来实现。代码如下：

这是屏蔽所有蜘蛛爬虫抓取该页面的写法，如果只屏蔽某个爬虫，可以把"robots"改为特定的爬虫名称，爬虫名称可以通过上面方法1中提及的办法获得。例如想只屏蔽微软必应的蜘蛛抓取该页，则可以写成：

一些可恶的爬虫并不遵循robots规则，那么我们还可以通过.htaccess来屏蔽它，代码如下（以百度蜘蛛为例）：

如果是Apache服务器，可以修改配置文件 httpd.conf ，这样写( /var/www/html 是根目录)：

如果是Nginx服务器，可以修改配置文件( 默认是 nginx.conf )，这样写：

我们还可以通过分析日志，获得爬虫的IP地址，然后从服务器防火墙屏蔽该IP，不过爬虫通常有很多IP，我们可以屏蔽爬虫的IP段。

不过此方法没有前面几个方法实用，较少人这样操作。

普通分类:

You are here