[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容

星期日, 2015-01-18 21:13 — shiping1

版本号：Python2.7.5，Python3改动较大，各位另寻教程。
所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。 
类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端， 然后读取服务器端的响应资源。

在Python中，我们使用urllib2这个组件来抓取网页。
urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。
它以urlopen函数的形式提供了一个非常简单的接口。
最简单的urllib2的应用代码只需要四行。
我们新建一个文件urllib2_test01.py来感受一下urllib2的作用：
 
[python] view plaincopy
import urllib2  
response = urllib2.urlopen('http://www.baidu.com/')  
html = response.read()  
print html  

按下F5可以看到运行的结果：
我们可以打开百度主页，右击，选择查看源代码（火狐OR谷歌浏览器均可），会发现也是完全一样的内容。
也就是说，上面这四行代码将我们访问百度时浏览器收到的代码们全部打印了出来。
这就是一个最简单的urllib2的例子。
 
除了"http:"，URL同样可以使用"ftp:"，"file:"等等来替代。
HTTP是基于请求和应答机制的：
客户端提出请求，服务端提供应答。
 
urllib2用一个Request对象来映射你提出的HTTP请求。
在它最简单的使用形式中你将用你要请求的地址创建一个Request对象，
通过调用urlopen并传入Request对象，将返回一个相关请求response对象，
这个应答对象如同一个文件对象，所以你可以在Response中调用.read()。
我们新建一个文件urllib2_test02.py来感受一下：
 
[python] view plaincopy
import urllib2    
req = urllib2.Request('http://www.baidu.com')    
response = urllib2.urlopen(req)    
the_page = response.read()    
print the_page  

可以看到输出的内容和test01是一样的。urllib2使用相同的接口处理所有的URL头。例如你可以像下面那样创建一个ftp请求。
[python] view plaincopy
req = urllib2.Request('ftp://example.com/')  
在HTTP请求时，允许你做额外的两件事。1.发送data表单数据
这个内容相信做过Web端的都不会陌生，
有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本，或其他WEB应用程序挂接)。
在HTTP中,这个经常使用熟知的POST请求发送。
这个通常在你提交一个HTML表单时由你的浏览器来做。
并不是所有的POSTs都来源于表单，你能够使用POST提交任意的数据到你自己的程序。
一般的HTML表单，data需要编码成标准形式。然后做为data参数传到Request对象。
编码工作使用urllib的函数而非urllib2。
我们新建一个文件urllib2_test03.py来感受一下：
 
[python] view plaincopy
import urllib    
import urllib2    
  
url = 'http://www.someserver.com/register.cgi'    
    
values = {'name' : 'WHY',    
          'location' : 'SDU',    
          'language' : 'Python' }    
  
data = urllib.urlencode(values) # 编码工作  
req = urllib2.Request(url, data)  # 发送请求同时传data表单  
response = urllib2.urlopen(req)  #接受反馈的信息  
the_page = response.read()  #读取反馈的内容  

如果没有传送data参数，urllib2使用GET方式的请求。GET和POST请求的不同之处是POST请求通常有"副作用"，
它们会由于某种途径改变系统状态(例如提交成堆垃圾到你的门口)。
Data同样可以通过在Get请求的URL本身上面编码来传送。
 
[python] view plaincopy
import urllib2    
import urllib  
  
data = {}  
  
data['name'] = 'WHY'    
data['location'] = 'SDU'    
data['language'] = 'Python'  
  
url_values = urllib.urlencode(data)    
print url_values  
  
name=Somebody+Here&language=Python&location=Northampton    
url = 'http://www.example.com/example.cgi'    
full_url = url + '?' + url_values  
  
data = urllib2.open(full_url)    

这样就实现了Data数据的Get传送。 
2.设置Headers到http请求
有一些站点不喜欢被程序（非人为访问）访问，或者发送不同版本的内容到不同的浏览器。
默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7)，

这个身份可能会让站点迷惑，或者干脆不工作。
浏览器确认自己身份是通过User-Agent头，当你创建了一个请求对象，你可以给他一个包含头数据的字典。
下面的例子发送跟上面一样的内容，但把自身模拟成Internet Explorer。
（多谢大家的提醒，现在这个Demo已经不可用了，不过原理还是那样的）。
 
[python] view plaincopy
import urllib    
import urllib2    
  
url = 'http://www.someserver.com/cgi-bin/register.cgi'  
  
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'    
values = {'name' : 'WHY',    
          'location' : 'SDU',    
          'language' : 'Python' }    
  
headers = { 'User-Agent' : user_agent }    
data = urllib.urlencode(values)    
req = urllib2.Request(url, data, headers)    
response = urllib2.urlopen(req)    
the_page = response.read()   
上一篇[Python]网络爬虫（一）：抓取网页的含义和URL基本构成
下一篇[Python]网络爬虫（三）：异常的处理和HTTP状态码的分类
顶65踩0

主题推荐: 网络爬虫 python url internet explorer web应用

猜你在找: 割绳子的作者你如此歧视无视鄙视中国人这是何苦呢; cs硕士妹子找工作经历阿里人搜等互联网; 见过最好的git入门教程; python3使用tkinter做界面之菜单; 自己选择的路跪着也要走完; Machine Learning---LMS 算法; Django 安装及简单实例; Java内部类总结吐血之作; moto & google笔试题目-STLC++面试题; 机器学习machine learning之AdaBoost算法

查看评论
24楼 NightFarmer 2014-12-18 17:23发表 [回复]冒昧请教博主一个问题，从留言看博主应该用过Java，Java获取HttpURLConnection后拿到OutputStream用write方法发出的byte[]类型数据用Python可以实现吗？求解惑23楼 谁的Utopia 2014-12-10 21:48发表 [回复]大神大神 看了你的技术微博 好霸气 可不可以加你qq呀 方便请教 我刚刚一不小心垮了专业 好捉鸡的说22楼 谁的Utopia 2014-12-10 21:47发表 [回复]大神大神 看了你的技术微博 好霸气 可不可以加你qq呀 方便请教 我刚刚一不小心垮了专业 好捉鸡的说21楼 阿呆1111 2014-09-02 09:13发表 [回复]请问楼主的403错误解决没有？20楼 zzh211dn 2014-08-01 16:01发表 [回复]楼主你的urllib2_test01.py在我的机子上运行后报错：raise BadStatusLine(line) BadStatusLine: '' 怎么回事呢....网上找了好久也没找到解决方法...Re: zzh211dn 2014-08-01 16:02发表 [回复]回复zzh211dn：PS:我也是SDU的....19楼 程序员小许 2014-07-26 17:06发表 [回复]请问：full_url = url + '？' + url_data 中的？代表什么含义呢？为什么用？而不是其他Re: 请叫我汪海 2014-07-27 22:25发表 [回复]回复u014330035：这个是GET方法传参数，可以看W3C教程：http://www.w3school.com.cn/tags/html_ref_httpmethods.asp18楼 dp_cheng 2014-07-25 22:22发表 [回复]浏览了下博主的博客感觉博主真是博学多才，发现博主竟然还是学生，想问下博主大学前是否就有学习过计算机相关的知识？Re: 请叫我汪海 2014-07-26 11:34发表 [回复]回复dp_cheng：呃没有，大一开始接触Java，大二学了一年的艺术课程，然后现在大三结束了，，学习的过程满打满算大约两年，很多东西只是泛泛的接触了一下，有待深造^_^17楼 ramon_caprice 2014-07-20 09:33发表 [回复]我想请教一下你用什么编程的？界面这么清新。Re: 请叫我汪海 2014-07-20 23:04发表 [回复]回复ramon_caprice：哈哈，windows下的IDLERe: ramon_caprice 2014-07-21 11:35发表 [回复]回复wxg694175346：就是你第一个python shell那种窗口Re: 请叫我汪海 2014-07-21 20:54发表 [回复]回复ramon_caprice：是的，那是Python自带的原生IDLE程序。Re: ramon_caprice 2014-07-21 22:09发表 [回复]回复wxg694175346：s
为什么界面有点像codeblock，我想用一个功能好一点的IDE。。。装了ulipad不太会用Re: ramon_caprice 2014-07-21 11:34发表 [回复]回复wxg694175346：我刚刚弄好了ulipad

可是运行之后没有像VS C++6.0弹出输出结果的窗口。这正常吗？16楼 zyjnjnu 2014-07-07 16:11发表 [回复]博主，我看到好多地方都把你的内容盗走了Re: 请叫我汪海 2014-07-08 10:09发表 [回复]回复zyjnjnu：哈哈，无所谓啦，本来就是和大家分享的^_^15楼 doglesss 2014-06-18 11:40发表 [回复]很好14楼 百一不只 2014-06-10 11:26发表 [回复]大赞，感谢楼主。13楼 renyanchuang 2014-05-22 21:11发表 [回复]楼主好12楼 Gavechan 2014-05-03 12:24发表 [回复]这是用的Python2写的吧，3.0版本中已经将urllib2、urlparse、和robotparser并入了urllib中。希望可以注明一下，以防小白跳坑 =。=Re: 请叫我汪海 2014-05-03 20:04发表 [回复]回复Gavechan：哈哈是的，python2.7.5Re: 00000_00 2014-05-14 21:12发表 [回复]回复wxg694175346：请问下，在3.X里urllib2.Request（）的对应声明是什么？总是报没有声明。11楼 wh555s 2014-04-02 13:04发表 [回复]楼主你好！请问如何解决在Python2.7.5下抓取网页之后转码为中文？而且貌似转了之后出现不少乱码，好像Python对中文支持一直不好……10楼 Nonikka 2014-03-26 22:01发表 [回复]楼主，用py3.3的时候
html = urllib.request.urlopen('http://movie.douban.com/subject/2997076/?from=hot_movie').read()
r = re.compile(r'<a href.+?(\d{5})</span>人评价',re.DOTALL)
len(r.findall(html)) （正则可能写错了但是不重要啦）
总是显示TypeError: can't use a string pattern on a bytes-like object
encode和decode总是不行，请问该怎么解决？新手对编码一点也不懂啊Re: Nonikka 2014-03-26 22:04发表 [回复]回复u014375100：啊html = html.decode('utf-8')就行了抱歉哈9楼 该昵称又被占用吧 2014-03-16 16:54发表 [回复]楼主你好：
我想从网页下载图片，可是图片是用js加载的。怎么弄。Re: 请叫我汪海 2014-03-16 19:07发表 [回复]回复u014152891：可以用爬虫框架8楼 xuyuanqingchunhuahen 2014-03-01 22:22发表 [回复]楼主，从1.发送data表单数据开始，我就看的不是很明白了。因为没学过web端的开发。请问应该学web端开发的哪一部分才能把这篇文章看懂呢？Re: 请叫我汪海 2014-03-01 23:11发表 [回复]回复xuyuanqingchunhuahen：可以去codecademy系统的学习一下html，或者去w3c速成，主要是html的内容，然后表单时html里面的form7楼 陈小梅 2014-03-01 20:14发表 [回复]楼主,请问下如果发送data表单成功后，会得到什么结果呢？从哪里知道已经发送成功了？Re: 请叫我汪海 2014-03-01 21:10发表 [回复]回复ckr815：或者看状态码是不是200可以知道是否post过去Re: 请叫我汪海 2014-03-01 21:09发表 [回复]回复ckr815：一般的服务器都会有返回值的，程序员在写API的时候会设置，你只要把response打印看看就知道了Re: 陈小梅 2014-03-02 09:42发表 [回复]回复wxg694175346：多谢楼主哈，我还想问下，name=Somebody+Here&language=Python&location=Northampton这句话的格式是怎么样的？还有Somebody+Here是随便定义的吗？Re: 请叫我汪海 2014-03-02 11:15发表 [回复]回复ckr815：这个是自己随便定义的，只做举例使用，一般要根据抓包结果写这个式子。格式如下：
参数1=值1&参数2=值2&参数3=值3......&参数n=值n6楼 辰夕 2014-02-21 14:23发表 [回复]楼主好，说明下我使用的2.7.6的版本的，第三个案例运行不了，提示 （ Traceback (most recent call last): ....error: [Errno 10054] ) 然后按照你跟5楼讨论那个也运行错了
第四个案例运行时提示 （ There's an error in your program:***can't assign to operator--好像是说第13行的name=Somebody+Here&language=Python&location=Northampton 有误）
第五个案例运行提示（Traceback (most recent call last):：...error: [Errno 10054] )同案例35楼 未提交的遗漏者 2013-12-26 10:38发表 [回复]在response = urllib2.urlopen(req)执行时，
出现了错误error: [Errno 10054] 
去搜索了下是网站不允许，导致response.read()卡滞，最后抛出了Errno 10054的错误
请问真的是因为网站的原因，而不是代码本身的原因吗？Re: 请叫我汪海 2013-12-26 12:27发表 [回复]回复z1x1c1v1：网站不允许是可能的，服务器可以通过检测请求的header判断你是浏览器还是客户端访问，但是也是可以解决的，可以伪造header模拟浏览器访问应该就OK了。
文章最后有写到：
2.设置Headers到http请求

有一些站点不喜欢被程序（非人为访问）访问，或者发送不同版本的内容到不同的浏览器。

默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7)，

这个身份可能会让站点迷惑，或者干脆不工作。

浏览器确认自己身份是通过User-Agent头，当你创建了一个请求对象，你可以给他一个包含头数据的字典。

下面的例子发送跟上面一样的内容，但把自身模拟成Internet Explorer。

[python] view plaincopy

import urllib 
import urllib2 

url = 'http://www.someserver.com/cgi-bin/register.cgi' 

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
values = {'name' : 'WHY', 
'location' : 'SDU', 
'language' : 'Python' } 

headers = { 'User-Agent' : user_agent } 
data = urllib.urlencode(values) 
req = urllib2.Request(url, data, headers) 
response = urllib2.urlopen(req) 
the_page = response.read() 

这样应该可以解决Re: 未提交的遗漏者 2013-12-28 14:08发表 [回复]回复wxg694175346：这不是最后的一个例子吗？还是不行一样的错误，我把具体的错误贴一下：
Traceback (most recent call last):
File "learning.py", line 94, in <module>
response = urllib2.urlopen(req)
File "urllib2.py", line 127, in urlopen
return _opener.open(url, data, timeout)
File "urllib2.py", line 404, in open
response = self._open(req, data)
File "urllib2.py", line 422, in _open
'_open', req)
File "urllib2.py", line 382, in _call_chain
result = func(*args)
File "urllib2.py", line 1214, in http_open
return self.do_open(httplib.HTTPConnection, req)
File "urllib2.py", line 1187, in do_open
r = h.getresponse(buffering=True)
File "httplib.py", line 1045, in getresponse
response.begin()
File "httplib.py", line 409, in begin
version, status, reason = self._read_status()
File "httplib.py", line 365, in _read_status
line = self.fp.readline(_MAXLINE + 1)
File "socket.py", line 476, in readline
data = self._sock.recv(self._rbufsize)
error: [Errno 10054]Re: 请叫我汪海 2013-12-28 14:15发表 [回复]回复z1x1c1v1：访问的链接方便给我看下吗Re: 未提交的遗漏者 2014-01-02 10:48发表 [回复]回复wxg694175346：'http://www.someserver.com/cgi-bin/register.cgi' 
我没改你代码试过，也是这样的Re: 请叫我汪海 2014-01-02 22:28发表 [回复]回复z1x1c1v1：好吧我看到了=。=可能是那个网站的问题，其他网站没问题Re: 未提交的遗漏者 2014-01-03 11:34发表 [回复]回复wxg694175346：你试的哪个网站？我也试试？Re: 请叫我汪海 2014-01-02 22:24发表 [回复]回复z1x1c1v1：我报的是403错误4楼 kksleric 2013-12-16 11:02发表 [回复]楼主是SDU的？Re: 请叫我汪海 2013-12-16 17:00发表 [回复]回复kksleric：恩=。=2011级，欢迎找我玩Re: kksleric 2013-12-16 17:30发表 [回复]回复wxg694175346：看你这博客，博学多才啊，我是10级的，现在在taobao实习，有空找我来玩哦~
http://www.mogujie.com/style/ 帮忙看一下这个网站，貌似有延时加载之类的，数据爬不全，你有什么比较好的解决方案吗？Re: 请叫我汪海 2013-12-16 20:15发表 [回复]回复kksleric：学长好~哈哈
数据爬不全是什么意思啊？应该加载的页面就是最后的结果了，不会爬不全的啊，具体是什么情况
对了学长你认识陈乾这个渣渣不=。=Re: kksleric 2013-12-17 10:15发表 [回复]回复wxg694175346：听说过，但不认识。。。。
点击这个页面图片进入的页面的url都是 .*#content_top 形式的，每页能加载出100多个，但是查看源代码，ctrl+F下只有20多个Re: 请叫我汪海 2013-12-17 11:41发表 [回复]回复kksleric：哦哦我看到了，就是滚动到最下面的时候会显示加载更多。
这个我没有接触过，可以用httpfox抓包看看。
话说那个应该是用ajax做的，可以动态获取新内容，我猜的=。=Re: lirui0081 2014-10-27 11:16发表 [回复]回复wxg694175346：那个我的解决办法是找到它的ajax地址解析返回结果，这样一来或许比直接解析页面更方便了。3楼 大大还是小小董董 2013-11-10 16:57发表 [回复]猪猪来个Java版玩玩啦~~Re: 请叫我汪海 2013-11-10 18:37发表 [回复]回复why_study：好的~~今天就写2楼 erroric 2013-10-04 17:40发表 [回复]而且 data = urllib2.open(full_url) 这句话，运行出错，AttributeError: 'module' object has no attribute 'open'
请问在urllib2中有没有open（）函数
另 我用的是2.7.5
恳请楼主解疑Re: 请叫我汪海 2013-10-16 19:55发表 [回复]回复erroric：python2.x用data=urllib.urlopen(url)试试看Re: erroric 2013-10-20 12:19发表 [回复]回复wxg694175346：应该是这样，谢谢lz1楼 erroric 2013-10-04 17:35发表 [回复]楼主好，你的urllib2_test03.py 我在2.7.5运行都出现了错误，在2.7.5 下出现socket.error: [Errno 10054] 错误。

请问这个是什么问题呢？ 真心求教Re: lsxpu 2013-11-03 16:03发表 [回复]回复erroric：我也是出现这个问题Re: 小与同学 2013-10-16 19:54发表 [回复]回复erroric：python2.x用data=urllib.urlopen(url)
python3.x整合了urllib和urllib2,用python3.x的
import urllib.request
date=urllib.request.urlopen(url)Re: u010648442 2013-10-27 11:07发表 [回复]回复qq376702145：请问一下在2.7.5下运行楼上文件urllib2_test03.py时出现一下错误信息：error: [Errno 10054] An existing connection was forcibly closed by the remote host应该怎样解决，还有在运行import urllib2 
import urllib

data = {}

data['name'] = 'WHY' 
data['location'] = 'SDU' 
data['language'] = 'Python'

url_values = urllib.urlencode(data) 
print url_values

name=Somebody+Here&language=Python&location=Northampton 
url = 'http://www.example.com/example.cgi' 
full_url = url + '?' + url_values

data = urllib2.open(full_url) 
这段代码时出现***can't assign to operator的错误，根本就不能运行是什么原因？求教解决办法，谢谢Re: FinAmethyst 2014-10-11 08:02发表 [回复]回复u010648442：代码中这一行name=Somebody+Here&language=Python&location=Northampton 
是上面print出来的结果，不是代码。这一行删去，应该没问题。
您还没有登录,请[登录]或[注册]