初识爬虫

python 2019-08-17 61 次浏览 次点赞

我们将会利用一个强大的库——requests来获取数据
如果你希望在电脑上安装,方法是:在Mac电脑里打开终端软件(terminal),输入pip3 install requests,然后点击 
enter 
即可;Windows电脑里叫命令提示符(cmd),输入pip install requests 即可。
requests库可以帮我们下载网页源代码、文本、图片,甚至是音频。其实,“下载”本质上是向服务器发送请求并得到响应。

import requests
#引入requests库
res = requests.get('URL')
#requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,括号里的参数是你需要的数据所在的网 
址,然后服务器对请求作出了响应。
#我们把这个响应返回的结果赋值在变量res上。

95.png

import requests 
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png') 
print(type(res))
#打印变量res的数据类型
res是一个对象,属于requests.models.Response类
import requests 
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png') 
print(res.status_code)
#打印变量res的响应状态码,以检查请求是否成功

1.题目要求:获取文章《HTTP状态响应码》全部内容,并且打印出全文内容。
获取数据:
文本URL:
https://localprod.pandateacher.com/python-manuscript/crawler- 
html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md
首先调用requests库,使用requests.get('URL')获取文件,返回的是Response对象。
然后需要把Response对象用合适的数据形式返回。
存储数据:
存储文件的三个步骤:打开文件,存储文件,关闭文件。
import requests 
re = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler- 
html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md')
ab = re.text #这个属性可以把Response对象的内容以字符串的形式返回,适用于文字、网页源代码的下载
k = open('abc.txt','w',encoding='utf-8')  #打开文件存储设置权限和编码
k.write(ab)
k.close()

2获取下面的图片,并储存图片
import requests
re = requests.get('https://gratisography.com/thumbnails/gratisography-318-thumbnail.jpg')
ba = re.content
pic = open(r"D:\爬虫\第0关\poth.jpg",'wb') #由于python中的 ‘\’ 是转义符号在路径前加个 r ,意思是按原始字 
符处理
pic.write(ba)
pic.close()

3.题目要求:
获取下面的音乐,并且储存它,然后请刷新页面,这样你就可以在【文件】内看到它。音乐URL:
https://static.pandateacher.com/Over%20The%20Rainbow.mp3
获取数据
音乐URL:https://static.pandateacher.com/Over%20The%20Rainbow.mp3
首先调用requests库,使用requests.get('URL')获取文件,返回的是Response对象。
然后需要把Response对象用合适的数据形式返回。
存储文件
存储文件的三个步骤:打开文件,存储文件,关闭文件。
import requests
re = requests.get('https://static.pandateacher.com/Over%20The%20Rainbow.mp3')
ba = re.content
pic = open(r"D:\爬虫\第0关\bb.mp3",'wb')
pic.write(ba)
pic.close()  

本文由 laowang 创作,采用 知识共享署名 3.0,可自由转载、引用,但需署名作者且注明文章出处。

还不快抢沙发

添加新评论