运维开发网

python3爬虫系列之浏览器数据抓取

运维开发网 https://www.qedev.com 2021-02-27 08:23 出处:51CTO 作者:mb5fdb0a4002420
通常访问网站数据是通过浏览器,所以想要成功抓取数据,需要知道浏览器是怎么请求网站数据的,网站返回的数据是什么样的。so我们要学会在浏览器里抓取数据,也被称之浏览器抓包,包就是数据。使用chrome浏览器访问下英雄联盟首页数据,也可以直接百度搜索进入。页面如图所示:浏览器地址栏显示的就是网站当前页面的地址url,窗口展示的数据就是英雄联盟官网返回的数据。通常每个网站都有一个名为robots.txt的
通常访问网站数据是通过浏览器,所以想要成功抓取数据,需要知道浏览器是怎么请求网站数据的,网站返回的数据是什么样的。so我们要学会在浏览器里抓取数据,也被称之浏览器抓包,包就是数据。

python3爬虫系列之浏览器数据抓取

使用chrome浏览器访问下英雄联盟首页数据,也可以直接百度搜索进入。页面如图所示:

python3爬虫系列之浏览器数据抓取

浏览器地址栏显示的就是网站当前页面的地址url,窗口展示的数据就是英雄联盟官网返回的数据。

python3爬虫系列之浏览器数据抓取

通常每个网站都有一个名为robots.txt的文件,用以标明哪些内容是不允许爬虫获取的,哪些是可以被爬虫获取的。在浏览器中访问 https://lol.qq.com/robots.txt ,返回如下数据:
User-agent: *

Disallow:

可以看到任何搜索引擎都是被允许的,且没有被禁止的路径。

python3爬虫系列之浏览器数据抓取

下面进入到游戏资料页面,选择最喜爱的英雄,并按下F12看下浏览器发出的请求信息。

python3爬虫系列之浏览器数据抓取

可以看到请求地址(Request URL),请求方式(Request Method)是GET,常用的请求方式还有POST,状态码(Status Code)200表示请求成功,请求地址中?后面是请求参数,以键=值的形式跟在地址URL后面。

可以看到该请求地址返回的是html文档,选择页面上的区域可以找到对应的html元素。(网页通常就是由html文档,css页面样式,js响应事件和特效组成的)。

python3爬虫系列之浏览器数据抓取

找到对应的元素,就可以在响应数据中过滤需要的数据,然后保存到本地磁盘。

python3爬虫系列之浏览器数据抓取

上面说到了请求方式,常用的请求方式还有POST,常用来提交数据到服务器,GET常用来获取资源(传输数据也是没问题的)。还有些其他的请求方式如PUT用来传输文件,HEAD用来获取报文头部(headers),DELETE用来删除文件等。

在浏览器里访问网站数据,就是一次向网站服务器发出请求,网站返回响应数据后由浏览器展示出来的过程。请求数据(俗称请求报文)和响应数据(响应报文)都是由报文头部和报文体组成的,请求报文头部包含user-agent,cookie,accept等,爬虫中会经常用到请求头部信息用以伪装浏览器。

python3爬虫系列之浏览器数据抓取

在浏览器里搞清楚F12(调试工具),基本就可以使用浏览器抓包了,然后就可以轻轻松松使用python来爬取需要的数据了。下一节使用python爬取英雄信息并保存英雄图片。

扫码领视频副本.gif

0

精彩评论

暂无评论...
验证码 换一张
取 消

关注公众号