运维开发网

python3爬虫系列之初识网络爬虫

运维开发网 https://www.qedev.com 2021-02-27 08:24 出处:51CTO 作者:mb5fdb0a4002420
网络爬虫其实离我们很近,例如我们经常使用的百度搜索引擎就离不开网络爬虫,搜索引擎就是通过爬虫在海量互联网信息中爬取数据并整理,用户搜索时再从收集到的数据中按一定的顺序返回给用户。本质上,爬虫和我们打开浏览器访问网站并无区别,爬虫是通过程序自动浏览抓取网络中的信息,我们可以使用python轻轻松松爬取收集网络上的数据。比如我不小心访问了一下英雄联盟的英雄资料库,如图所示:看到自己心仪的英雄不免想下载

网络爬虫其实离我们很近,例如我们经常使用的百度搜索引擎就离不开网络爬虫,搜索引擎就是通过爬虫在海量互联网信息中爬取数据并整理,用户搜索时再从收集到的数据中按一定的顺序返回给用户。

本质上,爬虫和我们打开浏览器访问网站并无区别,爬虫是通过程序自动浏览抓取网络中的信息,我们可以使用python轻轻松松爬取收集网络上的数据。比如我不小心访问了一下英雄联盟的英雄资料库,如图所示:

python3爬虫系列之初识网络爬虫

看到自己心仪的英雄不免想下载图片保存到本地磁盘,这时候如果我挨个去点击自己喜欢的英雄,然后把英雄图片保存下来,那就太费时费力了,有了爬虫就可以轻轻松松搞定这一切。下面贴一张我最喜欢的英雄:

python3爬虫系列之初识网络爬虫

python3爬虫系列之初识网络爬虫

那爬虫是怎么玩的?

网站的页面及数据都是发布在服务器上的,我们打开浏览器,在地址栏输入网站地址url,然后回车,就可以进入该网站浏览数据,爬虫就是要模拟这一行为。

由爬虫程序向目标站点(地址url)发起请求(基本都是http或https),然后网站返回给我们对应的数据,数据可能是一个网页(html),或一堆json数据,再或者二进制字节数据,我们通过程序解析处理,把数据写入文件,数据库,或保存到磁盘上。

基本流程就是酱紫了,下一节我们一起在浏览器里看看英雄联盟英雄资料库页面背后的数据。

扫码领视频副本.gif

0

精彩评论

暂无评论...
验证码 换一张
取 消

关注公众号