如何快速使用urllib爬取网页?

urllib库是Python内置的HTTP请求库,它可以看做是处理URL的组件集合。urllib库包含了四大模块,具体如下:

  • urllib.request:请求模块
  • urllib.error:异常处理模块
  • urllib.parse:URL解析模块
  • urllib.robotparser:robots.txt解析模块

爬取网页,其实就是通过URL获取网页信息,这段网页信息的实质就是一段附加了JS和CSS的HTML代码。如果把网页比作是一个人,那么HTML就是它的骨架,JS是它的肌肉,CSS是它的衣服。由此看来,网页最重要的数据部分是存在于HTML中的。

urllib库的使用比较简单,接下来,我们使用urllib快速爬取一个网页,具体代码如下:

上述代码就是一个简单的爬取网页案例,爬取的网页结果如图4-1所示。

获取的网页源码

实际上,如果我们在浏览器上打开百度首页,右键选择“查看源代码”,你会发现,跟我们刚才打印出来的是一模一样。也就是说,上述案例仅仅用了几行代码,就已经帮我们把百度首页的全部代码下载下来了。

Python2中使用的是urllib2库来下载网页,该库的用法如下所示:

Python3出现后,之前Python2中的urllib2库被移到了urllib.request模块中,之前urllib2中很多函数的路径也发生了变化,希望大家在使用的时候多加注意。

盘点在线代码编辑测试网站

对于一些前端的样式和js效果,我们非常希望可以将这些代码片段保存起来,然后分享给那些想要使用这些样式特效的人,庆幸的是,网络上已经有很多这样的网站了,今天我们就来盘点一下这些非常好用的网站。

诞生比较早的一个代码片段网站,它集成了主流的js框架,你可以轻松地在需要使用的时候引入它们,同时它也支持引入外部css链接,通过将html,css,js代码片段分离,让用户有了非常清楚的代码结构,非常方便代码地调试。

它支持登录功能,登录以后,你可以将自己的代码片段进行保存和分享。

一个支持多种编程语言的代码运行网站,你可以保存自己的代码,你可以运行各个常用的编程语言代码,缺点是有时候需要输入验证码,有些功能需要升级vip才能使用。

和jsfiddle很类似,也是专业的网页编辑器,可以引入js,css,对于html,js,css分为三个窗口进行管理,登录之后可以保存代码片段和分享代码片段。即使不登录,也可以使用它进行临时的代码编辑和测试。

也是一款在线代码编辑网站,也是可以编辑html和css,js代码片段,可以引入第三方库,可以引入第三方css,可以查看控制台的输出。

它可以保存截图,可以生成模板,同样也支持代码打包下载。

它提供了很多优秀的代码案例,如果你没有思路或者仅仅只是想欣赏下他人的优秀代码,你可以来这里找到你想要的,类似于jsfiddle,它也是支持html,js,css代码编辑的,它的展示页面看起来很大,非常方便查看。

它的html支持markdown和slime进行处理,它的js支持coffeescript,它的css支持sass,scss,less等。

它主要支持的是css代码块的测试,它目前不支持js,它的代码编辑块字体可以非常方便地进行调整。

网上有很多类似的代码编辑网站,如果你感兴趣的话,你也可以去github上查看Plunker等项目开源代码进行分析研究,自行搭建属于自己的代码片段编辑网站。

本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com

点赞 0
收藏 0

文章为作者独立观点不代本网立场,未经允许不得转载。