手把手教你使用Python网络爬虫下载一本小说(附源码)

如果你想下载该网站上的任意一本小说的话,直接点击链接进去,如下图所示。

只要将URL中的这个数字拿到就可以了,比方说这里是951,那么这个数字代表的就是这本书的书号,在后面的代码中可以用得到的。

这里直接丢大佬的代码了,如下所示:

程序运行之后,在控制台输入书号,即可开始进行抓取了。

在本地也会自动新建一个书号命名的文件夹,在该文件夹下,会存放小说的章节,如下图所示。

在运行过程中小伙伴们应该会经常遇到这个问题,如下图所示。

这个是因为访问太快,网站给你反爬了。可以设置随机的user-agent或者上代理等方法解决。

我是Python进阶者。这篇文章主要给大家介绍了小说内容的获取方法,基于网络爬虫,通过requests爬虫库和bs4选择器进行实现,并且给大家例举了常见问题的处理方法。

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

教你免费下载付费文档,不限次数不用任何工具,全网资料任意复制

我们在搜索资料的时候会看到一些非常有用的资料,但往往这些资料都是付费资料。只能看一部分,不能直接复制下来。如果要直接下载,那只能付费下载。今天就教大家一个方法,可以免费复制付费文档资料。一分钟学会,看懂能让你少花很多钱。这个小技巧建议大家收藏,以免找不到。下面大家跟着我一步步做吧!

如何免费复制付费文档资料

首先我们打开某度文档,在里面搜索到了一篇文章,文档显示需要VIP专享才可以下载。在这里如果我们直接复制这里的文字,就是弹出一个对话框,显示文档复制为VIP权益,开通VIP可继续复制。

弹出的vip窗口

重点来了,我们在页面的空白处点击右键,并打开检查选项。这检查功能太重要了,里面我们可以看到该网页的源代码。这个一般是前端开发人员经常用到的功能,不仅可以调试各种样式参数,还可以看数据传递性能。

检查选项

我们找到设置按钮(如下图的红色圈标注的地方),对页面的首选项(preferences)进行设置。

设置按钮

下拉找到调试程序(Debugger)选项,将禁用Javascript(Disable Javascript)进行勾选。

勾选禁止JavaScript按钮

不要关闭检查窗口,我们发现原来我们打开的页面文章选中后已经可以复制了。大功告成。是不是很简单。大家学会了吗?

大功告成

这个免费复制的原理就是禁用网页的页面Javascript代码。缺点也是非常明显,就是不能直接复制图片或者特殊文字代码等。所以,如果大家需要完整的文档最好还是付费购买吧。

1.如果用这个办法不能复制,可能就是原来资料本身就是不可编辑的资料,比如别人就是以图片形式上传的资料。2.尊重别人的劳动成果,不可将别人的资料直接应用到自己的作品中。只可用于个人学习之用。3.由于平台打击各种第三方工具下载,以前的很多工具(网站)已经失效,如果有购买的需谨慎。

注:我是秦韵莞香,和你聊聊日常的数码科技、互联网趣闻,每天一更,欢迎关注。原创文章,未经授权不得转载,侵权必究。

本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com

点赞 0
收藏 0

文章为作者独立观点不代本网立场,未经允许不得转载。