05《Scrapy 入门教程》一个简单的爬虫实例

今天我们来简单完成一个网站爬虫例子,体验下基本的爬虫工作流程。在有这个体验之后,才能更好地理解框架的重要性。

这一节我们来爬取一个图书网站:互动出版网。之所以选择这个网站,主要是它的数据比较好爬取,没有反爬虫机制,且网站的结构也不复杂,比较适合作为菜鸟进行练手。我们首先来分析网站及其相关的 HTML 元素,确定要爬取的内容。

互动出版网的网站首页如下:

互动出版网首页

可以看到,这个网站没有用到 https,依旧使用的是 http 协议,这个网站是极不安全的。我们现在要爬取的是这个网站的计算机类的图书,我们可以点击全部图书分类那里,得到所有图书的分类情况。

互动出版网全部图书分类

通过 F12 可以看到,每个计算机的分类对应着一个链接。我们点进去看就会得到对应分类下的图书列表,还带着分页信息:

互动出版网计算机分类图书列表

从这个页面中,我们可以分析到很多,首先对于一个图书信息,我们想要提取的数据有:

  • 图书标题;
  • 图书作者;
  • 出版社;
  • ISBN;
  • 出版时间;
  • 图书价格。

至于图书的详情页面我们就不再进去看了,详情页中能到到更多信息,比如总页数、图书简介、目录等等。此外,这里有一个分页信息,通过多次点击可以发现,只是前面的 url 中的一个数字发生了变化,因此我们可以直接构造出相应页数的 url 请求,获取其他页的图书列表、还等什么呢?开始激动人心的图书数据爬取流程吧!!!

根据上面的分析,我们来设计相应的爬取流程,总体上有如下几个步骤:

获取计算机图书下的分类列表,包括对应的 URL。我们可以实现一个函数专门请求分类页面,然后提取相应的 URL 列表:

分类列表的HTML元素

专门完成一个函数,读取计算机分类下的图书列表。通过不断的分页查询将这个分类下的所有图书信息全部抓取到。

分类编号不用管,我们会自行提取 URL。而对于请求的页号,可以自行设定,从1开始请求,每次加1,直到请求的 URL 返回 404 时,表明这个分类下的图书列表请求完毕,然后就可以进行下一个分类的请求了。

请求不存在的页号

最后完成一个简单的保存函数,保存采集到的数据库。这个就比较简单了,我们直接将采集到的图书信息成批地保存到 MongoDB 数据库中。

根据上面的分析,我们来实现相应的代码。首先是完成获取计算机的所有分类以及相应的 URL 地址:

我们简单测试下这个函数:

可以看到这个函数已经实现了我们想要的结果。接下来我们要完成一个函数来获取对应分类下的所有图书信息,不过在此之前,我们需要先完成解析单个图书列表页面的方法:

上面的函数主要解析的是一页图书列表数据,同样基于 xpath 定位相应的元素,然后提取我们想要的数据。其中由于部分信息合在一起,我们在提取数据后还要做相关的处理,分别提取对应的信息。我们可以从网页中直接样 HTML 拷贝下来,然后对该函数进行测试:

提取图书列表的网页数据

我们把保存的网页命名为 test.html,放到与该代码同级的目录下,然后进入命令行操作:

是不是能正确提取图书列表的相关信息?这也说明我们的函数的正确性,由于也可能在解析中存在一些异常,比如某个字段的缺失,我们需要捕获异常并忽略该条数据,让程序能继续走下去而不是停止运行。

在完成了上述的工作后,我们来通过对页号的 URL 构造,实现采集多个分页下的数据,最后达到读取完该分类下的所有图书信息的目的。完整代码如下:

最后保存数据到 MongoDB 中,这一步非常简单,我们前面已经操作过 MongoDB 的文档插入,直接搬用即可:

正是由于我们前面生成了批量的 json 数据,这里直接使用集合的 insert_many() 方法即可对采集到的数据批量插入 MongoDB 中。代码的最后我们加上一个 main 函数即可:

这样一个简单的爬虫就完成了,还等什么,开始跑起来吧!!

这是一个简单的爬虫,代码全在一个 python 文件中,我们直接单机运行即可

最后我们从互动出版网上一共获取了9010条图书记录。这是我们的第一次尝试,是不是觉得爬虫很简单,很有趣?只不过我们爬取的这个网站会比较简单,而且没有设置相应的反爬虫机制。后面我们会实战更多更有难度的网站,让这门课程更加有趣和有用。

最后获取的数据记录数

本小节我们以互动出版网为例,分析了手工爬取一个网站所需要进行的步骤,并完成了互动出版网上计算机类的图书的数据爬取。接下来我们会用 scrapy 框架来实现这样一个简易的爬虫,体验 Scrapy 框架给我们带来的高效的开发模式和优异的性能。

你必须掌握的 21 个 Java 核心技术

选择

优质文章,及时送达

经过这么多年的Java开发,以及结合平时面试Java开发者的一些经验,我觉得对于J2SE方面主要就是要掌握以下的一些内容。

对于刚刚接触Java的人来说,JVM相关的知识不一定需要理解很深,对此里面的概念有一些简单的了解即可。

不过对于一个有着3年以上Java经验的资深开发者来说,不会JVM几乎是不可接受的。

JVM作为java运行的基础,很难相信对于JVM一点都不了解的人可以把java语言吃得很透。

我在面试有超过3年Java经验的开发者的时候, JVM几乎就是一个必问的问题了。

当然JVM不是唯一决定技术能力好坏的面试问题,但是可以佐证java开发能力的高低。

在JVM这个大类中,我认为需要掌握的知识有:

  • JVM内存模型和结构

  • GC原理,性能调优

  • 调优:Thread Dump, 分析内存结构

  • class 二进制字节码结构, class loader 体系 , class加载过程 , 实例创建过程

  • 方法执行过程

  • Java各个大版本更新提供的新特性(需要简单了解)

这条可能出看很简单,java程序的运行谁不会呢?

不过很多时候, 我们只是单纯通过IDE去执行java程序,底层IDE又是如何执行java程序呢?很多人并不了解。

这个知识点是最最基本的java开发者需要掌握的,第一个肯定是教你如何在命令行中执行java程序,但是很多人一旦把java学完了,IDE用上了,就把这个都忘了。

为什么强调要知道这个呢,知道了java最纯粹的启动方式之后,你才能在启动出问题的时候,去分析当时启动的目录多少,执行命名如何,参数如何,是否有缺失等。

这样有利于你真正开发中去解决那些奇奇怪怪的可能和环境相关的问题。

在这里需要掌握的知识有:

  • javac 编译java文件为 class 文件

  • java 命令的使用, 带package的java类如何在命令行中启动

  • java程序涉及到的各个路径(classpath, java。library。path, java运行的主目录等)

这条没有什么好多说的,无非就是Java中的基本类型和对象类型的掌握。

可以再了解一些JDK如何自动转换方面的知识,包括装箱拆箱等,还要注意避免装箱之后的类型相等的判断。

主要知识点:

  • 基本类型:int, long, float, double, boolean 。。。

  • 对应的对象类型:Integer 等类型到基本类型的转换, 装箱和拆箱

  • Object类型:equals, hashcode

  • String 类型的特点

在这方面,开发者需要了解class和instance的概念以及之间的差别, 这是java面向对象特性的一个基础。

主要知识点有:

Class和 Instance 的概念

Instance 创建的过程:

  • 无继承:分配内存空间, 初始化变量, 调用构造函数

  • 有继承:处理静态动作, 分配内存空间, 变量定义为初始值 , 从基类->子类, 处理定义处的初始化, 执行构造方法

需要注意的点:

  • 静态属性等从基类->子类进行初始化

  • 默认无参构造方法相关的特性

这也是java封装特性的一个基础,需要掌握的有:public protected default private 对于class, method, field 的修饰作用。

Java 流程控制的基础, 虽然有些语法不一定很常用,但是都需要了解,并且在合适的地方使用它们。

需要掌握的有:if, switch, loop, for, while 等流程控制的语法。

这是一个java的核心概念,对于任何java开发者都需要熟练掌握。

Java中很多特性或者说知识点都是和java面向对象编程概念相关的。

在我的理解,一个好的开发者不仅仅需要了解这些特性(知识点)本身。

也更需要知道这些对象在java的面向对象编程概念中是如何体现出来的,这样更有利于开发者掌握java这门开发语言,以及其他面向对象编程的语言。

在这里只是简单罗列了一下,主要的知识点包括有:

  • 面向对象三大特性:封装,继承,多态;

  • 各自的定义概念,有哪些特性体现出来,各自的使用场景

  • 静态多分派,动态单分派的概念

  • 重载的概念和使用

  • 继承:接口多实现,基类单继承

  • 抽象,抽象类,接口

  • 多态:方法覆盖的概念和使用

  • 接口回调

静态属性在java日常开发中也是经常使用,需要了解和 static 关键字相关的用法,还有和其他关键字的配合使用, 如是否可以和 abstract, final 等关键字联合使用。

主要需要掌握的有:

  • 静态属性的定义,使用,以及类加载时如何初始化

  • 静态方法的定义和使用

  • 静态类的定义和使用

  • 静态代码块的定义和初始化时机

这里主要罗列一些散落的,没有系统归类的一些java知识点。

在日常的开发中用到也不少。这块内容其实还有很多,目前只是暂时归纳了这几个在这里:

包括有:

  • equals

  • hashcode

  • tring/stringbuffer

  • final

  • finally

  • finalize

这个是一个需要多加掌握的部分,做java开发,可以说没有不用到集合框架的,这很重要,这里整理的Java集合面试题及答案你必须都要清楚。

但是这里的知识点并不难,但是对于集合最好要了解内部的实现方式,因为这样有助于你在各个不同的场景选择适合的框架来解决问题,比如有1W个元素的集合,经常要进行contains判断操作,知道了集合的特性或者内部实现,就很容易做出正确的选择。

这里包括了如下内容(并发相关不包含在内):

集合框架的体系:基础Collection ,Map

具体集合实现的内容, List ,Set ,Map 具体的实现,内部结构, 特殊的方法, 适用场景等

集合相关的工具类 Collections 等的用法

异常在java的开发中可能没有那么被重视,异常处理的最佳实战详细说明了。

一般遇到异常,直接上抛,或者随便catch一下处理之后对于程序整体运行也没有什么大的影响。不过在企业级设计开发中, 异常的设计与处理的好坏,往往就关系着这个系统整体的健壮性。

一个好的系统的异常对于开发者来说,处理应该统一,避免各处散落很多异常处理逻辑;对于系统来说,异常应该是可控的,并且是易于运维的,某些异常出现后,应该有应对的方法,知道如何运维处理,所以虽然异常框架很简单,但是对于整个企业级应用开发来说,异常处理是很重要的,处理好异常就需要了解Java中的异常体系。

这部分需要掌握的知识点不多,主要就是:

异常的体系:

Throwable Exception RuntimeException Error RuntimeException 和 一般 Exception 的区别, 具体处理方法等

IO 在java中不仅仅是文件读写那么简单,也包括了 socket 网络的读写等等一切的输入输出操作。比如说 标准HTTP请求中Post的内容的读取也是一个输出的过程,等等…

对于IO,Java不仅提供了基本Input、Output相关的api,也提供了一些简化操作的Reader、Writer等api,在某些开发(涉及大量IO操作的项目)中也很重要,一般日常的开发中也会涉及(日志,临时文件的读写等)。

在这中的知识点主要有:

基本IO的体系包括有InputStream , OutputStream, Reader/Writer, 文件读取,各种流读取等,NIO 的概念, 具体使用方式和使用场景。

多线程是Java中普遍认为比较难的一块。

多线程用好了可以有效提高cpu使用率, 提升整体系统效率, 特别是在有大量IO操作阻塞的情况下;这里整理的Java多线程面试题及答案你必须都要清楚。

但是它也是一柄双刃剑, 如果用不好,系统非但提升不大,或者没有提升,而且还会带来多线程之间的调试时等问题。

在多线程中内容有很多,只是简单说明一下Java中初步使用多线程需要掌握的知识点,以后有机会单独再详细介绍一些高级特性的使用场景。

  • 多线程的实现和启动

  • callable 与 runable 区别

  • syncrhoized ,reentrantLock 各自特点和比对

  • 线程池

  • future 异步方式获取执行结果

  • concurrent 包

  • lock

Java中也是提供了可以直接操作 TCP协议、UDP协议的API。

在需要强调网络性能的情况下,可以直接使用TCP/UDP 进行通讯。

在查看Tomcat等的源码中,就可以看到这些相关API的使用情况。

不过一般也比较少会直接使用TCP,会使用诸如MINA、Netty这样的框架来进行处理,因为这个方面的开发涉及不多,所以就不再详细罗列了。

几乎对于每个应用来说,时间日期的处理也是绕不过去的,但是JDK8 之前的时间相关API用法并不友好。

在那个时代,可以选择Joda等时间框架。到了JDK8 发布之后,全新的时间API基本融合了其他框架的优点,已经可以很好的直接使用了。

对于Java开发者来说,需要熟练地使用API来对时间和日期做相关的处理。

具体知识点不再罗列,会在以后再写个专门的文章来总结一下JDK8中时间日期API的用法。

其实这两块内容都不是J2SE里面的内容,但是在日常开发中,和其他程序交互,和配置文件交互,越来越离不开这两种格式的解析。

不过对于一个开发者来说,能够了解一些XML/JSON具体解析的原理和方法,有助于你在各个具体的场景中更好的选择合适你的方式来使得你的程序更有效率和更加健壮。

XML:需要了解 DOM解析和 SAX解析的基本原理和各自的适用场景

JSON:需要了解一些常用JSON框架的用法, 如 Jackson, FastJson, Gson 等。

Maven也不是Java里面的内容,但是maven是革命性的,给java开发带来了巨大的便利,这30个Maven命令你必须熟悉。

从依赖的引入和管理,开发流程的更新和发布产出,乃至版本的更新,使用maven可以大大简化开发过程中的复杂度,从而节省大量时间。

可以说,maven已经成为java开发者的标配了。所以我把maven也作为一个java开发者对于基础必备的知识点。

这是JDK5开始引入的新概念,其实是个语法糖。

在编写java代码时会有些许便利, 一般的应用或者是业务的开发,只需要简单使用,不一定会用到定义泛型这样的操作。

但是开发一些基础公共组件会使用到,可以在需要的时候再细看这个部分,一般情况下只要会简单使用即可。

也是jdk5 之后引入的,元注解你必须了解。

spring是个优秀的框架,最开始就以xml作为标准的配置文件。

不过到了Spring3 之后,尤其是 spring-boot 兴起之后,越来越推崇使用标注来简化xml配置文件了,对于开发者来说,可以节省不少xml配置的时间。

但是劣势是在于标注散落在各个类中,不像xml,可以对所有配置有个全局性的理解和管理,所以还没有办法说完全就取代所有的xml。

对于一般开发者,会使用标注即可,一些公共组建的开发者可能会需要了解标注的定义和实现,可以在具体需要的时候再细看。

RemoteMethodInvocation ,Java语言特有的远程调用接口,使用还是比较简单方便,点击这里了解RMI与RPC的区别详情。

不过需要跨语言的情况下,就需要使用 webservice 等其他方式来支持。

一般来说,程序都不需要使用RMI,不过可以在特定的情况下使用,我就在一个项目中,使用RMI来进行程序远程启动停止的控制。

Java Native Interface,可以允许Java中调用本地接口方法,一般用于C/C++代码的调用。

需要注意的是在java中加载so/dll文件的路径问题,本身调用接口并不复杂,但是经常在是否加载了所需的本地接口库中花费较多时间。

以上也只是简单介绍了下我对于这些java基本知识点和技术点的一些看法和介绍。

这些内容都源自于我这些年来使用java的一些总结 。这当中还有些内容不够完善的地方,会通过以后的文章再添加上。

-END-

如果看到这里,说明你喜欢这篇文章,请 。同时 标星(置顶)本公众号可以第一时间接受到博文推送。

最近整理一份面试资料《Java技术栈学习手册》,覆盖了Java技术、面试题精选、Spring全家桶、Nginx、SSM、微服务、数据库、数据结构、架构等等。

本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com

点赞 0
收藏 0

文章为作者独立观点不代本网立场,未经允许不得转载。