1-认识网络爬虫

1.什么是网络爬虫

网络爬虫（Web Crawler）又称网络蜘蛛、网络机器人，它是一种按照一定规则，自动浏览万维网的程序或脚本。通俗地讲，网络爬虫就是一个模拟真人浏览万维网行为的程序，这个程序可以代替真人自动请求万维网，并接收从万维网返回的数据。与真人浏览万维网相比，网络爬虫能够浏览的信息量更大，效率也更高。

2.网络爬虫分类

网络爬虫历经几十年的发展，技术变得更加多样化，并结合不同的需求衍生出类型众多的网络爬虫。网络爬虫按照系统结构和实现技术大致可以分为4种类型，分别是通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。

2.1.通用网络爬虫

通用网络爬虫（General Purpose Web Crawler）又称全网爬虫（Scalable Web Crawler），是指访问全互联网资源的网络爬虫。通用网络爬虫是“互联网时代”早期出现的传统网络爬虫，它是搜索引擎（如百度、谷歌、雅虎等）抓取系统的重要组成部分，主要用于将互联网中的网页下载到本地，形成一个互联网内容的镜像备份。

2.2聚焦网络爬虫

聚焦网络爬虫（Focused Crawler）又称主题网络爬虫（Topical Crawler），是指有选择性地访问那些与预定主题相关网页的网络爬虫，它根据预先定义好的目标，有选择性地访问与目标主题相关的网页，获取所需要的数据。

与通用网络爬虫相比，聚焦网络爬虫只需要访问与预定主题相关的网页，这不仅减少了访问和保存的页面数量，而且提高了网页的更新速度，可见，聚焦网络爬虫在一定程度度节省了网络资源，能满足一些特定人群采集特定领域数据的需求。

2.3增量式网络爬虫

增量式网络爬虫（Incremental Web Crawler）是指对已下载的网页采取增量式更新，只抓取新产生或者已经发生变化的网页的网络爬虫。

增量式网络爬虫只会抓取新产生的或内容变化的网页，并不会重新抓取内容未发生变化的网页，这样可以有效地减少网页的下载量，减少访问时间和存储空间的耗费，但是增加了网页抓取算法的复杂度和实现难度。

2.4深层网络爬虫

深层网络爬虫（Deep Web Crawler）是指抓取深层网页的网络爬虫，它要抓取的网页层次比较深，需要通过一定的附加策略才能够自动抓取，实现难度较大。

3.网络爬虫的应用场景

随着互联网信息的“爆炸”，网络爬虫渐渐为人们所熟知，并被应用到了社会生活的众多领域。作为一种自动采集网页数据的技术，很多人其实并不清楚网络爬虫具体能应用到什么场景。事实上，大多数依赖数据支撑的应用场景都离不开网络爬虫，包括搜索引擎、舆情分析与监测、聚合平台、出行类软件等。

搜索引擎：是通用网络爬虫最重要的应用场景之一，它会将网络爬虫作为最基础的部分——互联网信息的采集器，让网络爬虫自动到互联网中抓取数据。例如，谷歌、百度、必应等搜索引擎都是利用网络爬虫技术从互联网上采集海量的数据。

舆情分析与检测：政府或企业通过网络爬虫技术自动采集论坛评论、在线博客、新闻媒体或微博等网站中的海量数据，采用数据挖掘的相关方法（如词频统计、文本情感计算、主题识别等）发掘舆情热点，跟踪目标话题，并根据一定的标准采取相应的舆情控制与引导措施。例如，百度热点排行榜、微博热搜排行榜。

聚合平台：如今出现的很多聚合平台，如返利网、慢慢买等，也是网络爬虫技术的常见的应用场景，这些平台就是运用网络爬虫技术对一些电商平台上的商品信息进行采集，将所有的商品信息放到自己的平台上展示，并提供横向数据的比较，帮助用户寻找实惠的商品价格。例如，用户在慢慢买平台搜索华为智能手表后，平台上展示了很多款华为智能手表的价格分析及价格走势等信息。

**出行类软件：**出行类软件，比如飞猪、携程、去哪儿等，也是网络爬虫应用比较多的场景。这类应用运用网络爬虫技术，不断地访问交通出行的官方售票网站刷新余票，一旦发现有新的余票便会通知用户付款买票。不过，官方售票网站并不欢迎网络爬虫的这种行为，因为高频率地访问网页极易造成网站出现瘫痪的情况。

3.网络爬虫合法性

网络爬虫在访问网站时，需要遵循“有礼貌”的原则，这样才能与更多的网站建立友好关系。即便如此，网络爬虫的爬行行为仍会给网站增加不小的压力，严重时甚至可能会影响网站的正常访问。为了约束网络爬虫的恶意行为，网站内部加入了一些防爬虫措施来阻止网络爬虫。与此同时，网络爬虫也研究了防爬虫措施的应对策略。

3.1Robots协议

Robots协议又称爬虫协议，它是国际互联网界通行的道德规范，用于保护网站数据和敏感信息，确保网站用户的个人信息和隐私不受侵犯。为了让网络爬虫了解网站的访问范围，网站管理员通常会在网站的根目录下放置一个符合Robots协议的robots.txt文件，通过这个文件告知网络爬虫在抓取该网站时存在哪些限制，哪些网页是允许被抓取的，哪些网页是禁止被抓取的。

当网络爬虫访问网站时，应先检查该网站的根目录下是否存在robots.txt文件。若robots.txt文件不存在，则网络爬虫会访问该网站上所有被口令保护的页面；若robots.txt文件存在，则网络爬虫会按照该文件的内容确定访问网站的范围。

robots.txt文件中的内容有着一套通用的写作规范。下面以豆瓣网站根目录下的robots.txt文件为例，分析robots.txt文件的语法规则。

User-agent: *
Disallow: /subject_search
...
Disallow: /share/
Allow: /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5
User-agent: Wandoujia Spider
Disallow: /
User-agent: Mediapartners-Google
...

lUser-agent：用于指定网络爬虫的名称。若该选项的值为“**”，则说明robots.txt文件对任何网络爬虫均有效。带有“*”号的User-agent选项只能出现一次。例如，示例的第一条语句User-agent: *。

lDisallow：用于指定网络爬虫禁止访问的目录。若Disallow选项的内容为空，说明网站的任何内容都是被允许访问的。在robots.txt文件中，至少要有一个包含Disallow选项的语句。例如，Disallow: /subject_search禁止网络爬虫访问目录/subject_search。

lAllow：用于指定网络爬虫允许访问的目录。例如，Allow: /ads.txt表示允许网络爬虫访问目录/ads.txt。

lSitemap：用于告知网络爬虫网站地图的路径。例如，Sitemap: https://www.douban.com/sitemap_index.xml和https://www.douban.com/sitemap_updated_index.xml这两个路径都是网站地图，主要说明网站更新时间、更新频率、网址重要程度等信息。

Robots协议只是一个网站与网络爬虫之间达成的**“君子”协议**，它并不是计算机中的防火墙**，没有实际的约束力**。如果把网站比作私人花园，那么robots.txt文件便是私人花园门口的告示牌，这个告示牌上写有是否可以进入花园，以及进入花园后应该遵守的规则，但告示牌并不是高高的围栏，它只对遵守协议的“君子”有用，对于违背协议的人而言并没有太大的作用。

尽管Robots协议没有一定的强制约束力，但网络爬虫仍然要遵守协议，违背协议可能会存在一定的法律风险。

3.2防爬虫应对策略

网络爬虫会采取一些应对策略继续访问网站，常见的应对策略包括添加User-Agent字段、降低访问频率、设置代理服务、识别验证码。

添加User-Agent字段：浏览器在访问网站时会携带固定的User-Agent（用户代理，用于描述浏览器的类型及版本、操作系统及版本、浏览器插件、浏览器语言等信息），向网站表明自己的真实身份。网络爬虫每次访问网站时可以模仿浏览器的上述行为，也就是在请求网页时携带User-Agent，将自己伪装成一个浏览器，如此便可以绕过网站的检测，避免出现被网站服务器直接拒绝访问的情况。

降低访问频率：如果同一账户在较短的时间内多次访问了网页，那么网站运维人员会推断此种访问行为可能是网络爬虫的行为，并将该账户加入到黑名单禁止访问网站。为防止网站运维人员从访问量上推断出网络爬虫的身份，可以降低网络爬虫访问网站的频率。不过，这种方式会降低网络爬虫的爬行效率，为了弥补这个不足，我们可以适当地调整一些操作，如让网络爬虫每抓取一次页面数据就休息几秒钟，或者限制每天抓取的页面数据的数量。

设置代理服务：网络爬虫在访问网站时，若反复使用同一IP地址进行访问，则极易被网站认出网络爬虫的身份后进行屏蔽、阻止、封禁等。此时可以在网络爬虫和Web服务器之间设置代理服务器。有了代理服务器之后，网络爬虫会先将请求发送给代理服务器，代理服务器再转发给服务器，这时服务器记录的是代理服务器的IP地址，而不是网络爬虫的IP地址。

识别验证码：有些网站在检测到某个客户端的IP地址访问次数过于频繁时，会要求该客户端进行登录验证，并随机提供一个验证码。为了应对这种突发情况，网络爬虫除了要输入正确的账户密码之外，还要像人类一样通过滑动或点击行为识别验证码，如此才能继续访问网站。由于验证码的种类较多，不同的验证码需要采用不同的技术进行识别，具有一定的技术难度。