掌握Scrapy框架，轻松实现网页自动化爬取( 二 ) _Scrapy

文章插图
这个爬虫会先进入start_urls列表中的页面(在这个例子中就是豆瓣网的首页)，收集信息完毕后就会停止。response.xpath('//a/text').extract这行语句将从response(其中保存着网页信息)中使用xpath语句抽取出所有“a”标签的文字内容(text) 。下一句会将它们逐一打印。
运行爬虫的命令是：
其中，spidername是爬虫的名称，即爬虫类中的name属性。
程序运行并进行爬取后，可以看到Scrapy爬取时的Log输出，通过Log内容可以看到爬取的进度以及结果。由于爬取目标网站的一些反爬措施，如限制USER_AGENT，因此在允信之前可能还需要在setting.py中修改一些配置，如USER_AGENT等。
值得一提的是，除了简单的scrapy.Spider，Scrapy还提供了诸如CrawlSpider、csvfeed等爬虫模板，其中CrawlSpider是最为常用的。另外，Scrapy的Pipeline和Middleware都支持扩展，配合主爬虫类使用将取得很流畅的抓取和调试体验。
当然，Python爬虫框架当然不止Scrapy一种，在其他诸多爬虫框架中，还值得一提的是PySpider、Portia等。PySpider是一个“国产”的框架，由国内开发者编写，拥有一个可视化的Web界面来编写调试脚本，使得用户可以进行诸多其他操作，如执行或停止程序、监控执行状态、查看活动历史等。除了Python，JAVA语言也常常用于爬虫的开发，比较常见的爬虫框架包括Nutch、Heritrix、WebMagic、Gecco等。爬虫框架流行的原因，就在于开发者需要“多、快、好、省”地完成一些任务，如爬虫的URL管理、线程池之类的模块，如果自己从零做起，势必需要一段时间的实验、调试和修改。爬虫框架将一些“底层”的事务预先做好，开发者只需要将注意力放在爬虫本身的业务逻辑和功能开发上。有兴趣的读者可以继续了解如PySpider这样的新框架。
02
参考书籍
↑ 点击图片官方旗舰店优惠购书 ↑
Python爬虫案例实战（微课视频版）
提供源码、380分钟视频，基础知识与丰富的Python爬虫实战案例相结合
【掌握Scrapy框架，轻松实现网页自动化爬取】吕云翔韩延刚张扬主编
谢吉力杨壮王渌汀王志鹏杨瑞翌副主编
定价：59.90元
ISBN：9787302633778
出版日期：2023.07.01
内容简介
本书将以Python语言为基础，由浅入深地探讨网络爬虫技术，同时，通过具体的程序编写和实践来帮助读者了解和学习Python爬虫。
本书共包含20个案例，从内容上分为四部分，分别代表不同的爬虫阶段及场景，包括了Python爬虫编写的基础知识，以及对爬虫数据的存储、深入处理和分析。
第一部分爬虫基础篇。该部分简单介绍了爬虫的基本知识，便于读者掌握相关知识，对爬虫有基本的认识。
第二部分实战基础篇（9个案例）。该部分既有简单、容易实现的入门案例，也有改进的进阶案例。丰富的内容包括爬虫常用的多种工具及方法，覆盖了爬虫的请求、解析、清洗、入库等全部常用流程，是入门实践的最佳选择。
第三部分框架应用篇（5个案例）。该部分内容从爬虫框架的角度出发，介绍了几个常用框架的案例，重点介绍了Scrapy框架，以及基于Python 3后的新特性的框架，如Gain和PySpider等，同时也对高并发应用场景下的异步爬虫做了案例解析，是不容错过的精彩内容。
第四部分爬虫应用场景及数据处理篇（6个案例）。该部分内容从实际应用的角度出发，通过不同的案例展示了爬虫爬取的数据的应用场景以及针对爬虫数据的数据分析，可以让读者体会到爬虫在不同场景上的应用，从另一个角度展示了爬虫的魅力，可以给读者带来一些新的思考。
这四部分由浅入深地介绍了爬虫常用的方法和工具，以及对爬虫数据处理的应用和实现。但需要注意的是，爬虫的技术栈不仅仅包含这几部分，而且在实际工作中的细分方法也不尽相同。本书只是对目前爬虫技术中最为常见的一些知识点，用案例的形式进行了分类和讲解，而更多的应用也值得读者在掌握一定的基础技能后进一步探索。

掌握Scrapy框架，轻松实现网页自动化爬取( 二 )

推荐阅读

贾跃亭宣布破产重组完成|贾跃亭宣布破产重组完成：感谢股民让我踏上回家路

为啥有人觉得自己长的像驴?

猛犸漯河@每天跋涉上百公里，美国女子用狗拉雪橇为老年人送食物

报告期|工作6年，那些越早知道越好的职场经验（建议收藏）

[科技吧]以应对COBOL程序员青黄不接的危机，IBM将提供免费培训

曹丕|曹丕为啥40岁就驾崩了？专家：你看他都干了啥，活到40岁都不错了

如何备份微信聊天记录，怎么备份微信的聊天记录

网传南京鼓楼区有一例确诊病例，官方最新回应

月光科技 Pro躺枪，却定不是恰饭？，魅族铁粉王自健转投iQOO，小米10

「通州组工」全力做好新国展入境登记和甄别工作，通州区做到“三个突出”

爱奇艺体育|德尚博逆转赢美巡第六冠，火箭信贷精英赛

##量子既出，加密难逃——寻求抗量子级加密系统已成必然 | 火星号精选

有哪个瞬间让你有了想杀人的冲动？

【雷克沙】用高速卡轻松玩转4K视频，体验全新升级雷克沙1667x SD

怎么样不客套地表示感谢

霍金预言人类离开地球,霍金预言-三大预言外星人-

LGD|S赛今后或再无四号种子，LGD的拉跨表现，已引起猫猫等人严重不满

壹加壹瓷砖报价如何

『七台河检察』一份检察建议开启一次净网行动

消费|山东畅通经济内外双循环前7个月主要经济指标持续改善