
文章插图
这个爬虫会先进入start_urls列表中的页面(在这个例子中就是豆瓣网的首页),收集信息完毕后就会停止 。response.xpath('//a/text').extract这行语句将从response(其中保存着网页信息)中使用xpath语句抽取出所有“a”标签的文字内容(text) 。下一句会将它们逐一打印 。
运行爬虫的命令是:
其中,spidername是爬虫的名称,即爬虫类中的name属性 。
程序运行并进行爬取后,可以看到Scrapy爬取时的Log输出,通过Log内容可以看到爬取的进度以及结果 。由于爬取目标网站的一些反爬措施,如限制USER_AGENT,因此在允信之前可能还需要在setting.py中修改一些配置,如USER_AGENT等 。
值得一提的是,除了简单的scrapy.Spider,Scrapy还提供了诸如CrawlSpider、csvfeed等爬虫模板,其中CrawlSpider是最为常用的 。另外,Scrapy的Pipeline和Middleware都支持扩展,配合主爬虫类使用将取得很流畅的抓取和调试体验 。
当然,Python爬虫框架当然不止Scrapy一种,在其他诸多爬虫框架中,还值得一提的是PySpider、Portia等 。PySpider是一个“国产”的框架,由国内开发者编写,拥有一个可视化的Web界面来编写调试脚本,使得用户可以进行诸多其他操作,如执行或停止程序、监控执行状态、查看活动历史等 。除了Python,JAVA语言也常常用于爬虫的开发,比较常见的爬虫框架包括Nutch、Heritrix、WebMagic、Gecco等 。爬虫框架流行的原因,就在于开发者需要“多、快、好、省”地完成一些任务,如爬虫的URL管理、线程池之类的模块,如果自己从零做起,势必需要一段时间的实验、调试和修改 。爬虫框架将一些“底层”的事务预先做好,开发者只需要将注意力放在爬虫本身的业务逻辑和功能开发上 。有兴趣的读者可以继续了解如PySpider这样的新框架 。
02
参考书籍
↑ 点击图片官方旗舰店优惠购书 ↑
Python爬虫案例实战(微课视频版)
提供源码、380分钟视频,基础知识与丰富的Python爬虫实战案例相结合
【掌握Scrapy框架,轻松实现网页自动化爬取】吕云翔 韩延刚 张扬 主编
谢吉力 杨壮 王渌汀 王志鹏 杨瑞翌 副主编
定价:59.90元
ISBN:9787302633778
出版日期:2023.07.01
内容简介
本书将以Python语言为基础,由浅入深地探讨网络爬虫技术,同时,通过具体的程序编写和实践来帮助读者了解和学习Python爬虫 。
本书共包含20个案例,从内容上分为四部分,分别代表不同的爬虫阶段及场景,包括了Python爬虫编写的基础知识,以及对爬虫数据的存储、深入处理和分析 。
第一部分爬虫基础篇 。该部分简单介绍了爬虫的基本知识,便于读者掌握相关知识,对爬虫有基本的认识 。
第二部分实战基础篇(9个案例) 。该部分既有简单、容易实现的入门案例,也有改进的进阶案例 。丰富的内容包括爬虫常用的多种工具及方法,覆盖了爬虫的请求、解析、清洗、入库等全部常用流程,是入门实践的最佳选择 。
第三部分框架应用篇(5个案例) 。该部分内容从爬虫框架的角度出发,介绍了几个常用框架的案例,重点介绍了Scrapy框架,以及基于Python 3后的新特性的框架,如Gain和PySpider等,同时也对高并发应用场景下的异步爬虫做了案例解析,是不容错过的精彩内容 。
第四部分爬虫应用场景及数据处理篇(6个案例) 。该部分内容从实际应用的角度出发,通过不同的案例展示了爬虫爬取的数据的应用场景以及针对爬虫数据的数据分析,可以让读者体会到爬虫在不同场景上的应用,从另一个角度展示了爬虫的魅力,可以给读者带来一些新的思考 。
这四部分由浅入深地介绍了爬虫常用的方法和工具,以及对爬虫数据处理的应用和实现 。但需要注意的是,爬虫的技术栈不仅仅包含这几部分,而且在实际工作中的细分方法也不尽相同 。本书只是对目前爬虫技术中最为常见的一些知识点,用案例的形式进行了分类和讲解,而更多的应用也值得读者在掌握一定的基础技能后进一步探索 。
推荐阅读
- 掌握API数据检索:过滤和排序的综合指南
- 了解NIST网络安全框架六大核心功能
- 掌握这10个跑步技巧,让你成为跑步达人!
- 五步让你掌握Python数据结构
- 如何制定数字化转型框架
- 职场新人必备:掌握这两点,轻松避开职场陷阱
- Java集合框架解析:选择正确数据结构提升性能
- 学骑电动车的平衡是怎么掌握的 学骑电动车的平衡是怎么掌握的脚上不去
- 剪枝的学问有哪些
- “秋钓边”如何拿捏鱼情?现阶段掌握这个套路,可尽享进货式钓鱼
