在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后,可能大家还对超长的正则表达式记忆犹新,设想如果想要匹配的条目更加多那表达式长度将会更加恐怖,这显然不是我们想要的,因此本文介绍的解析库可以帮助我们更加轻松地提取到特定信息 。

文章插图
一、Xpath库1.库简介
XPath(XML Path Language)即XML 路径语言,它是一门在XML文档中查找信息的语言,但它同样适用于html 文档的搜索 。所以在做爬虫时,我们完全可以使用XPath 来做相应的信息抽取 。
2.入门测试
需要导入lxml库(若未安装推荐用pip install lxml安装即可),然后使用下面代码进行简单测试:
from lxml import etreetext = '''<html><body><div><ul><li class="item-0"><a href=https://www.isolves.com/it/cxkf/yy/Python/2021-04-12/"link1.html">firstsecond third fourth <html><body><div><ul><li class="item-0"><a href=https://www.isolves.com/it/cxkf/yy/Python/2021-04-12/"link1.html">firstsecond third fourth 