一文弄清Python网络爬虫解析库！内含多个实例讲解

2025-12-13 Python网络爬虫

在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后，可能大家还对超长的正则表达式记忆犹新，设想如果想要匹配的条目更加多那表达式长度将会更加恐怖，这显然不是我们想要的，因此本文介绍的解析库可以帮助我们更加轻松地提取到特定信息。

文章插图

一、Xpath库1.库简介
XPath（XML Path Language）即XML 路径语言，它是一门在XML文档中查找信息的语言，但它同样适用于html 文档的搜索。所以在做爬虫时，我们完全可以使用XPath 来做相应的信息抽取。
2.入门测试
需要导入lxml库（若未安装推荐用pip install lxml安装即可），然后使用下面代码进行简单测试：

from lxml import etreetext = '''<html><body><div><ul><li class="item-0"><a href=https://www.isolves.com/it/cxkf/yy/Python/2021-04-12/"link1.html">firstsecond
third
fourth

'''html = etree.HTML(text)result = etree.tostring(html)print(result.decode('utf-8'))结果如下：可以看到，etree模块不仅将缺少的标签闭合了，而且还加上了html、body节点。

<html><body><div><ul><li class="item-0"><a href=https://www.isolves.com/it/cxkf/yy/Python/2021-04-12/"link1.html">firstsecond
third
fourth

3.基本方法
xpath的常用规则及基本方法如下：

文章插图

初始化html

上文中的入门测试即为初始化html 。其中etree.parse()是初始化html构造一个XPath解析对象；etree.tostring()是修复html文件中代码，把缺的头或尾节点补齐；result.deode('utf-8')修复后的HTML代码是字节类型，转化成字符串。

获取所有节点

print(html.xpath('//*')) # 获取所有的节点print(html.xpath('//li')) # 获取所有li节点

子节点、子孙节点

print(html.xpath('//li/a')) # 所有li下是所有直接a子节点print(html.xpath('//ul//a')) # 所有ul下的子孙a节点

父节点

# 找到所有a节点中href为links.html的父节点的class值#..来实现查找父节点print(html.xpath('//a[@href=https://www.isolves.com/it/cxkf/yy/Python/2021-04-12/@class'))

属性匹配

# 找到class值为item-0是节点print(html.xpath('//li[@class="item-0"]'))

文本获取

# 匹配到class值为item-0节点中的a标签中的文本print(html.xpath('//li[@class="item-0"]/a/text()'))

属性获取

print(html.xpath('//li/a/@href'))# 找到li下a中的href属性值

属性多值匹配

#只要节点属性class中包含item就能匹配出来print(html.xpath('//li[contains(@class,"item")]/a/text()'))

文章插图

二、BeautifulSoup库1.库简介
BeautifulSoup4和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐使用lxml 解析器。

文章插图

2.入门测试
假设有这样一个Html（即从百度网页源代码截取一段），具体内容如下：

html = '''<!DOCTYPE html><html><head><meta content="text/html;charset=utf-8" http-equiv="content-type" /><meta content="IE=Edge" http-equiv="X-UA-Compatible" /><meta content="always" name="referrer" /><link href=https://www.isolves.com/it/cxkf/yy/Python/2021-04-12/"https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css" rel="stylesheet" type="text/css" />百度一下，你就知道 _江苏龙网新闻 
上一页
1
2
3
4
下一页
		  	






























推荐阅读

           
                  
              
                  怎样使自己的生活增添情趣 
                
                   
                
              
            

                  
              
                  凡一说瑜伽|10岁男孩成美国最小瑜伽老师，收入全捐赠给癌症儿童，为了妈妈 
                
                   
                
              
            

                  
              
                  星动最娱乐|刘芸头戴双蝴蝶结甜美俏皮清新雏菊裙打造满满少女感 
                
                   
                
              
            

                  
              
                  凤茹讲娱乐|其实都是他一手策划的，可惜甄嬛不知道，甄嬛传：果郡王被赐死 
                
                   
                
              
            

                  
              
                  留学前做体检，被查出肺结核 
                
                   
                
              
            

                  
              
                  pc|别再if-else走天下了，整个注解多优雅 
                
                   
                
              
            

                  
              
                  特朗普提议“推迟大选”，是怕“邮寄选票”对民主党有利 
                
                   
                
              
            

                  
              
                  手游很好玩月球并不安全！阿波罗11号宇航员插的美国国旗现在还在吗？ 
                
                   
                
              
            

                  
              
                  做个销售好还是做个门诊护士好 
                
                   
                
              
            

                  
              
                  当一个小骚女想要发骚时会是表现呢 
                
                   
                
              
            

                  
              
                  『佳作有约』都是人生的一种活法，人情世故的复杂有好有坏 
                
                   
                
              
            

                  
              
                  工程新闻记录|京企建设的新首钢大桥，在国外拿奖了 
                
                   
                
              
            

                  
              
                  特朗普|特朗普万料不到，挑衅中国罕见不对劲，这次，反而帮中国一个大忙 
                
                   
                
              
            

                  
              
                  有哪些常见的斯德哥尔摩综合征表现 
                
                   
                
              
            

                  
              
                  青柠檬檬哒|驱动加速神助力：英睿达P5 1TB固硬盘测试 
                
                   
                
              
            

                  
              
                  []鸡蛋饼怎么做才软 
                
                   
                
              
            

                  
              
                  火车显示明明无座，为什么上车后却有很多“空座位”？看完明白了 
                
                   
                
              
            

                  
              
                  虞书欣|网络视听盛典：群星造型频上热搜，“棣欣引力”隔空相望 
                
                   
                
              
            

                  
              
                  小腿肿可以吃什么消肿 
                
                   
                
              
            

                  
              
                  央视新闻客户端|澳大利亚新南威尔士州处于“风险期” 州长宣布收紧防疫措施 
                
                   
                
              
            

          

python 手把手教你基于搜索引擎实现文章查重 

Python开发者的最强工具PyCharm发布2021最新版 

大道至简，Python 装饰器 的通俗讲解 

Python爬虫练习：爬取800多所大学学校排名、星级等 

60行Python代码轻松搞定数据库查询 1秒找到需要的数据 

C++调用python解释器 

一文看完CDN的发展历程 

一文带你轻松搞懂事务隔离级别 

软件测试工具monkeyrunner基于python脚本开发 

python基础——数据结构栈的详解 


            
              
            
          
          
    
      上一篇：Mysql建立、删除索引及使用 
      下一篇：牛蒡茶可以排湿气吗,牛蒡茶可以天天喝吗