一文弄清Python网络爬虫解析库！内含多个实例讲解( 二 )

2025-12-14 Python网络爬虫

'''如果将字符串单独保存为html文件，则使用谷歌浏览器打开后即为：

一文弄清Python网络爬虫解析库！内含多个实例讲解

文章插图

通过导入bs4库中的BeautifulSoup子类可以输入以下命令观察输出：

from bs4 import BeautifulSoup bs = BeautifulSoup(html,"html.parser") # 缩进格式print(bs.prettify()) # 获取title标签的所有内容print(bs.title) # 获取title标签的名称print(bs.title.name) # 获取title标签的文本内容print(bs.title.string) # 获取head标签的所有内容print(bs.head) # 获取第一个div标签中的所有内容print(bs.div) # 获取第一个div标签的id的值print(bs.div["id"]) # 获取第一个a标签中的所有内容print(bs.a) # 获取所有的a标签中的所有内容print(bs.find_all("a")) # 获取id="u1"print(bs.find(id="u1")) # 获取所有的a标签，并遍历打印a标签中的href的值for item in bs.find_all("a"):print(item.get("href")) # 获取所有的a标签，并遍历打印a标签的文本值for item in bs.find_all("a"):print(item.get_text())

【一文弄清Python网络爬虫解析库！内含多个实例讲解】3.基本方法
BeautifulSoup4将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种：

Tag：Tag通俗点讲就是HTML中的一个个标签，我们可以利用 soup 加标签名轻松地获取这些标签的内容，这些对象的类型是bs4.element.Tag 。但是注意，它查找的是在所有内容中的第一个符合要求的标签。

# [document] #bs 对象本身比较特殊，它的 name 即为 [document]print(bs.name) # head #对于其他内部标签，输出的值便为标签本身的名称print(bs.head.name) # 在这里，我们把 a 标签的所有属性打印输出了出来，得到的类型是一个字典 。print(bs.a.attrs) #还可以利用get方法，传入属性的名称，二者是等价的print(bs.a['class']) # 等价 bs.a.get('class')# 可以对这些属性和内容等等进行修改bs.a['class'] = "newClass"print(bs.a) # 还可以对这个属性进行删除del bs.a['class'] print(bs.a)

NavigableString：既然我们已经得到了标签的内容，那么问题来了，我们要想获取标签内部的文字怎么办呢？很简单，用 .string 即可，例如：

print(bs.title.string) print(type(bs.title.string))

BeautifulSoup：BeautifulSoup对象表示的是一个文档的内容。大部分时候，可以把它当作 Tag 对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称，以及属性，例如：

print(type(bs.name)) print(bs.name) print(bs.attrs)

Comment：Comment 对象是一个特殊类型的 NavigableString 对象，其输出的内容不包括注释符号。

print(bs.a)# 此时不能出现空格和换行符，a标签如下：# <a class="mnav" href=https://www.isolves.com/it/cxkf/yy/Python/2021-04-12/"http://news.baidu.com" name="tj_trnews">print(bs.a.string) # 新闻print(type(bs.a.string)) # 接下来具体讲解BeautifulSoup的使用方法 。我们可以通过BeautifulSoup遍历文档树：

	.contents：获取Tag的所有子节点，返回一个list
# tag的.content 属性可以将tag的子节点以列表的方式输出print(bs.head.contents)# 用列表索引来获取它的某一个元素print(bs.head.contents[1])	.children：获取Tag的所有子节点，返回一个生成器
for child inbs.body.children:print(child)	.descendants：获取Tag的所有子孙节点
	.strings：如果Tag包含多个字符串，即在子孙节点中有内容，可以用此获取，而后进行遍历
	.stripped_strings：与strings用法一致，只不过可以去除掉那些多余的空白内容
	.parent：获取Tag的父节点
	.parents：递归得到父辈元素的所有节点，返回一个生成器
	.previous_sibling：获取当前Tag的上一个节点，属性通常是字符串或空白，真实结果是当前标签与上一个标签之间的顿号和换行符
	.next_sibling：获取当前Tag的下一个节点，属性通常是字符串或空白，真是结果是当前标签与下一个标签之间的顿号与换行符
上一页
1
2
3
4
下一页
		  	






























推荐阅读

           
                  
              
                  事业单位的退休金待遇 事业单位养老 
                
                   
                
              
            

                  
              
                  印度空军|印军阵风战机刚服役就坠毁？飞行员跳伞失败丧生，军方高层紧急回应 
                
                   
                
              
            

                  
              
                  金龙鱼|金龙鱼被我给疏忽了，净利润没有反应赚钱能力，机构正在收集筹码 
                
                   
                
              
            

                  
              
                  宋亚轩|宋亚轩珍珠戒指太好看啦！新歌《烟花升停在星夜》欢迎来听！ 
                
                   
                
              
            

                  
              
                  天涯海角是什么意思 
                
                   
                
              
            

                  
              
                  山东鲁能|卡达尔落选国家队，莱昂纳多凉了！鲁能即将官宣外援调整方案 
                
                   
                
              
            

                  
              
                  『防辐射服』防辐射肚兜多少钱 
                
                   
                
              
            

                  
              
                  如何降低脂肪率 
                
                   
                
              
            

                  
              
                  社会谈资|俺买了六瓶五粮液去给他庆生，幽默笑话：小舅子过生日 
                
                   
                
              
            

                  
              
                  腾讯科技三星正研发低价位折叠手机 或定价1000美元 
                
                   
                
              
            

                  
              
                  刘嘉玲|两个月引发两次争议，56岁的刘嘉玲越活越糊涂，她正在脱离观众 
                
                   
                
              
            

                  
              
                  跌幅为|10月26日韩国KOSPI指数收盘下跌0.72% 
                
                   
                
              
            

                  
              
                  辣妈or大妈？吃对很重要！晒晒先平医院的月子餐 
                
                   
                
              
            

                  
              
                  网友热议|江苏1500名老人被骗20亿 借养老之名引诱：勿贪网络宣传高利息等便宜 
                
                   
                
              
            

                  
              
                  AG|你是赛评师：成都AG让二追三西安WE，久违一诺的战边你怎么说？ 
                
                   
                
              
            

                  
              
                   #个人账户#20 年后退休能领取多少养老金？官方数据来了 
                
                   
                
              
            

                  
              
                  ITL创新器械开发 !，POCT的机遇与挑战 
                
                   
                
              
            

                  
              
                  发现母亲出轨当面质问，她极力辩解，并跟我讲了很多父亲出轨的事情，我该咋办 
                
                   
                
              
            

                  
              
                  小米科技|小米11首发骁龙875！小米10系列大减价：雷军要发威了！ 
                
                   
                
              
            

                  
              
                  问董秘|投资者提问：请问募集的项目年底能投产吗？ 
                
                   
                
              
            

          

python 手把手教你基于搜索引擎实现文章查重 

Python开发者的最强工具PyCharm发布2021最新版 

大道至简，Python 装饰器 的通俗讲解 

Python爬虫练习：爬取800多所大学学校排名、星级等 

60行Python代码轻松搞定数据库查询 1秒找到需要的数据 

C++调用python解释器 

一文看完CDN的发展历程 

一文带你轻松搞懂事务隔离级别 

软件测试工具monkeyrunner基于python脚本开发 

python基础——数据结构栈的详解 


            
              
            
          
          
    
      上一篇：Mysql建立、删除索引及使用 
      下一篇：牛蒡茶可以排湿气吗,牛蒡茶可以天天喝吗 
    

          
        
      
    
    
      
        更多...
        
		          
               
            
              牛蒡茶可以排湿气吗,牛蒡茶可以天天喝吗
            
          

               
            
              一文弄清Python网络爬虫解析库！内含多个实例讲解
            
          

               
            
              Mysql建立、删除索引及使用
            
          

               
            
              陈皮茯苓茶喝多久有效,常喝黄芪陈皮茯苓茶
            
          

               
            
              肾茶花多少钱斤,福鼎白茶多少钱斤
            
          

               
            
              杰哥教你Linux Linux安装部署Apache
            
          

               
            
              白木槿花治什么病,白芍药和甘草块是什么药效治什么病
            
          

               
            
              小青柑的功效与作用禁忌,小青柑菊花茶的功效与作用
            
          

               
            
              新鲜橘子皮煮水有毒吗,芍药花有毒吗
            
          

               
            
              开源：API文档汇总管理工具Swagger Butler
            
          

        
      
	




	





    
  


  
    
       
      
        
          生活
          
          人文
		  
		  娱乐
		  
		  
		  历史

        
        
          Copyright © 2017-2022 江苏龙网 京ICP备14049044号-11