一文弄清Python网络爬虫解析库!内含多个实例讲解( 四 )

# 用items()函数生成列表生成器进行遍历doc=pq(html)lis=doc('a').items()for li in lis:print(li)

  • 获取信息
# 获取属性a=doc('.head_wrapper #u1 .bri')# attr只会输出第一个a节点属性,要用items()遍历print(a.attr('href'))# 获取文本# .text()a=doc('.head_wrapper #u1 .bri')# text()函数会输出所有的li文本内容print(a.text())# .html()li=doc('a')# html()只会输出第一个li节点内的HTML文本print(li.html())
  • 节点操作
# removeClass addClassa=doc('.head_wrapper #u1 .bri')print(a)a.removeClass('bri')# 移除active的classprint(a)a.addClass('bri')# 增加active的classprint(a)# attr text htmla.attr('name','link')# 增加属性name=linka.text('changed item')# 改变文本 changed itema.html('<span>changed item </span>')# 改变HTMLprint(a) # remove()u1=doc('#u1')# 删除wrap中p节点u1.find('a').remove()print(u1.text())Python有关Xpath、BeautifulSoup、pyquery三大解析库的基本使用方法介绍至此结束




推荐阅读