一文弄清Python网络爬虫解析库！内含多个实例讲解( 四 ) _Python网络爬虫

# 用items()函数生成列表生成器进行遍历doc=pq(html)lis=doc('a').items()for li in lis:print(li)

获取信息

# 获取属性a=doc('.head_wrapper #u1 .bri')# attr只会输出第一个a节点属性，要用items()遍历print(a.attr('href'))# 获取文本# .text()a=doc('.head_wrapper #u1 .bri')# text()函数会输出所有的li文本内容print(a.text())# .html()li=doc('a')# html()只会输出第一个li节点内的HTML文本print(li.html())

节点操作

# removeClass addClassa=doc('.head_wrapper #u1 .bri')print(a)a.removeClass('bri')# 移除active的classprint(a)a.addClass('bri')# 增加active的classprint(a)# attr text htmla.attr('name','link')# 增加属性name=linka.text('changed item')# 改变文本 changed itema.html('<span>changed item </span>')# 改变HTMLprint(a) # remove()u1=doc('#u1')# 删除wrap中p节点u1.find('a').remove()print(u1.text())

Python有关Xpath、BeautifulSoup、pyquery三大解析库的基本使用方法介绍至此结束