学习学习中
8、lxml
- lxml 可以接收bytes和str的字符串
- 利用etree.HTML,将字符串转化为Element对象
html = etree.HTML(text) - Element对象具有xpath的方法
html.xpath(‘’) - lxml可以自动修正和补全html代码,可能会改错需要查看下
- etree.tostring(html) 可以查看element对象中所包含的字符串,根据修正后的HTML写Xpath
- 提取页面数据的思路
- 先分组,取到一个包含分组标签的列表
ret3 = html.xpath("//li[@class='item-1']") - 遍历,取其中每一组数据进行提取,不会造成数据的对应错乱
for i in ret3: item = {<
- 先分组,取到一个包含分组标签的列表
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
