博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python Xpath 提取html整个元素(标签与内容)
阅读量:7081 次
发布时间:2019-06-28

本文共 498 字,大约阅读时间需要 1 分钟。

提取html某标签中文字时,文字中含有:“<sub>2</sub>O<sub>5</sub>”,导致提取的文字不符合预期。

解决方法:

#coding=utf-8from lxml import etreefrom HTMLParser import HTMLParserhtml = u'''    退火对Nb2O5薄膜的折射率和厚度的影响'''tree = etree.HTML(html)# 结果为:退火对Nbcontent1 = tree.xpath("//span[@id='chTitle']/text()")[0]print content1# 结果为:退火对Nb2O5薄膜的折射率和厚度的影响table = tree.xpath("//span[@id='chTitle']")[0]content2 = etree.tostring(table, method='html')print HTMLParser().unescape(content2)[19:-8]

 

转载于:https://www.cnblogs.com/zhangtianyuan/p/8297117.html

你可能感兴趣的文章
Kubelet源码分析(四) diskSpaceManager
查看>>
用Org-Mode和Jekyll写博客
查看>>
AlphaZero进化论:从零开始,制霸所有棋类游戏
查看>>
创新技术重塑未来物联网
查看>>
庖丁解牛!深入剖析React Native下一代架构重构
查看>>
架构师的狂欢—ArchSummit深圳2016等您来约
查看>>
访谈Stuart Davidson:Skyscanner的持续交付推广
查看>>
Oracle把Java EE的未来押在Rest API上了?
查看>>
Vue性能优化:如何实现延迟加载和代码拆分?
查看>>
Visual Studio 2017 15.8第一个预览版发布,支持ARM64
查看>>
Homebrew 1.9发布,将支持Linux与Windows 10
查看>>
JavaScript学习笔记第三天_对象
查看>>
C++17标准制定完成
查看>>
没有JS的前端:体积更小、速度更快!
查看>>
OpenAI发布大型强化深度学习模拟器Neural MMO,AI适者生存择最优
查看>>
入门解读:小白也能看懂的容器和虚拟机介绍
查看>>
企业级区块链现状研究报告:小企业的投资总额是大企业的28倍
查看>>
php解析带有命名空间的xml
查看>>
在首次发布三周之后,MLflow迎来了0.2版本
查看>>
微软发布面向企业区块链网络的Coco Framework
查看>>