我想从本网站的表格和段落文本中提取各种元素。使用Python从网站中提取网页元素
https://www.instituteforsupplymanagement.org/about/MediaRoom/newsreleasedetail.cfm?ItemNumber=30655
这是我使用的代码:
import lxml
from lxml import html
from lxml import etree
import urllib2
source = urllib2.urlopen('https://www.instituteforsupplymanagement.org/about/MediaRoom/newsreleasedetail.cfm?ItemNumber=30656&SSO=1').read()
x = etree.HTML(source)
growth = x.xpath("//*[@id="home_feature_container"]/div/div[2]/div/table[2]/tbody/tr[3]/td[2]/p)")
growth
什么是提取从一个网站,我想的元素,而无需每次都改变的XPath代码的最佳方式是什么?他们每个月都在同一个网站上发布新数据,但XPath有时会发生一些变化。
什么是你想要的元素一个例子吗?您的XPath无效,无法在此页面上进行测试。 –
我改变了xpath。我需要“制造一瞥”表中的元素。还有段落文字。 –