使用Python提取HTML页面元素的内容

-1

我给出了一个指向HTML页面的链接。如何打开它并使用其绝对XPath获取特定元素的内容。使用Python提取HTML页面元素的内容

from lxml import html 
import requests 
page = requests.get('http://www.professorpaddle.com/rivers/riverlist.asp') 
tree = html.fromstring(page.content) 
table_data=[] 
temp_dict={} 
temp = tree.xpath('//a[@class="pathm"]') 
for i in temp: 
    link=i.attrib.get('href') 
    link="http://www.professorpaddle.com/rivers/"+link 
    temp_dict['name']=i.text 
    temp_dict['link']=link 
    print(link) 
    temp_page=requests.get(link) 
    temp_tree=html.fromstring(temp_page.content) 
    x=temp_tree.xpath('/html/body/element/table/tbody/tr[2]/td/table/tbody/tr/td/table[1]/tbody/tr[2]/td[3]/table/tbody/tr[3]/td[2]/font') 
    print(x) 
    break

来源

2016-12-03 FibonacciCoder

你尝试的东西吗？ – Dekel

是的，但我如何发布我的代码？ – FibonacciCoder

选中此项：http://stackoverflow.com/editing-help – Dekel

xpath似乎无法找到tbody的。我还试图简化xpath搜索字符串以使我更容易。当我这样做的时候，我发现不久之前我发现其中一个类有两个拼写。这是我的一页。

>>> URL = 'http://www.professorpaddle.com/rivers/riverdetails.asp?riverid=350' 
>>> from lxml import html 
>>> import requests 
>>> page = requests.get(URL) 
>>> tree = html.fromstring(page.content) 
>>> tableRows = tree.xpath('..//table[@class="tableBorder" or @class="tableborder"][2]/tr') 
>>> len(tableRows) 
2 
>>> for row in tableRows: 
...  for child in row.iterchildren(): 
...   if child.text: 
...    child.text.strip() 
...    
'Pinned Forum Threads' 
'' 
''

差点忘了，我会更喜欢使用比赛在或但显然在这个实现的XPath不提供正则表达式。

补充，在回应评论：

>>> fontItems = tree.xpath('..//table[@class="tableBorder" or @class="tableborder"][1]/tr/td/font[@class="path"]') 
>>> len(fontItems) 
12 
>>> for item in fontItems: 
...  list(item.itertext()) 
...  
['GPS/GIS'] 
['Maps'] 
['Put In Longitude : '] 
['-121.29268'] 
['Put In Latitude : '] 
['47.8034515'] 
['Take Out Longitude : '] 
['-121.33998'] 
['Take Out Latitude : '] 
['47.7137985'] 
['County : '] 
['Snohomish']

来源

2016-12-03 15:51:28

http://stackoverflow.com/questions/40949270/extracting-just-sibling-element-in-xpath – FibonacciCoder

请回答这个问题 – FibonacciCoder

请参阅编辑。 ------ –

使用Python提取HTML页面元素的内容

回答

相关问题