2017-10-17 100 views
0

我试图让下面的网站的以下元素:https://www.investing.com/economic-calendar/Python的 - 获取HTML表格元素与lxml.html正则表达式

enter image description here

我使用python的请求,并lxml.html:

import requests 
import lxml.html 

payload= { 
'country[]': [25,32], 
'limit_from': 0, 
'submitFilters': 1, 
'timeFilter': 'timeRemain', 
'currentTab': 'today', 
'timeZone': 55} 
headers={'User-Agent': 'Mozilla/5.0','X-Requested-With': 'XMLHttpRequest'} 

r=requests.post("https://www.investing.com/economic-calendar/", 
           data=payload, headers=headers) 
html = lxml.html.fromstring(r.text) 
results = html.xpath("//table[@id='economicCalendarData']//tr") 

让我们在这里考虑一下,列表results中的第3项是感兴趣的。来自“实际”列的那些元素在td的类属性中具有共同的后缀“实际”。但之前的int和字体样式各不相同。所以我想在我的xpath表达式中使用正则表达式,只定位后缀“actual”。

我一直在努力
results[3].find(".//td[contains(@class,'actual')]")

results[3].find(".//td[substring(@class, string-length(@class)-6)='actual']")

(均来自其他做题),但都返回SyntaxError: invalid predicate

任何人都可以帮助我找到正确的xpath正则表达式来找到td

回答

1

我来自Upwork。我想这就是你想要的

results[3].xpath("//td[contains(@class,'actual')]")