2016-08-03 109 views
-1
属性

考虑HTML结构,像这样:获取使用XPath

<dd itemprop="actors"> 
    <span itemscope="" itemtype="http://schema.org/Person"> 
     <a itemprop="name">Yumi Kazama</a>,     </span> 

<span itemscope="" itemtype="http://schema.org/Person"> 
    <a itemprop="name">Yuna Mizumoto</a>,    </span> 

<span itemscope="" itemtype="http://schema.org/Person"> 
    <a itemprop="name">Rei Aoki</a>,      </span> 
</dd> 

如何获得的a/text()所有价值,为所有itemprop="name"元素?

网址:

//*[@itemprop='actors']//*[@itemprop='name']/text() 

越来越仅第一a/text

+0

只看发布的链接OP,这似乎是极不恰当或这个论坛甚至辱骂。我正在标记这一点。其他人,如果有的话,引起关注 – SomeDude

+0

你的xpath工作正常 –

回答

1

假设你的HTML文件的test.html下面应该工作:

from lxml import html 

with open(r'E:/backup/GoogleDrive/py/scrapy/test.html', "r") as f: 
    page = f.read() 
tree = html.fromstring(page) 
names = tree.xpath("//a[@itemprop='name']//text()") 
print names