我想在注册每个线程有多少个回复的同时提取此mailing list的每个标题。Scrapy无法识别Firebug列出的“tbody”和“ul”元素
根据萤火虫,所述XPath来的<ul>
包含所有的标题是:
/HTML /体/表[2]/tbody的/ TR 1/TD [2] /表/ TBODY/TR/TD/UL
然而,如果我粘贴此直接在Scrapy壳牌,它会产生一个空列表:
scrapy shell http://seclists.org/fulldisclosure/2002/Jul/index.html
response.xpath('/html/body/table[2]/tbody/tr[1]/td[2]/table/tbody/tr/td/ul')
[]
一些试验和错误之后(因为我无法从文档中找出列出给定Selector中的直接子元素的方法(请告诉他们是否知道其中的一个),我发现元素“tbody”在Xpath上不起作用。通过去除它们,我能够达到导航到/td
:
almost_email_threads = response.xpath('/html/body/table[2]/tr[1]/td[2]/table/tr/td')
但是,如果我现在试图达到“UL”它不会工作:
email_threads.xpath('/ul')
[]
现在,混淆了我最是运行:
response.xpath('/html/body/table[2]/tr[1]/td[2]/table/tr/td//ul')
将给我UL的,但不是在相同的顺序出现在网站上。它以不同的顺序跳过线程。此外,似乎不可能计算每个线程的回复数量。
我在这里错过了什么?自从我使用Scrapy以来已经有一段时间了,但我不记得这很难弄清楚,无论出于何种原因,教程都不会在Bing或Google上为我提供。
谢谢。它似乎在这里工作。我会等着看是否有人知道如何在Spacy上列出选择器的答案,或者想要提出任何其他建议,如果没有,我会在这里接受你的答案。我也赞同你的回答。你知道为什么我的问题和答案都被低估了吗?当他们不评论改善,而不是简单的下调时,很难改善。 –
我已更新答案,向您展示如何获得答复的数量和选择器的子代。关于你的问题的反对票,我只能推测;可能会认为它不包含MCV示例并且至少有一个格式错误。看看http://stackoverflow.com/help/how-to-ask可能会有所帮助。但是我认为,如果不给出解释性评论,就会显得不礼貌。 – Markus
谢谢。我接受了你的答案。 –