2016-08-17 116 views
-2

下午好,亲爱的社区,使用XPath提取信息

我终于编译了一个工作的XPaths列表,用于从我需要的URL中提取所有信息。

我想问你的建议,对于编码的新手什么是最好的方式来使用只有XPaths(每个链接约100 xpaths)的50k链接刮?

Import.io是我目前最好的工具,甚至是Excel的SEO工具,但他们都有自己的局限性。导入io是昂贵的,excel的SEO工具不适合提取超过1000个链接。

我很愿意学习系统建议,但请为我的项目建议一个好方法!

已解决!搜索引擎优化工具爬行实际上是超级有用的,我相信我找到了我需要的东西。我想我会阻止Python或Java,直到我遇到另一个棘手的障碍。 谢谢大家!

+0

可能的重复[如何在Python中使用Xpath?](http://stackoverflow.com/questions/8692/how-to-use-xpath-in-python) – n1c9

回答

1

这很大程度上取决于您“抓取信息”的含义。你想从网站挖掘什么?所有主要语言(当然包括您提到的Java和Python)都可以很好地连接到网站,阅读内容,使用DOM解析HTML并使用XPath提取某些片段。例如,Java有JTidy,它允许您将网站中的“脏”HTML解析到DOM中并在某种程度上进行处理。但是,所需的工具将取决于项目的确切数据处理需求。

+0

感谢您的输入,我已经解决了它与现在的Excel的搜索引擎优化工具,我只是要使用他们的抓取工具,完成我需要的工作。 – Tomas

1

我鼓励你使用Python(我使用2.7.x)w/Selenium。我经常使用这个组合对网站进行自动化抓取和测试(无论是头脑还是无头的方式),Selenium解锁了与每个页面没有明确网络调用的脚本网站进行交互的机会。

下面是来自硒文档的好,快速教程:2. Getting Started

有很多伟大的根源在那里,而且将永远张贴他们所有;但是,您会发现Python社区非常有用,您可能会看到Python是这种类型的Web交互的一种伟大语言。

祝你好运!

+0

谢谢你的输入,python和java都很好..真的很难决定要学什么。现在我发现了一个使用SEO工具爬行器的解决方案。 – Tomas