使用XPath提取信息

-2

下午好，亲爱的社区，使用XPath提取信息

我终于编译了一个工作的XPaths列表，用于从我需要的URL中提取所有信息。

我想问你的建议，对于编码的新手什么是最好的方式来使用只有XPaths（每个链接约100 xpaths）的50k链接刮？

Import.io是我目前最好的工具，甚至是Excel的SEO工具，但他们都有自己的局限性。导入io是昂贵的，excel的SEO工具不适合提取超过1000个链接。

我很愿意学习系统建议，但请为我的项目建议一个好方法！

＃

已解决！搜索引擎优化工具爬行实际上是超级有用的，我相信我找到了我需要的东西。我想我会阻止Python或Java，直到我遇到另一个棘手的障碍。谢谢大家！

来源

2016-08-17 Tomas

可能的重复[如何在Python中使用Xpath？]（http://stackoverflow.com/questions/8692/how-to-use-xpath-in-python） – n1c9

这很大程度上取决于您“抓取信息”的含义。你想从网站挖掘什么？所有主要语言（当然包括您提到的Java和Python）都可以很好地连接到网站，阅读内容，使用DOM解析HTML并使用XPath提取某些片段。例如，Java有JTidy，它允许您将网站中的“脏”HTML解析到DOM中并在某种程度上进行处理。但是，所需的工具将取决于项目的确切数据处理需求。

来源

2016-08-17 15:50:59

感谢您的输入，我已经解决了它与现在的Excel的搜索引擎优化工具，我只是要使用他们的抓取工具，完成我需要的工作。 – Tomas

我鼓励你使用Python（我使用2.7.x）w/Selenium。我经常使用这个组合对网站进行自动化抓取和测试（无论是头脑还是无头的方式），Selenium解锁了与每个页面没有明确网络调用的脚本网站进行交互的机会。

下面是来自硒文档的好，快速教程：2. Getting Started

有很多伟大的根源在那里，而且将永远张贴他们所有;但是，您会发现Python社区非常有用，您可能会看到Python是这种类型的Web交互的一种伟大语言。

祝你好运！

来源

2016-08-17 15:52:01 dblclik

谢谢你的输入，python和java都很好..真的很难决定要学什么。现在我发现了一个使用SEO工具爬行器的解决方案。 – Tomas

使用XPath提取信息

回答

相关问题