2016-03-21 135 views
1

我有一个约从列表中的列表。 36,000个URL,范围从​​到https://www.fff.fr/la-vie-des-clubs/36179/infos-cles(其中几页返回404 erros)。从分页网站的每个页面检索一个数字

每个页面都包含一个数字(足球俱乐部包含的球队数量)。在HTML文件中,编号显示为<p class="number">5</p>.

是否有合理简单的方法来编译具有URL和关联的团队数作为字段的excel或csv文件?

我试过寻找phantomJS,但我的方法花了10秒钟打开一个网页,我真的不想花100个小时这样做。我无法弄清楚如何(或者是否可能)使用诸如import.io之类的抓取工具来执行此操作。

谢谢!

回答

0

对于要达到的目标,我可以看到两个解决方案:

  • 代码它在Java中:Jsoup +任何CSV库

    几分钟后,在36000+ URL可以很容易下载。

  • scrapinghub.com

    波西娅是一个所见即所得的工具可以快速帮助您创建项目并运行它使用像Portia的工具。他们提供免费计划,可以负责36000多个链接。