1
我有一个约从列表中的列表。 36,000个URL,范围从到https://www.fff.fr/la-vie-des-clubs/36179/infos-cles(其中几页返回404 erros)。从分页网站的每个页面检索一个数字
每个页面都包含一个数字(足球俱乐部包含的球队数量)。在HTML文件中,编号显示为<p class="number">5</p>.
是否有合理简单的方法来编译具有URL和关联的团队数作为字段的excel或csv文件?
我试过寻找phantomJS,但我的方法花了10秒钟打开一个网页,我真的不想花100个小时这样做。我无法弄清楚如何(或者是否可能)使用诸如import.io之类的抓取工具来执行此操作。
谢谢!