2015-07-20 124 views
2

我使用import.io并试图创建一个基于此页面上的履带: http://www.flashscore.com/match/IeHoEHvJ/#match-statistics;0为什么“我有我需要的”按钮有时在import.io中不起作用?

选择单行(每页一行),并增加了一些列和训练他们之后,我要点击按钮“我有我需要的!”以继续并训练另一个类似的页面。但是无法点击按钮,就好像程序正在等待我训练更多(即使没有必要)(我已经在其他网站上成功完成了此过程,但出于某种原因,此页不起作用)。

任何想法,为什么这是行不通的?

请参阅import.io的下面的截图,当我试图点击该按钮没有成功: http://puu.sh/j5Vlm/fcc322549a.png

UPDATE:得到了来自import.io Facebook小组的回复。由于robots.txt的原因,构建抓取工具可能不起作用。但建立一个提取器似乎工作,只需找到一个简单的方法来收集提取器中使用的所有链接。

回答

4

您试图抓取的网站可能受到robots.txt文件的保护,因此Facebook小组告诉您我建议您尝试使用Extractor。

该解决方案有点棘手,但它应该工作。

  1. 创建一个提取器来获取您需要的数据从the page you want data from。我做到了,它工作。

  2. 创建提取得到的链接:(我的是这里:5ef25069-f0cc-4ac7-9184-b2a035277403)为this page

  3. 然后下载数据集作为CSV,用电子表格中打开它,并添加这串文字在链接的末尾:#match-statistics;0

  4. 最后复制链接列表并返回到import.io。在第一个API上选择功能批量提取并粘贴URL列表。

它应该工作;)

+0

很好的回答。我很好奇,什么是ID为'5ef25069-f0cc-4ac7-9184-b2a035277403'的?它是如何使用的? – kdbanman

+1

这是我的提取器的id,你可以在url的末尾看到它 –

+0

感谢您的回应!我试图用[此URL]使用提取器(https://api.import.io/store/data/5ef25069-f0cc-4ac7-9184-b2a035277403/_query?input/webpage/url=http%3A%2F% 2Fwww.flashscore.com%2Ftennis%2Fwta单打%2Fwimbledon%2Fresults%2F)。它使用你的提取器ID和你提到的flashscore url,但它似乎不起作用。你能帮我吗? – kdbanman

相关问题