2013-05-07 64 views
2

有人可以帮助我我想从http://www.quranexplorer.com/Hadith/English/Index.html提取html数据。我发现了一个服务,它确实支持通过简单的api支持数据提取的http://diffbot.com/dev/docs/,它存在大量需要处理的url的问题。下面http://test.deen-ul-islam.org/html/h.js使用Diffbot提取HTML内容

我需要创建一个脚本,随后则URL使用API​​生成HTML数据的JSON格式的链接(从该网站的API允许批量请求查询网站的文档)

请注意diffbot每个月只允许10000次免费请求,所以我需要一种方法来保存进度,并能够从我离开的地方取回。

这是我用php创建的一个例子。

$token = "dfoidjhku";// example token 
$url = "http://www.quranexplorer.com/Hadith/English/Hadith/bukhari/001.001.006.html"; 
$geturl="http://www.diffbot.com/api/article?tags=1&token=".$token."&url=".$url; 
$json = file_get_contents($geturl); 
$data = json_decode($json, TRUE); 
echo $article_title=$data['title']; 
echo $article_author=$data['author']; 
echo $article_date=$data['date']; 
echo nl2br($article_text=$data['text']); 
$article_tags=$data['tags']; 
foreach($article_tags as $result) { 
    echo $result, '<br>'; 
} 

我不介意如果该工具是JavaScript或PHP我只是需要一种方式来获取json格式的html数据。

回答

2

约翰从Diffbot这里。注意:不是开发者,但知道足够写简单的事情hacky代码。

你有一个链接列表 - 它应该是直接迭代通过这些,每个打电话给我们。

下面是一个Python脚本,做这样的:https://gist.github.com/johndavi/5545375

我用了一个快速搜索正则表达式的崇高文字拔出从JS文件的链接。

要截断这个,只需剪掉一些链接,然后运行它。这将需要一段时间,因为我没有使用批处理API。

如果您需要改进或改变这一点,最好直接找出一个更强大的开发人员。 Diffbot是一个开发友好的工具。

+0

嗨感谢您的代码,唯一的问题是我不知道如何使用Python,任何机会,你可以创建一个PHP版本的脚本, – user5601 2013-05-09 17:58:26

+0

嗨,谢谢 - 对不起,这是尽我所能走。我相信少数PHP指南可以轻松帮助您复制这些内容。祝你好运! – 2013-05-10 18:06:21