我期待从网页网址获取结构化的文章数据。到目前为止,我找到了这两个服务http://www.diffbot.com/和http://embed.ly/extract/demos/nlp。有更好的选择,还是值得自己写代码来做到这一点?从网页提取内容数据
回答
我已经做了很长一段时间的网络抓取/内容提取。
对我来说,最好的方法是编写一个Chrome内容扩展并使用他们的API自动化浏览器。这要求你知道Javascript和HTML。在我最近的一个项目中,我使用了一个带有几个可编辑div的背景页面来配置scraping会话。我在背景页面上有一些按钮来启动这个过程。后台页面加载一个JS脚本,用于监听按钮的点击事件。
当其中一个按钮被点击时,我用chrome.tab.create添加一个新的选项卡用于刮会话。后台js还定义了一些chrome.tabs.onUpdated.addListener,以在标签url包含特定页面/域名时注入内容脚本。
内容脚本然后执行抓取作业,例如用jquery,正则表达式等选择一些元素,最后使用chrome.runtime.sendmessage发送带有对象的消息到背景JS。后台JS脚本使用chrome.runtime.onMessage.addListener监听消息,并基于正在提取的内容进行操作。
该扩展还通过点击例如下一页链接自动化网络数据库。
我添加了一个时间设置来控制每分钟打开的链接数量/链接数量,以便有意识地减慢访问速度,避免过多的抓取。
最后,结果将通过AJAX调用上传到数据库,并通过PHP页面插入到MySQL中。
扩展在下一次运行时,会将数据库中已存在的键/链接与另一个AJAX调用进行比较,并确保仅提取新信息。
我也使用Firefox构建了类似上述的扩展,但对我而言,最好的和最简单的解决方案是Chrome/Chromium内容扩展。
如果你想跳过代码,并正在寻找一个简单的网页抓取/ ETL应用软件,我会建议Foxtrot。使用起来很简单,而且不需要编码。我使用它来从某些政府网站上获取数据,并将其转储到Excel电子表格中用于报告目的。
- 1. 提取网页内容
- 2. 从网页中提取数据
- 3. 从网页中提取语义数据
- 4. 从javascript网页中提取数据
- 5. 提取数据网页
- 6. 提取网页数据Python
- 7. 从html页面提取内容
- 8. 从silverlight获取网页内容?
- 9. Google阅读器如何从网页中提取新闻内容?
- 10. 如何从网页中提取文本内容?
- 11. 从网页中提取内容并使用Java进行比较
- 12. 如何使用Boilerpipe从网页中提取新闻内容?
- 13. 难以从新闻网页中提取主要内容
- 14. 如何使用jsoup从网页中提取特定内容
- 15. 如何从多个网页提取内容?
- 16. 如何从Scrapy中提取网页中的所有内容
- 17. 从网页中提取含义全部内容
- 18. 从网页中自动提取内容和结构
- 19. 如何从网页中提取特定div的内容?
- 20. 提取JSP页面内容
- 21. 从网页上刮取网页数据
- 22. PHP读取网页内容
- 23. 获取网页内容
- 24. 从网上提取数据
- 25. 从具有类似xpath的网页(可以在列表中提取的内容)中提取所有内容
- 26. 从网页获取数据
- 27. 从网页获取数据
- 28. 从网页读取数据
- 29. 从网页获取数据?
- 30. 如何下载网页数据库提供的内容?