我正在寻找从各种网站提取各种数据的方法。我知道有些程序可以购买,但是我正努力学习,我想自己做。有没有人对一般结构有任何建议,如果有的话,你会写什么语言。我的第一个想法是Java,但我非常乐意和感激地听到其他人的意见。数据提取?
Q
数据提取?
1
A
回答
1
你试图从网站中提取什么样的数据?什么网站?等等。有关你的想法/项目的更多细节将有所帮助
我最近有需要查看并尝试几个html解析器来获得我需要的一些更加整合的格式的数据。
我尝试过JTidy(http://jtidy.sourceforge.net/)并查看了Web-Harvest(http://web-harvest.sourceforge.net/)。 JTidy不会做我想做的事情,而Web-Harvest太过分了。
我使用Java +的HTMLParser(http://htmlparser.sourceforge.net/)
最终落户花了很少的开发时间得到什么,我需要和HTMLParser的让你形成“过滤器”,搜索在DOM具体的事情。
0
看看hadoop(栅格)和solr(爬行器和索引器)。它们都支持重处理和有效索引(用于高效搜索)。
相关问题
- 1. 提取数据
- 2. 提取数据
- 3. 提取数据
- 4. 提取数据
- 5. 提取数据
- 6. 提取数据
- 7. 提取数据 -
- 8. 提取数据
- 9. 提取数据
- 10. 提取数据
- 11. 提取数据
- 12. 提取数据
- 13. 提取数据
- 14. 数据提取
- 15. 提取数据
- 16. 提取数据
- 17. Xml数据提取?
- 18. Joomla'sobipro' - 提取数据
- 19. Jsoup - 提取数据
- 20. 提取数据集
- 21. 提取JSON数据
- 22. SCrapy提取数据
- 23. DB2数据提取
- 24. GOUTTE提取数据
- 25. Hadoop数据提取
- 26. 提取JSON数据 -
- 27. 数据库表中提取和链接提取的数据
- 28. 如何从XML中提取数据,然后提取数据
- 29. 从多个数据库提取数据
- 30. 从数据集提取数据
比方说,我从确定的有限数量的网站提取价格。并且各种信息将由用户输入。然后通过这些网站查询..感谢您的帮助 – Eric 2010-05-17 13:38:03