2011-01-05 76 views

回答

4

最好的一个是你最舒服的一个。

1

只要您使用正确的工具来完成这项工作,这并不重要。

您需要考虑部署应用程序的位置(网络与桌面),您想花费学习新技术/语言的时间以及解析RSS和/或XML和/或HTML的库的可用性。不过,您提到的三种语言都是很好的选择。

0

RSS文件只是通过互联网获得的格式化XML。所有你需要的语言是它可以发出一个HTTP请求,并且有解析XML的方法。

0

框架代码可以放在任何东西中,但可以考虑使用XSL转换(或XPath查询)将XML转换为更适合的格式。爱斯佩克。如果你正在寻找数据的小部分,或个人价值。

如果源数据本来是要首先被机器分析的话,这几乎不会“刮”。 :)

0

如果您对某种特定技术更强大,并且您拥有一条死路(或其他因素),那么请使用该技术,因为它们都具有功能。

如果情况并非如此,那么它会落到您正在进行的项目的要求以及如果您想要/能够学习新技术。

PHP是最自然的基于web的技术,您可以使用像Simple HTML DOM Parser这样的库(它也支持XML)以获得快速结果,并深入研究PHP将支持的网络抓取的复杂性。

Java有一个很好的项目Web Harvest,我过去曾经用过很好的结果(虽然你学习了一个非标准的xml语法,但它与xslt类似),并且一旦你的系统设置了你的网页抓取很容易修改。

当涉及到正则表达式时,Perl是最强大的(Java和特别是使用正则表达式时PHP会变得有点麻烦),而正则表达式是一种很好的技巧,因此取决于你想要对你的信息做什么也是一个可以选择的选项。

0

如果您正在编写需要经常运行的服务器应用程序并在大量站点上聚合内容,那么性能应该是您的重要标准。这意味着能够快速处理大量数据的语言。

如果你只是需要一个程序来偶尔运行并从多个页面中挑出一些数据,那么你可以考虑一种专门的语言。产品TestPlan提供了一种非常简单的语言,可以让您快速获取RSS内容并以简单的方式公开它。

我用它在一些重要的刮板项目。虽然速度并不快,但脚本非常易于维护。

相关问题