2011-05-19 74 views
2

我一直在寻找一个新的业余爱好编程项目,我认为这会很有趣,可以通过编程方式从网站收集信息,然后分析这些数据来执行聚合或过滤等操作。例如,如果我想编写一个可能需要Craiglist列表的应用程序,然后执行诸如仅显示匹配特定城市而不仅仅是地理区域的应用程序。这只是一个简单的例子,但您可以像Google分析网站内容以了解如何对其进行排名一样先进和复杂。如何开始以编程方式分析网站内容?

我对这个主题几乎一无所知,我认为了解更多关于它会很有趣,或者希望在该主题中做一个非常适度的编程项目。我的问题是,我知道的很少,我甚至不知道如何找到关于该主题的更多信息。

这些类型的程序叫什么?在Google上搜索时使用哪些有用的关键字?我在哪里可以得到一些介绍性阅读材料?我应该阅读有趣的论文吗?

我只需要一个人来消除我的无知,这样我就可以自己做一些研究。

回答

1

cURL(http://en.wikipedia.org/wiki/CURL)是获取网站内容并将其交给处理器的好工具。

如果你精通某种语言,看看它是否支持cURL。如果没有,PHP(php.net)可能是一个很好的开始。

当您通过cURL检索到网站的内容时,可以使用该语言的文本处理功能来解析数据。您可以使用正则表达式(http://www.regular-expressions.info/)或PHP的strstr()函数来查找并提取您寻找的特定数据。

+0

这看起来是一个很好的开始。谢谢。 – wolmz 2011-05-19 19:41:27

1

“扫描”其他网站的程序通常称为web crawlers或蜘蛛。

+0

这正是我所期待的!试图在不知道正确的关键字的情况下搜索信息可能非常困难。这有助于很多。谢谢。 – wolmz 2011-05-19 19:42:39