2013-02-21 77 views
0

我是一个相对新手的程序员,对PHP有很好的理解,但更多的是阅读,理解和复制我需要的部分,而不是从头开发的部分。如何使用PHP构建搜索引擎来搜索多个网站的实时内容?

我有超过1000个我想要搜索的URL列表。我希望根据需要搜索这些网页上的内容,并仅返回包含我提供的文本查询的结果。我已经将Google自定义搜索引擎视为一种简单的选择,并且这种方式运行良好,但限制了我可以添加的页面数量。

我已经看着cURL,但似乎并没有提供我在找什么,除非我失去了一些东西?

还有像Google CSE这样的免费且易于使用的其他选项吗?

回答

0

你可以编写所需页面的抓取工具并使用Sphinx引擎(http://sphinxsearch.com/)在页面中搜索。对于我的意见,应该写一个带有HTTP扩展名的抓取工具比纯粹的cURL库更好。

+0

我会看看狮身人面像,出于兴趣,你知道任何教程网站编写履带式? – AlexShepherd 2013-02-25 10:12:55

+0

你可以从这里开始[http://en.wikipedia.org/wiki/Web_crawler](http://en.wikipedia.org/wiki/Web_crawler),也可以看看[http://astellar.com/php (http://astellar.com/php-crawler/)更多示例 – 2013-02-25 10:26:47

+0

还有一个用于抓取和抓取网络的lib - [Goutte](https://github.com/fabpot/Goutte) – 2013-02-25 13:47:22