2010-01-24 39 views
0

我相信这个问题的答案是非常主观的,我只是想知道那里有什么选项(用于构建加载外部内容的代理)。代理规模,性能(加载外部内容)?

通常我在php中使用cURL并传递像proxy.url这样的变量来获取内容。然后使用Javascript进行AJAX调用以填充内容。

编辑: YQL(雅虎查询语言),似乎一个非常有前途的解决方案给我,但是,它有一个每日使用限制其本质上防止我将其用于大型项目。

我还有其他选择吗?我对任何语言都开放,任何平台,关键标准是:性能和可伸缩性。

请分享你对这个主题的想法,想法和经验。

感谢,

回答

0

你不需要代理服务器或别的东西。 只需创建一个cronjob以每5分钟(或任何时候想要)获取内容。

你只需要创建一个脚本来抓取网页中的内容并将其保存到一个文件,一个数据库中,这将由cronjob启动。

如果有人请求你的页面,你只需要发送缓存的内容,并做任何你想做的事情。

我认为可扩展性和性能不成问题。

+0

cronjobs在我的情况下不起作用,因为我需要实时获取内容来执行数据操作。 – John 2010-01-24 21:30:52

0

根据你需要处理的内容,你可能会考虑Erlang。它的速度很快,非常可靠,而且非常适合缩放。

+0

我基本上需要获取每个给定的URL(包括CSS,JavaScript等)的一切。 Erlang只是语言,任何内置代理?你能告诉我更多关于你使用Erlang和其他语言比如C#,PHP,Java,ruby的经验吗? – John 2010-01-24 21:33:15