2011-02-15 129 views
1

我需要开发一个系统,通过远程服务器(我相信“代理”是该术语)定期登录网站,并从该网站收集数据。通过代理登录到网站

对于这样的系统,在服务器和软件方面,基本要求是什么?我需要的不仅仅是一个典型的共享托管计划吗?

我正在寻找基于PHP的软件解决方案。

编辑:收集的数据将仅用于统计目的 - 没有任何违法。

+1

首先,您需要远程站点的许可。 – 2011-02-15 07:53:56

+0

@Dagon,你的意思是将被抓取的网站或远程服务器? – 2011-02-15 07:56:38

+0

通过“登录到网站”您的意思是用用户名和密码登录?或只是要求任何/所有页面检查他们的布局? – 2011-02-15 07:57:12

回答

1

您可以使用PHP curl函数来请求页面。
和卷曲允许您设置像这样的代理:

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_PROXY, "http://proxyaddress"); 
curl_setopt($ch, CURLOPT_PROXYPORT, 8080); 
curl_setopt($ch, CURLOPT_PROXYUSERPWD, "xxx:xxx"); 

我猜对了downvotes的原因是,它好像你正在偷一个设计,但我猜你有一个完全合法的理由为了做你想做的事情!

0

你要做的是创建一个网络爬虫。这就是搜索引擎如何索引他们搜索的网页。这种爬行是由称为蜘蛛或机器人的脚本完成的。它可以使用Perl轻松创建。查看这个http://www.linuxjournal.com/article/2200一个简单的教程。