2015-04-05 102 views
-1

队友我需要知道什么是最好的编程技术是最好的动态网站,如谷歌搜索,bing搜索,社交媒体网站等网站刮等希望你明白我的观点。技术为网络抓取需要?

想要的东西是高度可扩展性和低资源接受者也。

还浪费大多数开发者社区?

现代语言与DATABASE的最佳组合也是我在想MYSQL InnoDB?因为我们需要存储刮取的数据并呈现。

原因我们一直在使用PHP与MYSQL,这是在报废缓慢工作。

请让我知道,谢谢。

问候

+0

如果您要复制Google等,您至少需要100K台机器。如果你正在刮,股票报价,那么寻找一个API--它将比解析网页更快更高效。请详细说明你的目标。 – 2015-04-05 21:59:57

+0

不想重复谷歌让我们说刮掉搜索引擎排名数据等具体关键字,网址等得到我的观点? – 2015-04-05 22:12:55

回答

0

查找的特定刮你想要的(如排名关键字)的API。

然后使用适当的语言来解码API给你的东西。如果它给你JSON或CSV,那么Perl和PHP非常好。使用编程语言来处理数据,然后构建批量INSERT或CSV文件(对于LOAD DATA)并将其插入InnoDB表中。

如果你找不到合适的API,但你可以找到合适的网页,那么Perl可能是解析的最佳选择。在CPAN查找合适的图书馆以帮助您;会有几个(比别人好一些)。

+0

嗯有没有其他的替代perl? NodeJs怎么样? – 2015-04-05 22:37:39