队友我需要知道什么是最好的编程技术是最好的动态网站,如谷歌搜索,bing搜索,社交媒体网站等网站刮等希望你明白我的观点。技术为网络抓取需要?
想要的东西是高度可扩展性和低资源接受者也。
还浪费大多数开发者社区?
现代语言与DATABASE的最佳组合也是我在想MYSQL InnoDB?因为我们需要存储刮取的数据并呈现。
原因我们一直在使用PHP与MYSQL,这是在报废缓慢工作。
请让我知道,谢谢。
问候
队友我需要知道什么是最好的编程技术是最好的动态网站,如谷歌搜索,bing搜索,社交媒体网站等网站刮等希望你明白我的观点。技术为网络抓取需要?
想要的东西是高度可扩展性和低资源接受者也。
还浪费大多数开发者社区?
现代语言与DATABASE的最佳组合也是我在想MYSQL InnoDB?因为我们需要存储刮取的数据并呈现。
原因我们一直在使用PHP与MYSQL,这是在报废缓慢工作。
请让我知道,谢谢。
问候
查找的特定刮你想要的(如排名关键字)的API。
然后使用适当的语言来解码API给你的东西。如果它给你JSON或CSV,那么Perl和PHP非常好。使用编程语言来处理数据,然后构建批量INSERT或CSV文件(对于LOAD DATA
)并将其插入InnoDB表中。
如果你找不到合适的API,但你可以找到合适的网页,那么Perl可能是解析的最佳选择。在CPAN
查找合适的图书馆以帮助您;会有几个(比别人好一些)。
嗯有没有其他的替代perl? NodeJs怎么样? – 2015-04-05 22:37:39
如果您要复制Google等,您至少需要100K台机器。如果你正在刮,股票报价,那么寻找一个API--它将比解析网页更快更高效。请详细说明你的目标。 – 2015-04-05 21:59:57
不想重复谷歌让我们说刮掉搜索引擎排名数据等具体关键字,网址等得到我的观点? – 2015-04-05 22:12:55