我想建立一个特定的东西的搜索服务。数据可以通过免费分类服务和其他网站免费获得。搜索引擎是否有任何构建块会刮擦其他网站?
是否有任何积木,例如:我会定制的开源搜索器 - 而不是从头开始构建,我可以使用它吗?
有关构建此类产品的任何建议?不仅仅是技术性的,还有我可能需要考虑的任何隐私/法律事项。
例如如果我从很多地方得到它们,我是否需要在结果来源的地方给出“信用”并将其与原始链接进行链接?
编辑:顺便说一句,我用GWT和JS作为前端,还没有决定后端的语言。无论是PHP还是Python。思考?
所以我想这个概念是我会创建一个'屏幕刮板'和解析通过HTML代码并拿出有用的信息,然后将其转储到数据库?这是一般过程吗? – marcamillion 2009-06-18 19:29:20
对我来说,它足够通用......我看到的唯一限制是既没有JavaScript也没有Flash引擎来完全模拟webbrowser。你可以用spidermonkey绑定添加js,但我从不需要这个。 – liori 2009-06-19 21:35:24