我正在开发一种网站分析类型的系统,需要在网站上为每个访问者记录引荐网址,着陆页网址和搜索关键字。我想对收集到的数据做的事情是允许最终用户查询数据,例如“向我展示所有来自Bing.com的访客搜索包含'红色鞋子'的短语”或“向我显示所有登陆的访客在包含'campaign = twitter_ad'“的URL上,等等。将数百万个网址存储在数据库中以进行快速模式匹配
因为这个系统将被用在很多大网站上,所以需要记录的数据量真的会非常快。所以,我的问题是:a)什么是记录最好的策略,以便缩放系统不会变成一种痛苦; b)如何使用该体系结构快速查询任意请求?是否有一种特殊的方法来存储URL,以便查询它们的速度更快?
除了我使用的MySQL数据库之外,我正在探索(并开放给)更适合于此任务的其他替代方案。
感谢您的建议。虽然校验策略可能不适用于我,因为我可能需要进行模式匹配,例如:搜索包含campaign = twitter的所有URL – 2010-06-06 05:32:05