2011-05-26 26 views
2

我正在开发一个新的服务,将查询多个优惠(Groupon等..),我想破译哪个类别属于此优惠。如何找到哪个类别属于只有标题的优惠?

例子:

我得到这个称号:“Acqualina酒店健康博览会 - Acqualina酒店度假村&温泉”,我需要找出属于该提供什么类别。

我尝试玩http://www.google.com/insights/search/,但这并不容易,因为它只接收7个参数(术语),有时我们有复合词无法分离。

+0

属于哪个类别?有什么选择? – FlyingStreudel 2011-05-26 18:33:48

+0

也许这个exapmle属于'健康与美容'或'特别兴趣' – 2011-05-29 15:30:14

+0

一些选项: 活动和活动 健身 餐饮和夜生活 – 2011-05-29 15:30:47

回答

1

有一些基于Wordnet和搜索距离等有趣的方法,但标准的方法是贝叶斯垃圾邮件过滤器方法。

步骤1:构建一个标题(或标题和正文)的示例集合以及您认为它属于哪个类别。更大更多样化的你让这一切变得更好。你需要有很多(假设至少有两位数的数字,但最好有数百个)来自你想要识别的每个类别的不同例子。如果你需要帮助构建这个集合,你可以使用亚马逊的Mechanical Turk并支付其他人进行分类。

第2步:通过CRM114(http://crm114.sourceforge.net/)或类似的东西运行您的所有示例。如果您想使用云服务,我认为Google Prediction API允许使用文本字段。

第3步:要进行测试,请不要让分类程序看到所有示例。保留一些称为超出样本集的内容,以便测试分类器。对它已经看到的东西进行分类要容易得多,所以你要确保你知道它看不见的例子有多好。一些分类器会自动为你做这个测试。

祝你好运!

相关问题