有没有难以及快速的答案,因为这里的答案很大程度上取决于您的输入和问题域。机器学习的很多工作都是准备你的输入的艺术(而不是科学),出于这个原因。我可以给你一些一般想法来思考。你有两个问题:从每个项目中做出有意义的相似性,然后将它们合并。
这个城市的相似度听起来很合理,但实际上取决于你的域名。在同一个城市中是否意味着一切,而在邻近城市中意味着什么呢?例如,在同样规模的城市中是否可以算作任何东西?在相同的状态?如果他们做你的相似性应该反映。
教育:我理解你为什么会使用余弦相似度,但这不会解决真正的问题,这是处理不同的令牌,意味着同样的事情。你需要“eng”和“engineering”匹配,“ba”和“bachelors”等类似的东西。一旦你准备这些令牌,它可能会给出好的结果。兴趣:我不认为余弦在这里是最好的选择,尝试一个简单的tanimoto系数相似性(只是交叉大小的交集)。
你不能总结它们,因为我假设你仍然想要一个范围[0,1]的值。你可以平均他们。这就使得这些假设都可以直接比较,如果你愿意的话,它们是相同的“单位”。他们不在这里;例如它不像是概率。
它可能仍然可以在实践中确定它们的平均值,或许还有权值。例如,在这里同一座城市与拥有完全相同的利益一样重要。这是真的还是应该不那么重要?
你可以尝试和测试不同的变化和权重,希望你有一些测试历史数据的方案。我会向您指出我们的项目Mahout,因为它有推荐和评估的完整框架。
然而,所有这些解决方案都是拙劣的和启发式的。我想你可能想要采用更正式的方法来进行特征编码和相似之处。如果你愿意购买一本书并且喜欢Mahout,Mahout in Action在关于如何选择和编码特征的聚类章节中有很好的覆盖面,然后如何在它们之间做出一个相似性。
有很多方法,你到目前为止阅读过很多文献吗? –