2017-07-07 70 views
0

结构如下考虑一个数据库:[R寻找模式

<Age> <Gender> <Field1> <Field2> <Field3> <Field4> <Field#> 

其中的每一行,一些领域可能为零,另一些则不会,代表的时间从个体量使用这样的字段 - 可以为每一行使用多个字段。

例如,考虑DB的存在:

10 M 10 0 5 0 1 
5 M 7 1 6 0 2 
10 M 6 1 4 1 0 
.... 

所以我们可以说,对于10岁和男性个体的模式,将是第一个和第三个领域是最具代表性的。

我不确定我的解释是否有意义。这是可以实现的吗?有这种问题的算法/ R包吗?

+0

岂不' Field1'和'Field3'是最常用的? – herbaman

+0

是的,我会错过它哈哈谢谢 – JDoe

回答

0

想到的是子集。如果我正确理解你的问题。 查找子集,我还不能肯定我的代码是正确的......

DF [其中(DF $年龄= 10 & DF $性别= M)]

+0

我欣赏@Valerie S的帮助,但那不是重点。设想你会根据年龄标签10和男性性别对数据进行子集分类,最后会提供 - 在所提供的例子中 - 两行。现在对于这两行,我试图实现的是按照我想象的频率检测现有字段“Field *”上的模式。 – JDoe