2013-04-07 57 views
1

嗨我有大的数据集,它既有字符串,也有数值 前。特征在包含字符串和数值的数据集中进行选择?

用户名(STR),手机(STR),请求数量(INT),下载次数(INT),......

我有大约200个这样的列。

是否有一种方法/算法可以在特征选择期间处理字符串和整数? 或者我应该如何处理这个问题。

感谢

+0

你的问题太宽泛了。你有什么尝试?你需要怎样处理这些数据? – ecline6 2013-04-07 21:50:29

+0

这是一个特定于软件包的问题吗? – 2013-04-07 21:54:41

+0

不是一个软件包特定的问题,但你会很高兴知道哪些软件包在这种情况下有帮助。 我有一个如上所述的数据,每列是一个功能(共200个功能),类型整数和字符串。我想知道所有功能对“下载(布尔0/1)”有什么贡献。所以我只想选择那些影响“下载”的功能。我想大多数特征选择算法只用实数作为输入。 – cryp 2013-04-08 01:47:58

回答

0

特征选择算法分配权重根据其在分类的影响不同的特点。据我所知,在计算不同权重时,特征类型没有区别。我建议将字符串特征转换为基于其ASCII码或任何其他技术的数字。然后,您可以使用快速矿工中现有的特征选择算法。

0

您可以在RapidMiner中的Attribute Weighting组中使用一组操作符。例如,通过相关的权重或按信息增加的权重。

这些将根据与标签的相关性(本例中为下载标志)来评估赋予属性多少权重。最终的权重可以与“按权重选择”运算符一起使用,以消除那些不需要的权重。这种方法本身考虑属性。

您还可以构建分类模型并使用向前选择运算符来添加更多和更多属性并监视性能。这种方法将考虑属性之间的关系。

0

我用Weka的特征选择,虽然属性评估方法我试过不能处理字符串属性在Preprocess > Filter > Unsupervised > Attribute > RemoveType可以暂时将其删除,然后执行特征选择,并且,以后,包括串再次做分类。

相关问题