2016-04-23 42 views
0

我想学习R,很难找到我正在寻找的东西。有大量的图书馆。如何在R中比较文本与数值中的异常值?

我有一个数据样本数据集,包括150k名和姓以及他们的薪水。

为了好玩,我想看看是否有任何名字或姓氏与显着更高或更低的薪酬相关联。

,"FirstName","LastName","BasePay" 
1,"NATHANIEL","FORD","167411.18" 
2,"GARY","JIMENEZ","155966.02" 
3,"ALBERT","PARDINI","212739.13" 

我已经尝试使用:library("arulesViz")rules <- apriori(data)

但似乎试图找到相关精确的工资数字,而不是薪水相对高或低。

对这个问题的任何帮助,让我开始将非常感激!

问候,史蒂芬

+0

这个问题似乎是无关紧要的,因为它更多的是关于统计数据,而不是一个真正具体的编程问题。也许最好在[交叉验证](http://stats.stackexchange.com)上提出这个问题。 – Jaap

回答

0

我认为这是一个完全合法的问题。 我会使用包dplyr。然后您可以使用'group_by'和'summarize'功能。在你的案例group_by(FirstName)中,然后选择任何一种统计数据,即工资的均值或中位数作为偏差的度量。

相关问题