如何在R中比较文本与数值中的异常值？

我想学习R，很难找到我正在寻找的东西。有大量的图书馆。如何在R中比较文本与数值中的异常值？

我有一个数据样本数据集，包括150k名和姓以及他们的薪水。

为了好玩，我想看看是否有任何名字或姓氏与显着更高或更低的薪酬相关联。

,"FirstName","LastName","BasePay" 
1,"NATHANIEL","FORD","167411.18" 
2,"GARY","JIMENEZ","155966.02" 
3,"ALBERT","PARDINI","212739.13"

我已经尝试使用：library("arulesViz")和rules <- apriori(data)

但似乎试图找到相关精确的工资数字，而不是薪水相对高或低。

对这个问题的任何帮助，让我开始将非常感激！

问候，史蒂芬

这个问题似乎是无关紧要的，因为它更多的是关于统计数据，而不是一个真正具体的编程问题。也许最好在[交叉验证]（http://stats.stackexchange.com）上提出这个问题。 – Jaap

我认为这是一个完全合法的问题。我会使用包dplyr。然后您可以使用'group_by'和'summarize'功能。在你的案例group_by（FirstName）中，然后选择任何一种统计数据，即工资的均值或中位数作为偏差的度量。

2016-04-23 21:37:44 biomiha

回答