pyspark数据框中的异常值检测

-3

我对Spark和Hadoop世界非常陌生。我已经开始通过互联网自己学习这些主题。我想知道如何在Spark DataFrame中执行异常检测，因为Spark中的DataFrame是不可变的？有没有可以执行此操作的Spark包或模块？我为Spark使用了PySpark API，因此如果有人回复了PySpark中的这种情况，我将非常感激。如果我在PySPark（Pyhton）的Spark DataFrame中获得执行异常检测的小代码，将非常感激。提前感谢！pyspark数据框中的异常值检测

来源

2017-09-23 Anand

据我所知，没有API既不是一个专门用于检测异常值的包，因为数据本身因应用程序而异。但是，有几种已知的方法都有助于识别异常值。我们先来看看异常值这个词的意思，它只是指超出观测范围/范围的极端值。可以看出这些异常点如何被看到的一个很好的例子是，当以直方图方式或散点图形式显示数据时，它们会强烈影响静态数据并且压缩有意义的数据。或者他们可以被看作是对数据统计汇总的强大影响力。例如在使用均值或标准偏差之后。这肯定会产生误导，当我们使用包含异常值的训练数据时，危险将会发生，训练将花费更长的时间，因为模型将与超出范围的值一起挣扎，因此我们降落的准确性较差，而穷人结果或“永不收敛的客观测量”，即比较测试和训练的输出/得分与训练时间或某个准确度值范围。

尽管在您的数据中将异常值作为不受欢迎的实体是很常见的，但他们仍然可以对异常进行签名，并且其检测本身将成为发现欺诈或提高安全性的方法。

下面是异常值检测某个k自己的方法（更多细节可以在这个好article找到）：

极值分析，
概率和统计模型，
线性模型：减少数据维度，
基于接近度的模型：主要使用聚类。

对于代码，我建议这个好地图从tutorial。并希望这个答案有所帮助。祝你好运。

来源

2017-10-15 23:10:07

pyspark数据框中的异常值检测

回答

相关问题