2017-09-23 103 views
-3

我对Spark和Hadoop世界非常陌生。我已经开始通过互联网自己学习这些主题。我想知道如何在Spark DataFrame中执行异常检测,因为Spark中的DataFrame是不可变的?有没有可以执行此操作的Spark包或模块?我为Spark使用了PySpark API,因此如果有人回复了PySpark中的这种情况,我将非常感激。如果我在PySPark(Pyhton)的Spark DataFrame中获得执行异常检测的小代码,将非常感激。提前感谢!pyspark数据框中的异常值检测

回答

0

据我所知,没有API既不是一个专门用于检测异常值的包,因为数据本身因应用程序而异。但是,有几种已知的方法都有助于识别异常值。 我们先来看看异常值这个词的意思,它只是指超出观测范围/范围的极端值。可以看出这些异常点如何被看到的一个很好的例子是,当以直方图方式或散点图形式显示数据时,它们会强烈影响静态数据并且压缩有意义的数据。或者他们可以被看作是对数据统计汇总的强大影响力。例如在使用均值或标准偏差之后。 这肯定会产生误导,当我们使用包含异常值的训练数据时,危险将会发生,训练将花费更长的时间,因为模型将与超出范围的值一起挣扎,因此我们降落的准确性较差,而穷人结果或“永不收敛的客观测量”,即比较测试和训练的输出/得分与训练时间或某个准确度值范围。

尽管在您的数据中将异常值作为不受欢迎的实体是很常见的,但他们仍然可以对异常进行签名,并且其检测本身将成为发现欺诈或提高安全性的方法。

下面是异常值检测某个k自己的方法(更多细节可以在这个好article找到):

  • 极值分析,
  • 概率和统计模型,
  • 线性模型:减少数据维度,
  • 基于接近度的模型:主要使用聚类。

对于代码,我建议这个好地图从tutorial。并希望这个答案有所帮助。祝你好运。