我对Spark和Hadoop世界非常陌生。我已经开始通过互联网自己学习这些主题。我想知道如何在Spark DataFrame中执行异常检测,因为Spark中的DataFrame是不可变的?有没有可以执行此操作的Spark包或模块?我为Spark使用了PySpark API,因此如果有人回复了PySpark中的这种情况,我将非常感激。如果我在PySPark(Pyhton)的Spark DataFrame中获得执行异常检测的小代码,将非常感激。提前感谢!pyspark数据框中的异常值检测
-3
A
回答
0
据我所知,没有API既不是一个专门用于检测异常值的包,因为数据本身因应用程序而异。但是,有几种已知的方法都有助于识别异常值。 我们先来看看异常值这个词的意思,它只是指超出观测范围/范围的极端值。可以看出这些异常点如何被看到的一个很好的例子是,当以直方图方式或散点图形式显示数据时,它们会强烈影响静态数据并且压缩有意义的数据。或者他们可以被看作是对数据统计汇总的强大影响力。例如在使用均值或标准偏差之后。 这肯定会产生误导,当我们使用包含异常值的训练数据时,危险将会发生,训练将花费更长的时间,因为模型将与超出范围的值一起挣扎,因此我们降落的准确性较差,而穷人结果或“永不收敛的客观测量”,即比较测试和训练的输出/得分与训练时间或某个准确度值范围。
尽管在您的数据中将异常值作为不受欢迎的实体是很常见的,但他们仍然可以对异常进行签名,并且其检测本身将成为发现欺诈或提高安全性的方法。
下面是异常值检测某个k自己的方法(更多细节可以在这个好article找到):
- 极值分析,
- 概率和统计模型,
- 线性模型:减少数据维度,
- 基于接近度的模型:主要使用聚类。
对于代码,我建议这个好地图从tutorial。并希望这个答案有所帮助。祝你好运。
相关问题
- 1. Pyspark:从pyspark数据框中
- 2. 如何检测二维数组中的异常值检测?
- 3. 如何检测我的数据库中的异常值数据点
- 4. 为异常检测准备数据
- 5. 检测异常
- 6. 在数据框中为每个现有数据框添加一个新列(用于异常值检测)
- 7. 数据框中的列中值与列中的异常值
- 8. 熊猫数据框 - 删除异常值
- 9. 如何检测并消除变化的数据集中的异常值
- 10. 如何处理PySpark中的MongoDB异常?
- 11. 如何检查实例是否位于Pyspark的数据框中?
- 12. 从数据框中删除异常值的功能
- 13. 如何从pyspark数据框检索列并将其作为新列插入到现有pyspark数据框中?
- 14. PySpark,GraphFrames,异常导致:java.lang.ClassNotFoundException:com.typesafe.scalalogging.slf4j.LazyLogging
- 15. Pyspark:使用数据框
- 16. RXSwift,检测重入异常
- 17. 检测异常类型
- 18. 异常检测算法
- 19. 异常邮件检测
- 20. 检测异常 - 如果
- 21. 什么是用于上下文数据的简单异常值检测算法?
- 22. 检测到异常:意外的数据库连接器错误
- 23. pyspark - 遍历文件并替换数据框中的值
- 24. PySpark:从列值中命名一个新的数据框列
- 25. 如何用pySpark在数据框中更改单元格的值?
- 26. Specs2:在隐式转换的val赋值中检测异常
- 27. PHPUnit的数据库测试异常
- 28. 如何从数据框中删除异常值?
- 29. 如何从数据框中删除异常值?
- 30. 数据不被填充数据框 - PySpark