我是新来斯卡拉/火花(大约一个星期现在)斯卡拉/星火选择列很慢
下面的代码被我的8核心的笔记本电脑,64位,Win10 运行数据帧有1700行。 ONE选择需要十秒以上。
看着控制台显示主要挂在这一点上:
17/09/02 12时23分46秒INFO FileSourceStrategy:修剪目录有:
守则
{
val major:String =name.substring(0,name.indexOf("_SCORE"))+"_idx1"
println(major)
val majors = dfMergedDroppedDeleted
.select(col(major))
.collect().toSeq
println(s"got majors ${majors.size}")
}
这应该需要几毫秒(基于休眠,r,mysql等的经验) 我假设我的火花配置有问题吗?
任何建议将是最受欢迎的。
全控制台输出到挂起如下:
1637_1636_1716_idx1
1637_1636_1716_idx2
17/09/02 12时23分08秒INFO ContextCleaner:已清除累加器765
17/09/02 12:23:08 INFO ContextCleaner:清理累加器763
17/09/02 12时23分08秒INFO BlockManagerInfo:在存储器上删除了192.168.0.13:62246 broadcast_51_piece0(尺寸:113.7 KB,免费:901.6 MB)
17/09/02 12点23: 08 INFO ContextCleaner:已清除累加器761
17/09/02 12时23分08秒INFO ContextCleaner:已清除累加器764
17/09/02 12时23分08秒INFO ContextCleaner:已清除累加器762
17/09/02 12:23:08 INFO ContextCleaner:清理累加器766
17/09/02 12时23分08秒INFO BlockManagerInfo:在存储器上删除了192.168.0.13:62246 broadcast_50_piece0(尺寸:20.7 KB,免费:901.6 MB)
17/09/02 12点23: 08信息FileSourceStrategy:修剪目录:
星火快得多没有内置用于同样用途的,如MySQL数据库。你在哪里运行?在火花外壳或提交?多少个文件和多少个分区?你在这之前运行什么代码? – Garren
我目前正在运行作为junit测试。从csv导入一个数据文件。在此之前,已经有多个数据帧转换,其中的列与withColumn()合并在一起。这是很多代码,我不相信这个问题是相关的,因为我现在有一个大约1000个变量和1700行的单个数据框 – Jake
注意:这是数据清理操作的一部分。我通常在R. – Jake