1
我拥有数百万个节点的决策树,在HDFS上序列化。任何人都可以帮我指点一下如何做更好的序列化,以便我可以使用map reduce更高效地在Hadoop上执行搜索。如何使用mapreduce执行决策树查找?我正在寻找一个优化版本
谢谢。
我拥有数百万个节点的决策树,在HDFS上序列化。任何人都可以帮我指点一下如何做更好的序列化,以便我可以使用map reduce更高效地在Hadoop上执行搜索。如何使用mapreduce执行决策树查找?我正在寻找一个优化版本
谢谢。
那么为了遍历你的树,你需要将模型加载到内存中。一旦它被加载,执行一个实例的遍历就非常容易和快速。你不能避免将你的模型存储到hdfs中,所以为了更好的遍历,你需要在你的主内存中做更好的事情。但正如我所说,树遍历总是超快。也许提供一些关于你的问题的更多信息会很好。你的问题是有数以百万计的新例子,并预测他们的标签?