scalding

    0热度

    1回答

    上下文:我正在阅读文件,其中多个字段是ID列表。我需要将这些字段转换为管道以将它们与其他管道连接起来。 我曾尝试: val otherPipe = pipe .project('fieldIwant) .map { p: Pipe => p.toString.split(",") } // converts pipe -> array .unique

    1热度

    2回答

    烫flatMap元组我有,我想下面的输入元组flatMap:(String, List[String]) E.G.输入: ("a", ["1", "2"]) ("b", ["3", "4"]) 所需输出: ("a", "1") ("a", "2") ("b", "3") ("b", "4") 有一种优雅的方式在滚烫/斯卡拉做到这一点?

    3热度

    1回答

    我现在遇到一个问题,我试图从多个文件中使用烫伤读取并使用单个文件创建输出。我的代码是这样的: def getFilesSource (paths: Seq[String]) = { new MultipleTextLineFiles(paths: _*) { override protected def createHdfsReadTap(hdfsMode: Hdfs): T

    0热度

    1回答

    我试图在使用YARN时让Scalding在Zeppelin上工作。我按照文档here中的步骤构建了解释器并设置了类路径覆盖。当我以本地模式运行时,代码正确执行。然而,当我通过YARN我的集群上运行我的作业失败: Error: java.lang.ClassNotFoundException: cascading.CascadingException 或 Error: java.lang.Cla

    1热度

    1回答

    我有一个Spark作业,其最终输出是Algebird布隆过滤器,我需要在另一个Spark作业中重用此布隆过滤器。 有没有办法使用Twitter Storehaus将这个布隆过滤器存储在kv商店(例如:redis)中,并在其他作业(反序列化为algebird布隆过滤器)中检索它?

    0热度

    1回答

    我没有找到关于MonoidAggregator的任何文档。 这是什么? 使用它的一个例子: MultiAggregator( ..., Aggregator.forall[T](_.use)).andThenPresent(...) ..., ) FORALL返回MonoidAggregator。 它对子级大致相同,设置准备返回零如果_USE ==假?

    1热度

    1回答

    我想将属于特定类别的一组值合并到HLL数据结构中,以便稍后可以执行交叉点和联合并计算结果这种计算的基数。 我能得到的地步,我可以用com.twitter.algebird.HyperLogLogAggregator 我需要使用com.twitter.algebird.HyperLogLogMonoid存储为HLL,然后帮助估计每个组的基数稍后用于计算交叉点/联合。 val lines_pars

    0热度

    2回答

    我想升级在CDH 4.5上运行的烫印作业到CDH 5.5.1。 该作业使用json4s来解析json数据。我在集群上运行作业时遇到以下错误。它在我的本地机器上运行良好。 我正在使用scala 2.10 &烫伤0.15.0版本。 ERROR [main] cascading.flow.stream.SourceStage: caught throwable cascading.pipe.Opera

    0热度

    1回答

    我有一个格式为TypedPipe[(Long, Long)]的val,我该如何切换左右列?更清楚的是,如何创建一个左列的新VAL作为右列的值,右列的值填充在左边?

    2热度

    2回答

    我的烫伤作业被转换为9个地图缩减作业(m/r作业)。要理解每个m/r作业代表哪部分代码并不容易。有什么可以帮助我更好地理解我的工作吗? //这是从我们在Tapad的内部维基粘贴的&拷贝。随时分享您的经验!