scalding

0热度

1回答

上下文：我正在阅读文件，其中多个字段是ID列表。我需要将这些字段转换为管道以将它们与其他管道连接起来。我曾尝试： val otherPipe = pipe .project('fieldIwant) .map { p: Pipe => p.toString.split(",") } // converts pipe -> array .unique

1热度

2回答

包含列表

烫flatMap元组我有，我想下面的输入元组flatMap：(String, List[String]) E.G.输入： ("a", ["1", "2"]) ("b", ["3", "4"]) 所需输出： ("a", "1") ("a", "2") ("b", "3") ("b", "4") 有一种优雅的方式在滚烫/斯卡拉做到这一点？

3热度

1回答

使用烫伤法读取多个文件并输出一个SINGLE文件

我现在遇到一个问题，我试图从多个文件中使用烫伤读取并使用单个文件创建输出。我的代码是这样的： def getFilesSource (paths: Seq[String]) = { new MultipleTextLineFiles(paths: _*) { override protected def createHdfsReadTap(hdfsMode: Hdfs): T

0热度

1回答

ClassNotFoundException在Zeppelin上烫伤在Yarn上管理

我试图在使用YARN时让Scalding在Zeppelin上工作。我按照文档here中的步骤构建了解释器并设置了类路径覆盖。当我以本地模式运行时，代码正确执行。然而，当我通过YARN我的集群上运行我的作业失败： Error: java.lang.ClassNotFoundException: cascading.CascadingException 或 Error: java.lang.Cla

1热度

1回答

Store Store algebird布卢姆过滤器和Storehaus

我有一个Spark作业，其最终输出是Algebird布隆过滤器，我需要在另一个Spark作业中重用此布隆过滤器。有没有办法使用Twitter Storehaus将这个布隆过滤器存储在kv商店（例如：redis）中，并在其他作业（反序列化为algebird布隆过滤器）中检索它？

0热度

1回答

什么是Algebird中的MonoidAggregator

我没有找到关于MonoidAggregator的任何文档。这是什么？使用它的一个例子： MultiAggregator( ..., Aggregator.forall[T](_.use)).andThenPresent(...) ..., ) FORALL返回MonoidAggregator。它对子级大致相同，设置准备返回零如果_USE ==假？

1热度

1回答

如何使用Algebird的HyperLogLogMonoid执行任意交叉点和联合

我想将属于特定类别的一组值合并到HLL数据结构中，以便稍后可以执行交叉点和联合并计算结果这种计算的基数。我能得到的地步，我可以用com.twitter.algebird.HyperLogLogAggregator 我需要使用com.twitter.algebird.HyperLogLogMonoid存储为HLL，然后帮助估计每个组的基数稍后用于计算交叉点/联合。 val lines_pars

0热度

2回答

NoSuchMethodError当运行烫伤作业

我想升级在CDH 4.5上运行的烫印作业到CDH 5.5.1。该作业使用json4s来解析json数据。我在集群上运行作业时遇到以下错误。它在我的本地机器上运行良好。我正在使用scala 2.10 &烫伤0.15.0版本。 ERROR [main] cascading.flow.stream.SourceStage: caught throwable cascading.pipe.Opera

0热度

1回答

scala TypedPipe开关列

我有一个格式为TypedPipe[(Long, Long)]的val，我该如何切换左右列？更清楚的是，如何创建一个左列的新VAL作为右列的值，右列的值填充在左边？

2热度

2回答

如何将烫伤作业的步骤可视化

我的烫伤作业被转换为9个地图缩减作业（m/r作业）。要理解每个m/r作业代表哪部分代码并不容易。有什么可以帮助我更好地理解我的工作吗？ //这是从我们在Tapad的内部维基粘贴的&拷贝。随时分享您的经验！