distributed-computing

0热度

1回答

start(_Type, _Args) -> case application:get_env(ebid, join_schema) of undefined -> mnesia:create_schema([node()]), mnesia:start(), initialize_tables(), mnesia:wait_fo

6热度

1回答

环境有多少火花能做到？

我有一个PySpark应用程序必须详细说明5GB的压缩数据（字符串）。我正在使用一个带有12个内核（24个线程）和72Gb RAM的小型服务器。我的PySpark程序仅包含2个地图操作，由3个非常大的正则表达式（每个3gb已编译）和pickle加载。 Spark工作在独立模式下，工人和主人在同一台机器上。我的问题是：是否为每个执行器核心引发复制每个变量？因为它使用所有可用的内存，然后使用大量的交

3热度

1回答

工人和参数服务器驻留在分布式张力流中？

在这个post，有人提到：此外，还有工人和PS设备之间没有内置区别 - 它只是一个约定，变量会被分配到PS设备和 OPS被分配到工作人员设备。在这种post，有人提到： TL; DR：TensorFlow不知道“参数服务器”什么，但相反，它支持在多个设备上运行的图表在不同流程。其中一些进程具有名称为的设备以"/job:ps"开头，并且这些设备包含这些变量。工作人员驱动的培训过程，当他们

1热度

1回答

Hazelcast - 在客户机/服务器模式下为多个应用程序提供服务的最佳群集拓扑结构是什么？

几乎我们所有的应用程序都在嵌入拓扑中使用Hazelcast集群。由于应用程序的高负载，我们偶尔会遇到内存和cpu问题。正因为如此，我们计划将我们的拓扑从嵌入式改为客户端/服务器模式。问题是，我们是否应该为每个应用程序设置一个新的群集？还是应该单个群集为所有客户端应用程序提供服务我知道可以在jvm中启动多个hazelcast实例（http://docs.hazelcast.org/docs/3

1热度

1回答

火花2逻辑回归删除阈

我使用火花2 + Scala的培养基于逻辑回归二元分类模型与我使用import org.apache.spark.ml.classification.LogisticRegression，这是在火花2。然而新毫升API，当我通过AUROC评估的模型，我没有找到一种方法来使用概率（0-1中的double）而不是二进制分类（0/1）。这是以前通过removeThreshold()实现的，但在ml.Lo

0热度

1回答

Firebase云消息传递是否被视为消息代理？

我有一个任务在分布式系统中选择实现消息代理。 Firebase云消息传递是否被视为一个？

0热度

1回答

在不可变的分布式散列表中实现一致性的选项

我正在实现一个完全分散的数据库。任何人随时都可以上传任何类型的数据。适合这个问题的一个好的解决方案是不可变的分布式散列表。值是用他们的散列键入的。不变性确保此映射始终有效，简化数据完整性检查并避免同步。为了提供一些数据检索设施，将实施基于标签的分类。任何密钥（与单个唯一值关联）都可以使用任意标签（任意字节序列）进行标记。为了简单起见，我想使用相同的分布式散列表来存储这个标签哈希索引。要实现这个

0热度

1回答

在浏览器中生成唯一的序列号以进行日志记录

创建分布式系统时，主要问题之一是调试问题出现的位置和方式，并且通常您唯一可用于进行事后处理的工具是可用日志。尝试处理来自不同系统的日志的一种方法是在系统请求之后的generating a unique sequence number。与此有关的一个小问题是找出在何处绘制请求开始的边界。如果有人说这个边界是从浏览器开始的，那么使用some GUID library就会产生唯一标识符到浏览器。这是一

1热度

1回答

使用Spark Multi Clusters改进SQL查询

我在试验Spark与多集群是否可以改善慢SQL查询。我为master创建了两名工作人员，他们使用本地Spark Standalone运行。是的，我将内存和内核数量减半以在本地机器上创建工作人员。我使用partitionColumn,lowerBound,UpperBound和numberPartitions指定分区为sqlContext，以便任务（或分区）可以分布在工作者上。我把它们描述如下（pa

1热度

2回答

了解Spark分区

我想了解Spark如何分区数据。假设我有一个像图中那样的执行DAG（橙色框是舞台）。如果RDD没有被分区，则两个groupBy和join操作应该是非常沉重的。那么明智的做法是使用.partitonBy(new HashPartitioner(properValue))来P1，P2，P3和P4避免洗牌？分区现有RDD的成本是多少？何时不适合划分现有的RDD？如果我没有指定分区程序，Spark不会自