distributed-computing

    0热度

    1回答

    start(_Type, _Args) -> case application:get_env(ebid, join_schema) of undefined -> mnesia:create_schema([node()]), mnesia:start(), initialize_tables(), mnesia:wait_fo

    6热度

    1回答

    我有一个PySpark应用程序必须详细说明5GB的压缩数据(字符串)。我正在使用一个带有12个内核(24个线程)和72Gb RAM的小型服务器。我的PySpark程序仅包含2个地图操作,由3个非常大的正则表达式(每个3gb已编译)和pickle加载。 Spark工作在独立模式下,工人和主人在同一台机器上。 我的问题是:是否为每个执行器核心引发复制每个变量?因为它使用所有可用的内存,然后使用大量的交

    3热度

    1回答

    在这个post,有人提到: 此外,还有工人和PS设备之间没有内置区别 - 它只是一个约定,变量会被分配到PS设备和 OPS被分配到工作人员设备。 在这种post,有人提到: TL; DR:TensorFlow不知道“参数服务器”什么,但 相反,它支持在多个设备上运行的图表在 不同流程。其中一些进程具有名称为 的设备以"/job:ps"开头,并且这些设备包含这些变量。工作人员驱动 的培训过程,当他们

    1热度

    1回答

    几乎我们所有的应用程序都在嵌入拓扑中使用Hazelcast集群。 由于应用程序的高负载,我们偶尔会遇到内存和cpu问题。正因为如此,我们计划将我们的拓扑从嵌入式改为客户端/服务器模式。 问题是,我们是否应该为每个应用程序设置一个新的群集?还是应该单个群集为所有客户端应用程序提供服务 我知道可以在jvm中启动多个hazelcast实例(http://docs.hazelcast.org/docs/3

    1热度

    1回答

    我使用火花2 + Scala的培养基于逻辑回归二元分类模型与我使用import org.apache.spark.ml.classification.LogisticRegression,这是在火花2。然而新毫升API,当我通过AUROC评估的模型,我没有找到一种方法来使用概率(0-1中的double)而不是二进制分类(0/1)。这是以前通过removeThreshold()实现的,但在ml.Lo

    0热度

    1回答

    我有一个任务在分布式系统中选择实现消息代理。 Firebase云消息传递是否被视为一个?

    0热度

    1回答

    我正在实现一个完全分散的数据库。任何人随时都可以上传任何类型的数据。适合这个问题的一个好的解决方案是不可变的分布式散列表。值是用他们的散列键入的。不变性确保此映射始终有效,简化数据完整性检查并避免同步。 为了提供一些数据检索设施,将实施基于标签的分类。任何密钥(与单个唯一值关联)都可以使用任意标签(任意字节序列)进行标记。为了简单起见,我想使用相同的分布式散列表来存储这个标签哈希索引。 要实现这个

    0热度

    1回答

    创建分布式系统时,主要问题之一是调试问题出现的位置和方式,并且通常您唯一可用于进行事后处理的工具是可用日志。尝试处理来自不同系统的日志的一种方法是在系统请求之后的generating a unique sequence number。 与此有关的一个小问题是找出在何处绘制请求开始的边界。如果有人说这个边界是从浏览器开始的,那么使用some GUID library就会产生唯一标识符到浏览器。这是一

    1热度

    1回答

    我在试验Spark与多集群是否可以改善慢SQL查询。我为master创建了两名工作人员,他们使用本地Spark Standalone运行。是的,我将内存和内核数量减半以在本地机器上创建工作人员。我使用partitionColumn,lowerBound,UpperBound和numberPartitions指定分区为sqlContext,以便任务(或分区)可以分布在工作者上。我把它们描述如下(pa

    1热度

    2回答

    我想了解Spark如何分区数据。假设我有一个像图中那样的执行DAG(橙色框是舞台)。如果RDD没有被分区,则两个groupBy和join操作应该是非常沉重的。 那么明智的做法是使用.partitonBy(new HashPartitioner(properValue))来P1,P2,P3和P4避免洗牌?分区现有RDD的成本是多少?何时不适合划分现有的RDD?如果我没有指定分区程序,Spark不会自