distributed

0热度

1回答

我在同一个网络中运行j计主从站配置。当我远程启动服务器时，我可以看到服务器启动和关闭，但在主服务器中没有响应树或摘要报告下的响应。试过非gui模式也没有成功。它甚至在执行时创建空白结果文件。没有错误返回。 **"<?xml version="1.0" encoding="UTF-8"?> <testResults version="1.2"> </testResults>"** 而且当

3热度

1回答

谷歌毫升引擎秤级未在远程分布式培训中运行

在指定“scale-tier STANDARD_1”后，使用REMOTE分布式命令运行张量流：。批次运行失败.... 现在，我只能用简单的单节点运行“规模级= BASIC” gcloud ml-engine jobs submit training census_20171005_162623 --stream-logs --scale-tier STANDARD_1 --staging-bu

0热度

1回答

如何在分布式Tensorflow中实现“DistBelief”体系结构

分布式Tensorflow的当前体系结构基于“Parameter-Server-like”框架。使用tf.device(tf.train.replica_device_setter())，所有张量“变量”被放置在“参数服务器”（“PS”）上，并且其他张量操作被分配给“工人”。据我所知，“工作人员”和“PS”之间会有很多通信开销。原因是每个工作人员没有没有存储在“PS”中的那些“变量”的本地副本，其

0热度

1回答

在分布式张量流中使用grpc + mpi协议 - 错误

我刚刚编译了支持MPI的TensorFlow（master），并且现在在tf.train.Server对象中指定了“grpc + mpi”协议。但是，试图启动训练过程时，总有一个确切工人谁与错误 F ./tensorflow/contrib/mpi/mpi_utils.h:47] Failed to convert worker name to MPI index: ps:0:0 我每次重现错误失

0热度

1回答

dask分布式抓取所有可用内存+ swap

我正在运行一个非常简单的操作，或者我认为这样做，所以我必须做一些非常愚蠢的事情。但我用尽了选择..所以这是一个问题。我正在使用dask分发来加载数据从parquet表配置单元/ snappy/80文件，400M /行，8列，其中，由于绝望，我只读了一列，并计算其总和，无济于事。我正在使用内存限制来强制内存使用率很低，但是这样的限制被忽略。在笔记本 c=Client("192.168.33.23

0热度

2回答

分布式Tensorflow：CreateSession仍然只在等待不同节点

我正在尝试获取mnist_replica.py示例工作。根据this问题的建议，我正在指定设备过滤器。我的代码在ps和工作任务在同一个节点上时工作。当我尝试将节点1上的ps任务和节点2上的辅助任务放到“CreateSession仍在等待”时。例如：伪分布式版本（作品！）节点1的终端转储（例如1） node1 $ python mnist_replica.py --worker_hosts=

0热度

1回答

erlang ssh_sftp start_channel函数调用失败

我们有一个基于erlang的分布式系统系统，其中包含一个服务器节点和数百个客户端节点（系统通过内部网络分布）。我们要求所有客户端节点都将连接到服务器节点，并尝试使用sftp同时下载某个文件（大多数情况下所有客户端节点将访问相同的文件）。我们按照下载的文件的步骤是：建立服务器节点和客户端节点之间的ssh连接SFTP使用如下函数调用： ssh_sftp:start_channel/2。然后按照下面

1热度

1回答

在dask分布式fastparquet处理时间不一致

我有一个hive格式和快速压缩的parquet文件。它适合内存，pandas.info提供以下数据。在拼花文件每组的行数仅仅是100K >>> df.info() <class 'pandas.core.frame.DataFrame'> Index: 21547746 entries, YyO+tlZtAXYXoZhNr3Vg3+dfVQvrBVGO8j1mfqe4ZHc= to oE4y

-1热度

2回答

什么是亚马逊网络服务*本机*产品最接近Apache Kudu？

我在寻找原生产品，例如任何RDS解决方案，Elastic Cache，Amazon Redshift，而不是我必须自己托管的东西。从Apache的库杜：https://kudu.apache.org/： Kudu provides a combination of fast inserts/updates and efficient columnar scans to enable multi

1热度

1回答

完全基于空闲而不是数据通信来调度任务

使用分布式来调度运行在谷歌计算引擎上的大量相互依赖的任务。当我在中途启动一个额外的工作实例时，没有任何任务被安排到它（尽管它与调度程序一起正常登记）。我相信这是因为（从http://distributed.readthedocs.io/en/latest/scheduling-state.html#distributed.scheduler.decide_worker）： “如果任务需要数据通信，