2013-02-11 143 views
0

我有一小组文件缓存并通过DistributedCache分发到映射减少作业。 缓存的文件将来需要定期更新。我想知道是否可以在不重新启动地图缩减作业的情况下更新缓存的文件。更新Hadoop中分布式缓存中的缓存文件

我阅读了关于跟踪缓存文件的修改时间戳的分布式缓存。当地图缩小作业未使用文件时,这对于更新文件有用吗?

回答

2

缓存的文件在提交作业时被复制到HDFS,然后在产生M/R任务之前由不同的任务跟踪器本地复制到本地节点。因此,作业运行时,分布式缓存中的文件无法更改。

+0

谢谢你。如果无法修改,那么可以使用DistributedCache跟踪修改时间戳记? – Chitra 2013-02-12 16:13:51

+0

从[here](https://ccp.cloudera.com/display/DOC/Hadoop+Tutorial) - 分布式缓存跟踪缓存文件的修改时间戳。显然缓存文件不应该由应用程序修改,或者在作业执行时外部修改。 – 2013-02-13 07:20:19