我使用Hadoop示例程序WordCount处理大型小文件/网页集(cca。2-3 kB)。由于这与hadoop文件的最佳文件大小相距甚远,因此该程序非常慢。我想这是因为设置和裁员的成本远远大于工作本身。这样的小文件也会导致文件名的命名空间耗尽。使用Hadoop处理大量小文件集
我读过,在这种情况下,我应该使用HDFS压缩文件(HAR),但我不确定如何修改此程序WordCount以从此压缩文件读取。程序能否继续工作而不需要修改或者需要修改?
即使我在档案中打包了很多文件,问题仍然存在,如果这会提高性能。我读过,即使我打包了多个文件,一个存档内的这些文件也不会被一个映射器处理,但是很多,在我的情况下(我猜)不会提高性能。
如果这个问题太简单了,请理解我是Hadoop的新手,对它有很少的经验。
我想我可以,但是因为我把页面的URL /地址放在文件的第一行,所以要识别新页面是否有点困难,或者只是定期链接到其他页面。 – Sasa 2011-05-09 00:49:09