0
如果我有一个从多个csv文件读取并生成键值对的map.py文件,如何将这些文件传递给我的reducer.py并在本地进行测试?如何在本地测试地图并减少代码?
如果我有一个从多个csv文件读取并生成键值对的map.py文件,如何将这些文件传递给我的reducer.py并在本地进行测试?如何在本地测试地图并减少代码?
如果您正在使用Hadoop流,那么你就可以在本地测试你的脚本是这样的:
cat *.csv | map.py | sort -k1,1 | reducer.py
从映射数据传递到减速机在Hadoop的数据流,简单地写"<key>\t<value>"
到stdout
这就是我所解决的。但是使用sort -n – Shehryar
安装的Hadoop在伪模式 – BruceWayne