-1
在training_set
文件夹中输入文件,文件中像这样Hadoop的选择输入文件夹
mv_000000
mv_000001
mv_000002
...
指数存在是可以在movie_title.txt
movie_title.tx
文件中找到的影片ID是这样的:
1,2003,Dinosaur Planet
2,2004,Isle of Man TT 2004 Review
3,1997,Character
4,1994,Paula Abdul's Get Up & Dance
5,2004,The Rise and Fall of ECW
...
第一列是特定电影名称的索引。
我在netplix大赛数据集上练习hadoop基础。 我假设我插入了特定的电影标题,如“生病”。 然后转到movie_titles.txt
文件并搜索“sick”的moive title id。 最后设置输入路径电影标题ID。
例如,如果我的hadoop启动程序为:
hadoop jar ~ [input path] [output path] [moiveA name]
比必须设置输入路径training_set/mv_movieAIndex
。
正如我所说,电影ID的信息存在于movie_title.txt
。
请给我一点提示,找出这个问题。
你最终的目标是什么?我的意思是你正在发送邮件地图红色作为输出? – SMA 2014-11-09 06:19:44