我有一个算法,将通过一个大型的数据集读取一些文本文件,并在这些行中搜索特定的术语。我已经用Java实现了它,但我不想发布代码,以便它看起来不在我正在寻找某人为我实现它,但这确实是我真的需要很多帮助!这不是我的项目计划,但数据集是巨大的,所以老师告诉我,我必须这样做。需要帮助实现这个算法与地图Hadoop MapReduce
编辑(我没有澄清我previos版本)的数据集我是Hadoop集群上,我应该做出的MapReduce实现
我读到关于MapReduce和thaught,我第一次做标准的实现,然后用mapreduce做起来会更容易/不那么容易。但没有发生,因为算法是相当愚蠢的,没有什么特别的,地图减少...我不能笼络它。
所以这里不久伪我的算法的代码
LIST termList (there is method that creates this list from lucene index)
FOLDER topFolder
INPUT topFolder
IF it is folder and not empty
list files (there are 30 sub folders inside)
FOR EACH sub folder
GET file "CheckedFile.txt"
analyze(CheckedFile)
ENDFOR
END IF
Method ANALYZE(CheckedFile)
read CheckedFile
WHILE CheckedFile has next line
GET line
FOR(loops through termList)
GET third word from line
IF third word = term from list
append whole line to string buffer
ENDIF
ENDFOR
END WHILE
OUTPUT string buffer to file
而且,正如你所看到的,每次当“分析”之称,新文件被创建时,我明白了地图减轻困难写入许多输出?
我明白mapreduce的直觉,我的例子似乎完全适合mapreduce,但是当涉及到这样做时,显然我不知道足够多,而且我很饿!
请帮忙。
嗨! Thanx的答案!但我不确定我明白:/你能给我更多的信息吗?你可能有这样的例子吗? – Julia 2010-06-08 15:30:26