2017-01-03 79 views
0

我有2个文件以下内容合并多个文件,并写入新文件没有重复在Java中

file1.txt 
stack 1 
overflow 2 
frequency 4 

file2.txt 
stack 2 
overflow 1 
terms 5 

我想将多个文件合并这样的创造与下面的输出

final.txt 
stack 3 
overflow 3 
terms 5 
frequency 4 
一个新的文件

注:文件是非常大的规模

任何人可以帮助什么是做这种方式吗?

+0

尝试使用'Map '来保存计数。 –

+0

我可以做到这一点,但文件是非常大的,所以会有很多的条款和计数,所以我可能会得到一些内存的问题。即将有超过2个文件是具体的将是7个文件。我们有任何更好的选择? – premkumar

+0

您能否提供您迄今采取的步骤?你自己做了什么吗? –

回答

0

您可以试试Spark。 Spark建立在分布式数据集的概念上,分布式数据集包含任意的Java或Python对象。您从外部数据创建数据集,然后对其应用并行操作。

+0

我现在意识到sparks.do我们需要HDFS设置来运行这些火花作业?如果是这样,我目前不能拥有那个 – premkumar

+0

不,你可以在我的github中看到我的例子。我从excel文件中读取并执行操作。 https://github.com/nvtam2105/spark-demo –