我遇到以下问题。 我使用和API连接到某个地方,并获取数据作为输入流。 的目标是在删除重复行后保存数据。 第10,15,22列定义的重复。在大型数据库中删除java中的重复项
我使用多个线程获取数据。 目前我首先将数据保存到csv文件中,然后删除重复项。 我想在阅读数据时做到这一点。 数据量约为1000万条记录。 我有限的内存,我可以使用。该机器有32GB的内存,但我有限,因为有其他应用程序使用它。
我在这里读到了关于使用哈希映射。 但我不确定我有足够的内存来使用它。
有没有人有建议如何解决这个问题?
您是否有API的输出示例?是由三列(10,15,22)的组合定义的重复,还是每一列都必须是唯一的,而不涉及其他列? –
api的输出是类似于这样的字符串: =“banna”,=“orange”,=“apple”...等约30个元素。 这些列的组合是关键。 – mikeP