用于散列.csv中包含变量的行的java解决方案



我有一个文件,表示以.csv或类似格式记录的表。表可能包含缺少的值。我正在寻找一种解决方案(最好是用java),它可以以增量方式处理我的文件,而无需将所有内容加载到内存中,因为我的文件可能很大。我需要识别文件中的重复记录,能够指定要排除在考虑范围之外的列;然后产生对那些重复记录进行分组的输出。我会在末尾添加一个带有组号的附加值,并以相同的格式(.csv)按组号排序输出。

我希望通过一些散列函数可以找到一个有效的解决方案。例如,读取所有行并存储每个行号的哈希值,哈希值是基于我作为输入提供的变量集计算的。

有什么想法吗?

好吧,这是一篇掌握答案的论文:p.Gopalan&J.Radhakrishnan"在数据流中查找重复项"。

最新更新