我有一个“大”设置线的划定完整的句子,我正在用Hadoop处理。我开发了一个映射器,将一些我最喜欢的NLP技术应用到它。有几种不同的技术可以映射到原始语句集,而我在缩小阶段的目标是将这些结果收集到一个组中,以便组中的所有成员共享相同的原始语句。解析用Hadoop批量文本:最佳实践生成密钥
我觉得利用整个句子的关键是一个坏主意。我觉得产生一些哈希值的句子可能无法工作,因为有限数量的键(不合理的信念)。
谁能推荐生成唯一的密钥对每个句子最好的办法/做法?理想情况下,我想维护秩序。但是,这不是主要要求。
Aνtίο,
你可以给我一个价值空间的粗略数字吗?我需要扩展应用程序,并担心在测试环境中有解决方案,但以后会出现问题。 – sholsapp 2010-07-28 03:32:44
SHA-1输出160位的哈希值,其中有2^160元素的价值空间......我有点怀疑你要去比,哦更多的句子,2^40个左右(那将会是一种每个字符在平均句子长度上为terabyte)。 – Amber 2010-07-28 04:30:29