我正在做一个hadoop项目,经过多次访问各种博客和阅读文档后,我意识到我需要使用hadoop框架提供的secondry排序功能。Secondary排序Hadoop
我的输入格式的形式为:
DESC(String) Price(Integer) and some other Text
我想在减速值是降价格秩序。 同时比较DESC我有一个方法需要两个字符串和一个百分比,如果两个字符串之间的相似性等于或大于百分比,那么我应该认为它们是相等的。
问题是Reduce作业完成后我可以看到一些类似于其他字符串的DESC,但它们在不同的组中。
以下是分组的复合键
public int compareTo(VendorKey o) {
int result =-
result = compare(token, o.token, ":") >= percentage ? 0:1;
if (result == 0) {
return pid> o.pid ?-1: pid < o.pid ?1:0;
}
return result;
}
和比较的方法我compareTo方法比较
public int compare(WritableComparable a, WritableComparable b) {
VendorKey one = (VendorKey) a;
VendorKey two = (VendorKey) b;
int result = ClusterUtil.compare(one.getToken(), two.getToken(), ":") >= one.getPercentage() ? 0 : 1;
// if (result != 0)
// return two.getToken().compareTo(one.getToken());
return result;
}
修复了compareTo方法吗? – aventurin