1

我有一个包含一些(Lat,Long)坐标的大日志文件和一个包含多边形集合的数据库。多边形数据集现在适合内存,但未来可能不会。Polygon Hadoop实现中的点

我想加入这两个数据集,以知道,对于每一个登录的坐标,它是包含在其中的多边形。

你知道什么是使用Hadoop(或猪,如果这个问题的好办法帮助)?

回答

1

对于搜索结果的是来到这里,一个或多个以下的将是有益的好处:

GIS Tools for Hadoop

SpatialHadoop

HadoopGIS

(披露:我是一个GIS Tools for Hadoop的开发者,并由Esri雇用)

0

在第一眼我会建议做这样的:

有一个地图,使用MultipleInputs(数据库多边形和从日志文件拆分)。 对于日志文件分割中的每个点,它会检​​查点是否属于多边形,如果是,则输出该对(点,多边形)。

减速器汇总此信息并输出:(点,它所属的多边形的集合)。

此解决方案不假定多边形的孔集适合主存储器。

如果您确定它确实如此,我认为在开始作业之前查询数据库并将查询结果作为文件放入DistributedCache中会更有效。