2013-02-28 52 views
-1

我正在处理大量文档,并且具有一组预定义的类别/标记(可能是短语),这些预定义的类别/标记可能以精确或不精确的形式出现在文档的文本中。 我想将每个文档分配给最接近其文本的标签中的一个标签。使用预定义标签标记文档

请问我该怎么做才能解决这个问题。

回答

-1

你可以看看在索引时标记文档的lucene搜索引擎。 Northernlight搜索引擎用于执行您在搜索方法中提及的类似任务。你可以看看它的实现,以获得一个想法。