2015-03-03 74 views
0

我有一个带有文本元素的xml,它包含从OCR读取的文本。 OCR阅读文本并不总是准确的,因此有些拼写错误的英文单词出现。有没有一种方法可以指定只有英文字典中的单词被编入索引。忽略获取索引的非英语单词

+0

为了什么目的,你想忽略它们? – grtjn 2015-03-03 12:36:29

+0

我不希望他们被编入索引,因为索引变得臃肿,因为太多的单词不在英文词典中。 – razeeth 2015-03-04 08:47:28

回答

3

使用MarkLogic,数据库配置和XML构成索引API。所以这种定制通常会涉及对XML的更改。这里我看到两种基本方法:

  1. 转换文本以去掉不在字典中的单词。它们不会出现在XML中,因此它们不会被编入索引。
  2. 转换文本以标记不在字典中的单词,然后配置数据库字查询设置以排除该单元。它们仍将出现在XML中,但MarkLogic不会为排除的元素创建单词查询术语。

理想情况下,这些转换中的任何一个都可以通过OCR软件完成,但您可以将其作为自定义CPF管道的一部分来实现。

另一种考虑的方法是检查用户对非英语单词的查询,并排除这些单词。这可能采取“你的意思是?”的形式。提示。

+0

感谢您的输入。没有对OCR输出的控制。选项2将是更好的方法,因为我们不想删除数据。 – razeeth 2015-03-04 08:46:17

+0

一个CPF管道的完整示例对于SO来说有点长,但是可以尝试https://docs.marklogic.com/guide/cpf/quickStart,并根据需要开启新的问题。在某些时候,您必须在XQuery或XSLT中编写转换,并使用拼写字典。 – mblakele 2015-03-04 17:34:34