忽略获取索引的非英语单词

我有一个带有文本元素的xml，它包含从OCR读取的文本。 OCR阅读文本并不总是准确的，因此有些拼写错误的英文单词出现。有没有一种方法可以指定只有英文字典中的单词被编入索引。忽略获取索引的非英语单词

来源

2015-03-03 razeeth

为了什么目的，你想忽略它们？ – grtjn 2015-03-03 12:36:29

我不希望他们被编入索引，因为索引变得臃肿，因为太多的单词不在英文词典中。 – razeeth 2015-03-04 08:47:28

使用MarkLogic，数据库配置和XML构成索引API。所以这种定制通常会涉及对XML的更改。这里我看到两种基本方法：

转换文本以去掉不在字典中的单词。它们不会出现在XML中，因此它们不会被编入索引。
转换文本以标记不在字典中的单词，然后配置数据库字查询设置以排除该单元。它们仍将出现在XML中，但MarkLogic不会为排除的元素创建单词查询术语。

理想情况下，这些转换中的任何一个都可以通过OCR软件完成，但您可以将其作为自定义CPF管道的一部分来实现。

另一种考虑的方法是检查用户对非英语单词的查询，并排除这些单词。这可能采取“你的意思是？”的形式。提示。

来源

2015-03-03 17:19:53 mblakele

感谢您的输入。没有对OCR输出的控制。选项2将是更好的方法，因为我们不想删除数据。 – razeeth 2015-03-04 08:46:17

一个CPF管道的完整示例对于SO来说有点长，但是可以尝试https://docs.marklogic.com/guide/cpf/quickStart，并根据需要开启新的问题。在某些时候，您必须在XQuery或XSLT中编写转换，并使用拼写字典。 – mblakele 2015-03-04 17:34:34

忽略获取索引的非英语单词

回答

相关问题