我有一个带有文本元素的xml,它包含从OCR读取的文本。 OCR阅读文本并不总是准确的,因此有些拼写错误的英文单词出现。有没有一种方法可以指定只有英文字典中的单词被编入索引。忽略获取索引的非英语单词
0
A
回答
3
使用MarkLogic,数据库配置和XML构成索引API。所以这种定制通常会涉及对XML的更改。这里我看到两种基本方法:
- 转换文本以去掉不在字典中的单词。它们不会出现在XML中,因此它们不会被编入索引。
- 转换文本以标记不在字典中的单词,然后配置数据库字查询设置以排除该单元。它们仍将出现在XML中,但MarkLogic不会为排除的元素创建单词查询术语。
理想情况下,这些转换中的任何一个都可以通过OCR软件完成,但您可以将其作为自定义CPF管道的一部分来实现。
另一种考虑的方法是检查用户对非英语单词的查询,并排除这些单词。这可能采取“你的意思是?”的形式。提示。
相关问题
- 1. 获取英文词典中的单词索引:Python
- 2. 删除python中的非英语单词
- 3. preg_match_all忽略单词
- 4. 如何在Java中获得非英语单词?
- 5. 在线词典的英语单词MySQL
- 6. 搜索与非英语
- 7. 自然英语单词
- 8. Solr 1.3忽略单词“jackie”
- 9. 如何使用Java程序从100个单词中获取英语单词
- 10. htaccess忽略/索引/路径
- 11. Android应用程序中的非英语单词
- 12. wordweb中使用的索引结构(英语词典)
- 13. Solr非英文索引和搜索
- 14. 英文单词捕获
- 15. 搜索Richbox工具为阿拉伯语的单词忽略格式在WPF
- 16. 获取除英语
- 17. Solr短语查询忽略停用词
- 18. 忽略几个不同的单词.. C++?
- 19. placehold.it打印非英文单词
- 20. 提取“情感词”/影响英语语料库中的词吗?
- 21. 如何使用Ruby正则表达式来捕获非英语单词?
- 22. 替换单词 - 忽略括号之间的单词
- 23. 在php中获取非英文字符串的前3个单词在php中
- 24. 检查单词是否是英语Python
- 25. 如何拼写出英语单词
- 26. chrome忽略我的标签索引
- 27. postgresql忽略递归查询的索引
- 28. cin.getline忽略第一个单词?
- 29. 句子比较:忽略单词
- 30. 如何忽略@ sys-number到单词
为了什么目的,你想忽略它们? – grtjn 2015-03-03 12:36:29
我不希望他们被编入索引,因为索引变得臃肿,因为太多的单词不在英文词典中。 – razeeth 2015-03-04 08:47:28