我有以下任务要做:填写拼写检查字典(简单的txt文件)我需要解析器 哪些应该: - 解析文本文件(或其他类型的文档),提取 每个单词,然后创建简单的文本文件像这样的单词列表: adfadf adfasdfa adfasfdasdf adsfadf ... 等 什么脚本语言和库你有什么建议?如果可能,请举例说明代码(尤其是提取每个单词)。谢谢!如何制作文本文件(或其他文件)解析器?
回答
你想要的不是解析器,而只是一个标记器。这可以在与一群正则表达式的任何语言来完成,但是我不建议用Python NLTK:
>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']
一般来说,几乎所有的NLP工具包将包括一个标记,所以没有必要推倒重来;标记化并不困难,但它涉及编写大量启发式方法来处理所有例外,如缩写,首字母缩略词等。
谢谢!我会以这种方式发掘 – user939536
@ user939536:如果它解决了您的问题,请不要忘记单击此答案旁边的复选标记。 –
好吧,它真的帮助!我的aquaintants正在创建这个脚本,谢谢! – user939536
- 1. 如何解析器文件,其中包括其他文件?
- 2. Java - 解析文本文件 - 扫描仪,读取器或其他东西?
- 3. 如何从其他控制器文件
- 4. 从文本文件解析json对象与其他东西 - Python
- 5. 解析定制的纯文本文件
- 6. 如何从html文件解析文本
- 7. 如何用c#解析文本文件?
- 8. Grails如何解析文本文件?
- 9. 拆分文件以解析文本。正则表达式或其他方法
- 10. 解析日志文件 - C#或其他任何
- 11. 如何签署文本文件或任何其他xml
- 12. Java解析器文件文本
- 13. 解析文本文件行
- 14. Groovy解析文本文件
- 15. 解析文本文件
- 16. 解析文本文件不
- 17. 解析文本文件
- 18. 解析文本文件
- 19. C#解析文本文件
- 20. VBA文本文件解析
- 21. ios解析文本文件
- 22. Ruby - 解析文本文件
- 23. 解析文本文件
- 24. 二进制文件和其他文件
- 25. 如何识别文件是一个文本文件或其他使用c#.net
- 26. 使用Linq解析文本文件使用Linq解析文本文件
- 27. 在文本文件替换行与其他文本文件
- 28. 如何将文本文件分割为多个其他文本文件?
- 29. 解析带引文的文本文件
- 30. 文本解析,条件文本
您应该搜索称为标记器的东西,它将您的字序列划分为可传递的标记到字典。在线有很多开源项目。在这里你可以在java中找到一种算法:http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html – 2011-11-10 10:59:46