2011-11-10 53 views
-2

我有以下任务要做:填写拼写检查字典(简单的txt文件)我需要解析器 哪些应该: - 解析文本文件(或其他类型的文档),提取 每个单词,然后创建简单的文本文件像这样的单词列表: adfadf adfasdfa adfasfdasdf adsfadf ... 等 什么脚本语言和库你有什么建议?如果可能,请举例说明代码(尤其是提取每个单词)。谢谢!如何制作文本文件(或其他文件)解析器?

+0

您应该搜索称为标记器的东西,它将您的字序列划分为可传递的标记到字典。在线有很多开源项目。在这里你可以在java中找到一种算法:http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html – 2011-11-10 10:59:46

回答

2

你想要的不是解析器,而只是一个标记器。这可以在与一群正则表达式的任何语言来完成,但是我不建议用Python NLTK

>>> from nltk.tokenize import word_tokenize 
>>> word_tokenize('Hello, world!') 
['Hello', ',', 'world', '!'] 

一般来说,几乎所有的NLP工具包将包括一个标记,所以没有必要推倒重来;标记化并不困难,但它涉及编写大量启发式方法来处理所有例外,如缩写,首字母缩略词等。

+0

谢谢!我会以这种方式发掘 – user939536

+0

@ user939536:如果它解决了您的问题,请不要忘记单击此答案旁边的复选标记。 –

+0

好吧,它真的帮助!我的aquaintants正在创建这个脚本,谢谢! – user939536