我想知道我们是否可以使用文本文件作为标记化的手段。例如,假设有一个文件(字典),并且你想标记你检查第一个字典来标记。你可以使用字典(文本)正则表达式标记化吗?
如:
Dict_list = [环境测试中,苹果猫,其余测试]
文本:环境试验是世界苹果猫最好的苹果是在测试休息。
假设文本列表很大,字典也很大,所以如果我们想标记它会标记空格,但是我需要标记整个文本但是我想检查dict_list看看它是否应该是一个标记。
所以令牌应该是:
令牌道: “”, “环境试验”, “是”, “的”, “最好的苹果”, “中”, “中”, “世界”, “苹果猫”,“是”,“该”,“测试休息”。
我希望这是有道理的。
预先感谢您。
不,这没有意义。你有一些代码,预期的结果和实际结果吗?或者这是一个哲学问题。 – RobertB
@Sam这是你的解决方案:http://www.nltk.org/api/nltk.tokenize.html – mertyildiran
@RobertB,我有一个文本文件,我需要标记。我们不能使用普通的正则表达式/标记器来标记文档,所以我需要一种标记这些文本的方法。如果我能结合正则表达式和字典,我相信会更容易。我的问题是,如果这是可能的。 – Sam