我正在尝试编写一个简单的python脚本,用于导入* .txt文件并使用NLTK模块对其进行标记。NLTK/Python:将文本标记为固定令牌长度
我面临的挑战是必须标记完整的语料库,但每个标记的长度必须小于或等于200个字符 - NLTK工具箱中是否存在可实现此功能的本机功能?
一个例子: Tokenising第几段,以“战争与和平”的产生以下令牌是303个字符长
token = ["But I warn you, if you don't tell me that this means war, if you still try to defend the infamies and horrors perpetrated by that Antichrist--I really believe he is Antichrist--I will have nothing more to do with you and you are no longer my friend, no longer my 'faithful slave,' as you call yourself"]
它仍包含标点符号(逗号,连字符),我可以写一个函数使用这些类型的断点来破解句子,我的问题是NLTK(或另一种语言解析器?)中是否已经存在本机功能,它可以做到这一点,并有效地处理角落案例?
你能举一个200字符的例子吗?我不认为我曾经见过有超过20或30个字符的人 – 2014-10-29 22:41:01
我已经添加了一个例子 - 要清楚的字符数指的是字母,而不是令牌中的单词(让我知道如果这是不明确的,我可以编辑这个问题) – AdamDynamic 2014-10-29 22:50:44
你真的跑过代码?我不相信这是分词器的作用。它应该输出'[“但是”,“我”,“警告”] nltk,一个标记是句子的一部分,所以要说 - 或一个词(但不总是) – 2014-10-29 22:57:55