2017-02-14 73 views
2

我试图从包含文本的文本文件中获取关键字,并且我首先填充文本。下面的代码有效,但由于某种原因,它会在关键字列表前生成字母“u”。例如。这就是我得到:Python Snowball Stemmer + RAKE:生成'u's

[(u'keyword1', 5), (u'keyword2', 4)]

而且我不知道在哪里的“U”从何而来。 这里是代码(导入包后):

stemmer = SnowballStemmer("english") 
rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4) 
s = open("test.txt", "r").read() 
s = re.sub('[^a-zA-Z0-9-_*.]', ' ', s) # Remove special characters that might cause problems with stemming 
words = s.split() 
stemmed = [stemmer.stem(word) for word in words] 
stemmed = ' '.join(stemmed) 
keywords = rake_object.run(stemmed) # Perform RAKE on stemmed text 
print(keywords) 
+0

这只是表示它是Unicode字符串,它是字符串类型。 – Arman

+0

好的,谢谢。我想将关键字存储到文本文件中,但它也将这个'u'存储在文本文件中。你知道我如何才能将关键字存储在文本文件中? (所以没有'u',括号和分数) – vdvaxel

+0

这是python-2的权利? –

回答

0

这意味着它是Unicode字符串,词干返回此类型的字符串。从2.0开始,它就是Python的语法,在Pythons 2.x中。要获得更多信息,请阅读documentation。不要担心。