我想制作程序,它将分割txt文件中的每个单词,以及单词的返回列表,但不重复任何单词。我将我的PDF书转换为txt,然后使用我的程序,但它完全失败。我不知道,我做错了什么。这是我的代码:Python - 在txt中分割单词
def split(file):
lines = open(file, 'rU').readlines()
words = []
word = ''
for line in lines:
for letter in line:
if letter not in [' ', '\n', '.', ',']:
word += letter
elif letter in [' ', '\n', '.', ',']:
if word not in words:
words.append(word)
word = ''
words.sort()
return words
for word in split('AKiss.txt'):
print(word, end=' ')
我还附加了AKiss.txt和原始PDF以防万一它可能有用。
PDF - http://1drv.ms/b/s!AtZrd19H_8oyabhAx-NZvIQD_Ug
TXT - http://1drv.ms/t/s!AtZrd19H_8oyapvBvAo27rNJSwQ
*没有重复* ...为什么不使用set而不是列表? – Mangohero1
你能描述它是如何失败的吗? – glibdud
@glibdud它在理论上返回其他词,但有相同的词,但没有什么区别,真正奇怪的是 - 它们不存在于文件中:“Do”不要“不要扭转”不要扭转“多萝西”多萝西“ –