我有一个字符串列表,我想删除每个字符串中的停用词。问题是,停用词的长度比字符串长得多,我不想重复比较每个字符串和停用词列表。 python中有多种方式可以同时使用这些多个字符串吗?python同时处理多个字符串
lis = ['aka', 'this is a good day', 'a pretty dog']
stopwords = [] # pretty long list of words
for phrase in lis:
phrase = phrase.split(' ') # get list of words
for word in phrase:
if stopwords.contain(word):
phrase.replace(word, '')
这是我目前的方法。但是这意味着我必须经历列表中的所有短语。有没有一种方法可以用一次比较来处理这些短语?
谢谢。
“长”要多长时间?如果它不到10万个元素,我不会担心。特别是如果你将'stopwords'放入一个集合中,因为'set in set x'检查速度非常快。 – Kevin 2014-12-05 16:26:31
一个嵌套的列表理解陈述可能会更好(或更混乱?)看,但这是非常好的方式,我可以看到做到这一点 – TehTris 2014-12-05 16:28:59
@Kevin嗯,它是10万长,但仍然不想以检查多次.. – JudyJiang 2014-12-05 16:29:41