如何使用python从文本中提取单词？

我需要提取文本中的单词和短语。例如，文本是：如何使用python从文本中提取单词？

Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456

而且脚本应该返回如下：

Привет 
как 
дела 
еще 
одно 
русское 
слово 
слово-1224

也就是说，我需要的所有以俄文字母开头的单词的文本，以（[а-яА-Яё-] ），并且可以包含俄文字母的数字和字母。这是如何实施的？

我认为你是在谈论这个， http://stackoverflow.com/questions/5717886/python-regex-extracting-whole-words 问候。 – 2013-03-11 07:36:59

这是一个使用正则表达式的简单任务。请阅读他们的工作方式:) – 2013-03-11 07:38:48

你的一些词汇中间有一个“ - ”，但你在这个问题中没有提到它。 – LtWorf 2013-03-11 08:11:14

这比我想象的有点棘手。从未使用cyrrilic字符。我相信这应该这样做：

text = # Set you're input unicode string here. 
words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text) 

for word in words: 
    print word

2013-03-11 08:05:06

回答