2013-03-11 118 views
0

我需要提取文本中的单词和短语。例如,文本是:如何使用python从文本中提取单词?

Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456 

而且脚本应该返回如下:

Привет 
как 
дела 
еще 
одно 
русское 
слово 
слово-1224 

也就是说,我需要的所有以俄文字母开头的单词的文本,以([а-яА-Яё-] ),并且可以包含俄文字母的数字和字母。这是如何实施的?

+0

我认为你是在谈论这个, http://stackoverflow.com/questions/5717886/python-regex-extracting-whole-words 问候。 – 2013-03-11 07:36:59

+1

这是一个使用正则表达式的简单任务。请阅读他们的工作方式:) – 2013-03-11 07:38:48

+1

你的一些词汇中间有一个“ - ”,但你在这个问题中没有提到它。 – LtWorf 2013-03-11 08:11:14

回答

1

这比我想象的有点棘手。从未使用cyrrilic字符。我相信这应该这样做:

text = # Set you're input unicode string here. 
words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text) 

for word in words: 
    print word