2011-02-15 62 views
2

我刚开始使用自然语言工具包(NLTK)作为我的工程学院项目的一部分。任何人都可以告诉我怎么做我读取输入段落文本如何查找文本特征并打印出来?

1)分解成文本组件,即到数句,字数,字符数和多音节或复杂的话号在给定的一段

2)亦打印上述确定的值

回答

0

哪里的输入段来自何处?文件?安慰?这是比NLTK更多的python问题。

其余的,请看nltk.tokenize模块& nltk.probability.FreqDist。

+0

输入段落来自控制台和文件。我需要使用句子,单词,字符和复杂单词的数量来查找输入文本的可读性分数。 – ash 2011-02-16 03:32:09

0

从讨论的NLTK google group

import curses 
from curses.ascii import isdigit 
import nltk 
from nltk.corpus import cmudict 

d = cmudict.dict() 

def nsyl(word): 
    return [len(list(y for y in x if isdigit(y[-1]))) for x in d[word.lower()]] 

这应该可以给你一个音节计数每个字。希望这可以帮助。